전 세계 사람들은 언어와 관계없이 동일한 기본 리듬으로 말한다
- 기초과학 / 문광주 기자 / 2025-08-22 11:19:46
4분 읽기
- 전 세계 사람들이 총 48개 언어로 나눈 대화 녹음 668개를 비교
- 인간 대화에서 억양 단위는 항상 평균 0.6Hz의 동일한 속도로 맥동하는 것으로 나타나
- 우리는 1.6초마다 한 언어 구성 요소에서 다음 구성 요소로 전환
- 이 지식은 언어 장애 치료, AI 시스템 발음을 더욱 자연스럽게 만드는 데에도 도움
사람들이 대화할 때 대화는 항상 춤처럼 진행된다. 멈춤, 악센트, 그리고 어구의 전환으로 끊기는 흐름의 단계들이 있다. 이 언어적 춤의 음량, 어조, 템포는 언어마다 다르지만, 발화의 리듬 순서에는 항상 역동적인 패턴이 있다.
비트를 찾아서
예루살렘 히브리 대학교의 마야 인바르(Maya Inbar)가 이끄는 연구진은 인간 언어가 우리 본성에 뿌리를 둔 보편적인 리듬을 가지고 있을지를 조사했다. 이를 위해 연구진은 전 세계 사람들이 총 48개 언어로 나눈 대화 녹음 668개를 비교했다. 여기에는 영어와 같은 세계 공용어뿐만 아니라 인도네시아 토톨리어와 같이 외딴 지역의 희귀하고 멸종 위기에 처한 언어도 포함되었다. 화자들의 연령 또한 다양했다.
인바르와 동료들은 알고리즘을 사용하여 이러한 다양한 녹음에서 소위 억양 단위, 즉 언어의 작은 구성 요소와 음조 시퀀스를 찾아냈다. 연구진은 이러한 "발화 단위는 단일하고 일관된 음높이 윤곽으로 발화된다"고 설명했다. 이러한 발화 단위 내에서 음절은 처음에는 더 빠르고 크게, 그다음에는 더 느리고 부드러워진다. 연구팀은 이러한 단위가 어족과 화자에 따라 어떻게 배열되는지 비교했다.
1.6초마다 변화
연구 결과, 인간 대화에서 억양 단위는 항상 평균 0.6Hz(헤르츠)의 동일한 속도로 맥동하는 것으로 나타났다. 이는 우리가 대화에서 약 1.6초마다 한 발화 단위에서 다음 발화 단위로 전환한다는 것을 의미한다. 따라서 인간 언어는 보편적인 리듬으로 배열된 작은 조각들로 이루어져 있다.
이 리듬은 사용하는 언어, 화자의 나이, 그리고 음절을 연결하는 리듬과는 무관하다. 후자의 평균 주파수는 6.77Hz이다. 언어에 따라 하나의 억양 단위에 포함되는 음절과 단어의 수는 더 많거나 적다. 이는 억양 단위의 기본 리듬이 같음에도 불구하고 서로 다른 언어가 매우 다르게 들리는 이유를 설명한다. 연구진은 기본 리듬과 음절 리듬의 미세한 차이를 통해 개인의 말소리 멜로디가 형성된다고 설명했다.
뇌가 리듬을 설정할 수 있다는 연구 결과도 있다.
또 다른 발견은 말할 때 억양 단위의 리듬이 우리가 누군가의 말을 듣고 언어를 이해할 때 뇌파와 유사한 저주파 리듬을 따른다는 것이다. 연구진은 "이러한 결과는 우리가 언어를 제어하는 방식이 단순한 문화적 유물이 아니라 인간의 인지와 생물학에 깊이 뿌리박혀 있음을 시사한다"고 말했다.
연구에 따르면, 인간은 학습된 문화적 발화 패턴이 아닌 뇌에 의해 결정되는 자연스러운 발화 리듬을 가지고 있다. 후속 연구에서 인바르와 동료들은 기본적인 발화 리듬이 뇌의 리듬과 실제로 연결되어 있는지, 그리고 호흡, 심박수, 안구 운동과 같은 다른 신체 리듬과도 연결되어 있는지 조사할 계획이다.
실용 지식
이러한 연구 결과는 아이들이 어떻게 말을 배우는지, 대화에서 어떻게 차례대로 말하는지, 그리고 대화에서 정보를 어떻게 처리하는지 이해하는 데 도움이 된다. 연구팀은 억양 단위와 그 리듬이 이러한 모든 과정에서 중요한 역할을 한다고 설명했다. "이러한 시간적 구조는 우리가 대화를 통해 어떻게 사회적으로 연결되는지 설명하는 데 도움이 될 수 있다"고 런던 대학교의 수석 저자인 아예렛 란다우(Ayelet Landau)는 말했다.
이러한 지식은 언어 장애를 치료하거나 AI 시스템의 발음을 더욱 자연스럽게 만드는 데에도 도움이 될 수 있다.
참고: 미국 국립과학원 회보, 2025; doi: 10.1073/pnas.2425166122
출처: 예루살렘 히브리 대학교
- 전 세계 사람들이 총 48개 언어로 나눈 대화 녹음 668개를 비교
- 인간 대화에서 억양 단위는 항상 평균 0.6Hz의 동일한 속도로 맥동하는 것으로 나타나
- 우리는 1.6초마다 한 언어 구성 요소에서 다음 구성 요소로 전환
- 이 지식은 언어 장애 치료, AI 시스템 발음을 더욱 자연스럽게 만드는 데에도 도움
인간 언어는 보편적인 리듬을 가지고 있다.
우리의 대화는 정해진 시간 간격의 발화로 구성돼
보편적인 패턴:
전 세계 사람들은 언어와 관계없이 동일한 기본 리듬으로 말한다. 한 연구에 따르면 인간 언어는 항상 동일한 리듬을 따르는 작은 소리 단위로 나뉜다. 따라서 우리는 1.6초마다 한 언어 구성 요소에서 다음 구성 요소로 전환한다. 여기서 놀라운 점은 우리의 뇌가 동일한 리듬에 따라 진동한다는 것이다. 이는 우리의 뇌가 인간 의사소통의 보편적인 리듬을 제어한다는 것을 시사한다.
![]() |
▲ 인간의 언어는 보편적인 리듬에 맞춰 배열된 작은 조각들로 이루어져 있다. © libre de droit_GettyImages |
사람들이 대화할 때 대화는 항상 춤처럼 진행된다. 멈춤, 악센트, 그리고 어구의 전환으로 끊기는 흐름의 단계들이 있다. 이 언어적 춤의 음량, 어조, 템포는 언어마다 다르지만, 발화의 리듬 순서에는 항상 역동적인 패턴이 있다.
비트를 찾아서
예루살렘 히브리 대학교의 마야 인바르(Maya Inbar)가 이끄는 연구진은 인간 언어가 우리 본성에 뿌리를 둔 보편적인 리듬을 가지고 있을지를 조사했다. 이를 위해 연구진은 전 세계 사람들이 총 48개 언어로 나눈 대화 녹음 668개를 비교했다. 여기에는 영어와 같은 세계 공용어뿐만 아니라 인도네시아 토톨리어와 같이 외딴 지역의 희귀하고 멸종 위기에 처한 언어도 포함되었다. 화자들의 연령 또한 다양했다.
인바르와 동료들은 알고리즘을 사용하여 이러한 다양한 녹음에서 소위 억양 단위, 즉 언어의 작은 구성 요소와 음조 시퀀스를 찾아냈다. 연구진은 이러한 "발화 단위는 단일하고 일관된 음높이 윤곽으로 발화된다"고 설명했다. 이러한 발화 단위 내에서 음절은 처음에는 더 빠르고 크게, 그다음에는 더 느리고 부드러워진다. 연구팀은 이러한 단위가 어족과 화자에 따라 어떻게 배열되는지 비교했다.
![]() |
▲ 수동으로 주석 처리된 IU와 자동으로 도출된 IU의 유사점과 차이점. 각 측정값에서 자동으로 도출된 IU의 데이터는 컬러로, 수동으로 주석 처리된 IU의 데이터는 투명한 회색으로 시각화했다. (A~C) IU당 단어 수(A), IU 지속 시간(B), 그리고 IU 간 멈춤 시간(C)의 확률 분포. 히스토그램 구간은 0.1초다. 두 분포 간에 유의미한 차이가 있는 경우, 해당 그림에 P값을 제공. (D~F) 음성 포락선(D), f0(E) 및 고조파 비율(F)의 시간 및 스케일 정규화된 시간 경과. 음영 처리된 리본은 여러 시점에 걸친 다중 비교를 위해 보정된 95% 신뢰구간(CI)을 나타낸다. (출처:A universal of speech timing: Intonation units form low-frequency rhythms / August 19, 2025 / PNAS) |
1.6초마다 변화
연구 결과, 인간 대화에서 억양 단위는 항상 평균 0.6Hz(헤르츠)의 동일한 속도로 맥동하는 것으로 나타났다. 이는 우리가 대화에서 약 1.6초마다 한 발화 단위에서 다음 발화 단위로 전환한다는 것을 의미한다. 따라서 인간 언어는 보편적인 리듬으로 배열된 작은 조각들로 이루어져 있다.
이 리듬은 사용하는 언어, 화자의 나이, 그리고 음절을 연결하는 리듬과는 무관하다. 후자의 평균 주파수는 6.77Hz이다. 언어에 따라 하나의 억양 단위에 포함되는 음절과 단어의 수는 더 많거나 적다. 이는 억양 단위의 기본 리듬이 같음에도 불구하고 서로 다른 언어가 매우 다르게 들리는 이유를 설명한다. 연구진은 기본 리듬과 음절 리듬의 미세한 차이를 통해 개인의 말소리 멜로디가 형성된다고 설명했다.
![]() |
▲ 자동 도출된 IU의 전체 평균 포락선(A), f0(B), 그리고 고조파 비율(C) 시간 경과 및 위상 일치도 스펙트럼(D; 다음 섹션 참조). 48개 언어에 대한 전체 평균은 컬러로 표시. 한 언어 내 녹음에 대한 전체 평균은 얇은 회색 선으로 표시. 음영 처리된 리본은 언어 간 다중 비교를 위해 보정된 95% 부트스트랩 CI를 나타낸다. (출처:A universal of speech timing: Intonation units form low-frequency rhythms / August 19, 2025 / PNAS) |
뇌가 리듬을 설정할 수 있다는 연구 결과도 있다.
또 다른 발견은 말할 때 억양 단위의 리듬이 우리가 누군가의 말을 듣고 언어를 이해할 때 뇌파와 유사한 저주파 리듬을 따른다는 것이다. 연구진은 "이러한 결과는 우리가 언어를 제어하는 방식이 단순한 문화적 유물이 아니라 인간의 인지와 생물학에 깊이 뿌리박혀 있음을 시사한다"고 말했다.
![]() |
▲ 48개 언어의 위상 일치 스펙트럼(왼쪽)과 IU 지속 시간(분홍색), 멈춤 시간(녹색), 그리고 IU 간 온셋 간격(IU-IOI, 회색)의 확률 분포. 위상 일관성 스펙트럼 아래의 색상 영역은 주파수에 걸친 다중 비교를 보정한 후 귀무 가설에서 예상한 것보다 상당히 높은 스펙트럼 부분에 해당한다(SI 부록, 텍스트 S1: 통계 분석: IU 비율). 언어는 최대 일관성 값에 따라 오름차순으로 정렬된다. 위상 일관성 스펙트럼의 y축 범위는 0과 0.63 사이에 있으며, 이는 샘플에서 얻은 최대 일관성 값이다(Warlpiri). 지속 시간과 인터온셋 간격 확률 분포의 y축 범위는 0과 0.2 사이에 있으며, 히스토그램 빈은 0.2초에 걸쳐 있다. 일시 정지 지속 시간 확률 분포의 y축 범위는 0과 0.8 사이에 있으며, 히스토그램 빈은 0.1초에 걸쳐 있다. 지속 시간과 인터온셋 간격의 변동 계수(CoV) 점수는 해당 히스토그램의 오른쪽 상단에 나타난다. (출처:A universal of speech timing: Intonation units form low-frequency rhythms / August 19, 2025 / PNAS) |
연구에 따르면, 인간은 학습된 문화적 발화 패턴이 아닌 뇌에 의해 결정되는 자연스러운 발화 리듬을 가지고 있다. 후속 연구에서 인바르와 동료들은 기본적인 발화 리듬이 뇌의 리듬과 실제로 연결되어 있는지, 그리고 호흡, 심박수, 안구 운동과 같은 다른 신체 리듬과도 연결되어 있는지 조사할 계획이다.
![]() |
▲ 우리는 약 1.6초마다 한 음성 세그먼트에서 다음 음성 세그먼트로 전환한다. © AI-generated (Copilot) |
실용 지식
이러한 연구 결과는 아이들이 어떻게 말을 배우는지, 대화에서 어떻게 차례대로 말하는지, 그리고 대화에서 정보를 어떻게 처리하는지 이해하는 데 도움이 된다. 연구팀은 억양 단위와 그 리듬이 이러한 모든 과정에서 중요한 역할을 한다고 설명했다. "이러한 시간적 구조는 우리가 대화를 통해 어떻게 사회적으로 연결되는지 설명하는 데 도움이 될 수 있다"고 런던 대학교의 수석 저자인 아예렛 란다우(Ayelet Landau)는 말했다.
이러한 지식은 언어 장애를 치료하거나 AI 시스템의 발음을 더욱 자연스럽게 만드는 데에도 도움이 될 수 있다.
참고: 미국 국립과학원 회보, 2025; doi: 10.1073/pnas.2425166122
출처: 예루살렘 히브리 대학교
[더사이언스플러스=문광주 기자]
[ⓒ the SCIENCE plus. 무단전재-재배포 금지]