AI 음성 복제는 사람 목소리와 거의 구분할 수 없다
- 기술 / 문광주 기자 / 2025-09-30 22:43:05
3분 읽기
- 최첨단 AI 음성 합성도구로 생성된 40개 실제 인간음성, 40개 합성음성을 50명에게 재생
- 일반적인 AI 생성 음성은 인간 음성보다 자연스럽지 않은 것으로 평가
- 청취자들이 음성 복제와 인간 음성을 거의 구분하지 못한다는 것을 발견
- 맞춤형 고품질의 사실적인 합성 음성은 교육, 커뮤니케이션 분야에서 사용자 경험을 향상
인공지능 기반 컴퓨터 시스템은 최근 몇 년 동안 빠르게 발전했다. 머신러닝 덕분에 텍스트, 이미지, 비디오, 오디오 녹음 등 모든 종류의 가짜를 만들 수 있다. 어떤 경우에는 AI 모델이 너무 능숙해서 무엇이 진짜이고 무엇이 가짜인지 거의 구분할 수 없다. AI가 생성한 얼굴 이미지는 "초현실적"이 되었다. 너무 사실적으로 보여서 실제 얼굴 이미지보다 사람으로 판단하는 경우가 더 많다.
거기에 누가 말하고 있나요?
런던 퀸 메리 대학교(Queen Mary Uni. of London)의 나딘 라반(Nadine Lavan)이 이끄는 연구진은 동적 사운드트랙에서도 유사한 효과가 나타나는지 조사했다. 연구진은 최첨단 AI 음성 합성 도구를 사용해 생성된 40개의 실제 인간 음성과 40개의 합성 음성을 50명의 피험자에게 재생했다. 인공지능은 실제 사람을 모방하여 소유자의 동의를 얻어 음성을 "복제"하거나, 특정 실제 모델 없이 완전히 인공적인 음성을 생성했다.
각 녹음에는 동일한 네 가지 영어 예문이 포함되어 있었다. 참가자들은 어떤 음성이 가장 사실적으로 들리는지, 어떤 음성이 가장 지배적이거나 신뢰할 수 있는지 0점에서 100점까지의 척도로 평가하도록 요청받았다. 연구팀은 AI가 생성한 음성이 얼마나 설득력 있게 들리는지, 그리고 우리가 여전히 인간 음성과 구별할 수 있는지 알아보고자 했다.
음성 복제는 실제처럼 들리지만, 합성 음성은 그렇지 않다.
심리학자들은 청취자들이 음성 복제와 인간 음성을 거의 구분하지 못한다는 것을 발견했다. 두 경우 모두 분류에서 실수를 할 가능성이 동일했다. 라반과 동료들은 "인공 음성 복제본과 인간 음성은 비슷하게 진짜처럼 들렸다"고 기술했다. 따라서 딥페이크 음성은 최소한 모델만큼은 진짜처럼 보였지만, "초현실적"이지는 않았고, 따라서 실제보다 더 진짜처럼 들리지도 않았다.
순수 합성 음성의 경우, 다소 다른 양상이 나타났다. 참가자들은 대체로 음성이 진짜가 아니라는 것을 쉽게 인식했다. 연구팀은 "일반적인 AI 생성 음성은 인간 음성보다 자연스럽지 않은 것으로 평가되었다"고 지적했다. 그러나 이 실험에서도 참가자들은 이전 연구와 비슷한 빈도로 AI 음성에 속는 경우가 많았다.
더욱이 역설적으로, 참가자들은 이러한 일반적인 AI 음성을 더 신뢰할 만하다고 평가했고, 두 가지 유형의 AI 생성 음성 모두 인간 음성보다 더 우세하다고 평가했다.
누구나 음성 딥페이크를 만들 수 있다.
"AI가 생성한 음성은 우리 주변에 널려 있다. 우리는 모두 알렉사나 시리에게 말을 걸거나, 자동화된 고객 서비스 시스템이 전화를 받아본 적이 있다"고 라반은 말했다. 이러한 AI 음성은 실제 사람의 음성처럼 들리지는 않지만, 이 연구는 AI 기술이 이제 근본적으로 자연스러운 사람 목소리처럼 들리는 음성을 생성할 수 있음을 보여준다.
연구진은 이 연구에 널리 사용되는 상용 소프트웨어를 사용했으며, 딥페이크 제작이 어렵지 않았다고 강조했다. "이 과정에는 최소한의 전문 지식, 몇 분 분량의 음성 녹음, 그리고 거의 비용이 필요하지 않았다"고 심리학자는 말했다.
위협인가, 기회인가?
하지만 이 또한 우려되는 부분이다. 이 소프트웨어를 사용하면 누구나 원하는 음성 복제본을 만들어 잘못된 정보를 유포하거나 사기 및 신원 도용을 저지를 수 있기 때문이다. 따라서 이 연구는 인간과 AI의 경계가 점차 모호해지고 있으며, 우리 사회가 AI 음성 생성기와 관련된 윤리, 저작권, 보안에 대한 미해결 문제를 시급히 해결해야 함을 다시 한번 보여주었다.
동시에 라반과 동료들은 이 모델을 삶의 여러 영역에 적용할 수 있는 기회로 보고 있다. 예를 들어, 맞춤형 고품질의 사실적인 합성 음성은 교육이나 커뮤니케이션 분야에서 사용자 경험을 향상시킬 수 있는데, 그 이유는 음성이 더욱 신뢰할 만하게 들리기 때문이라고 그들은 주장한다.
참고: PLOS One, 2025; doi: 10.1371/journal.pone/0332692
출처: Queen Mary University of London
- 최첨단 AI 음성 합성도구로 생성된 40개 실제 인간음성, 40개 합성음성을 50명에게 재생
- 일반적인 AI 생성 음성은 인간 음성보다 자연스럽지 않은 것으로 평가
- 청취자들이 음성 복제와 인간 음성을 거의 구분하지 못한다는 것을 발견
- 맞춤형 고품질의 사실적인 합성 음성은 교육, 커뮤니케이션 분야에서 사용자 경험을 향상
"음성 복제", 사람 목소리만큼 진짜 같다
AI 음성은 사람 목소리와 거의 구분할 수 없다
AI가 생성한 음성은 너무 자연스러워서 실제 사람 목소리와 구분하기 어렵다는 실험 결과가 나왔다. 이 실험에 따르면 AI 음성 기술은 이제 사람 목소리 녹음만큼 사실적인 "음성 복제"와 딥페이크(Deepfak)를 만들 수 있는 단계에 도달했다. 이는 사기와 남용을 조장하는 동시에 기회를 제공한다.
![]() |
▲ 연구자들이 AI가 생성한 "인간"의 목소리가 현재 우리에게 어떻게 들리는지 테스트했다. © ArtemisDiana/GettyImages |
인공지능 기반 컴퓨터 시스템은 최근 몇 년 동안 빠르게 발전했다. 머신러닝 덕분에 텍스트, 이미지, 비디오, 오디오 녹음 등 모든 종류의 가짜를 만들 수 있다. 어떤 경우에는 AI 모델이 너무 능숙해서 무엇이 진짜이고 무엇이 가짜인지 거의 구분할 수 없다. AI가 생성한 얼굴 이미지는 "초현실적"이 되었다. 너무 사실적으로 보여서 실제 얼굴 이미지보다 사람으로 판단하는 경우가 더 많다.
거기에 누가 말하고 있나요?
런던 퀸 메리 대학교(Queen Mary Uni. of London)의 나딘 라반(Nadine Lavan)이 이끄는 연구진은 동적 사운드트랙에서도 유사한 효과가 나타나는지 조사했다. 연구진은 최첨단 AI 음성 합성 도구를 사용해 생성된 40개의 실제 인간 음성과 40개의 합성 음성을 50명의 피험자에게 재생했다. 인공지능은 실제 사람을 모방하여 소유자의 동의를 얻어 음성을 "복제"하거나, 특정 실제 모델 없이 완전히 인공적인 음성을 생성했다.
![]() |
▲ 지니나 시리 같은 AI 음성은 널리 퍼져 있다. 하지만 이러한 합성 음성은 얼마나 현실적으로 들릴까? |
각 녹음에는 동일한 네 가지 영어 예문이 포함되어 있었다. 참가자들은 어떤 음성이 가장 사실적으로 들리는지, 어떤 음성이 가장 지배적이거나 신뢰할 수 있는지 0점에서 100점까지의 척도로 평가하도록 요청받았다. 연구팀은 AI가 생성한 음성이 얼마나 설득력 있게 들리는지, 그리고 우리가 여전히 인간 음성과 구별할 수 있는지 알아보고자 했다.
음성 복제는 실제처럼 들리지만, 합성 음성은 그렇지 않다.
심리학자들은 청취자들이 음성 복제와 인간 음성을 거의 구분하지 못한다는 것을 발견했다. 두 경우 모두 분류에서 실수를 할 가능성이 동일했다. 라반과 동료들은 "인공 음성 복제본과 인간 음성은 비슷하게 진짜처럼 들렸다"고 기술했다. 따라서 딥페이크 음성은 최소한 모델만큼은 진짜처럼 보였지만, "초현실적"이지는 않았고, 따라서 실제보다 더 진짜처럼 들리지도 않았다.
순수 합성 음성의 경우, 다소 다른 양상이 나타났다. 참가자들은 대체로 음성이 진짜가 아니라는 것을 쉽게 인식했다. 연구팀은 "일반적인 AI 생성 음성은 인간 음성보다 자연스럽지 않은 것으로 평가되었다"고 지적했다. 그러나 이 실험에서도 참가자들은 이전 연구와 비슷한 빈도로 AI 음성에 속는 경우가 많았다.
더욱이 역설적으로, 참가자들은 이러한 일반적인 AI 음성을 더 신뢰할 만하다고 평가했고, 두 가지 유형의 AI 생성 음성 모두 인간 음성보다 더 우세하다고 평가했다.
누구나 음성 딥페이크를 만들 수 있다.
"AI가 생성한 음성은 우리 주변에 널려 있다. 우리는 모두 알렉사나 시리에게 말을 걸거나, 자동화된 고객 서비스 시스템이 전화를 받아본 적이 있다"고 라반은 말했다. 이러한 AI 음성은 실제 사람의 음성처럼 들리지는 않지만, 이 연구는 AI 기술이 이제 근본적으로 자연스러운 사람 목소리처럼 들리는 음성을 생성할 수 있음을 보여준다.
▲ 실험 1a(패널 a, c)와 실험 1b(패널 b, d)에 대한 강제 선택 "인간 또는 AI" 분류 과제와 현실성 평가 과제의 결과를 보여주는 바이올린 플롯. 바이올린 플롯은 상자 그림을 사용하여 데이터 분포를 보여준다. *는 (G)LMM에서 음성 유형 효과에 대한 p < .05를 나타낸다. https://doi.org/10.1371/journal.pone.0332692.g001 |
연구진은 이 연구에 널리 사용되는 상용 소프트웨어를 사용했으며, 딥페이크 제작이 어렵지 않았다고 강조했다. "이 과정에는 최소한의 전문 지식, 몇 분 분량의 음성 녹음, 그리고 거의 비용이 필요하지 않았다"고 심리학자는 말했다.
위협인가, 기회인가?
하지만 이 또한 우려되는 부분이다. 이 소프트웨어를 사용하면 누구나 원하는 음성 복제본을 만들어 잘못된 정보를 유포하거나 사기 및 신원 도용을 저지를 수 있기 때문이다. 따라서 이 연구는 인간과 AI의 경계가 점차 모호해지고 있으며, 우리 사회가 AI 음성 생성기와 관련된 윤리, 저작권, 보안에 대한 미해결 문제를 시급히 해결해야 함을 다시 한번 보여주었다.
![]() |
참고: PLOS One, 2025; doi: 10.1371/journal.pone/0332692
출처: Queen Mary University of London
[더사이언스플러스=문광주 기자]
[ⓒ the SCIENCE plus. 무단전재-재배포 금지]