인간이 음성 인식에서 AI를 이겼다.

기술 / 문광주 기자 / 2024-04-11 22:57:17
3'00" 읽기
AI가 생성한 스크립트보다 수동으로 녹음한 오디오 녹음이 더 좋다.
배경소음이 음성 인식 방해

인간이 음성 인식에서 AI를 이겼다.
AI가 생성한 스크립트보다 수동으로 녹음한 오디오 녹음이 더 좋다.


음성 인식:
인공 지능의 적용 분야 중 하나는 오디오 녹음의 전사(轉寫:말을 발음대로 표기하는 것)다. 이제 비교해 보면 AI는 아직 인간이 만든 수동 전사를 따라잡을 수 없다. 예를 들어 AI 기반 시스템은 연구팀이 보고한 대로 기술 용어나 화자를 올바르게 할당하는 데 문제가 있다.  

▲ 컨퍼런스 포스터 삽화: "Hashes에서 Ashes까지 - 전사 서비스 비교" © CISPA

YouTube 비디오, 오디오 인터뷰 또는 기타 음성 녹음 여부:
많은 정보는 오디오 트랙으로만 제공되며 추가 평가 및 처리를 위해 먼저 서면 텍스트로 "번역"되어야 한다. 좋은 녹취록에는 보충 단어, 반복 또는 말더듬이 없이 관련 음성 단어만 포함된다. 저널리즘이나 연구에서 이러한 녹취록은 전문 서비스 제공업체에 위임되는 경우가 많다.

전사 도우미로서의 AI

이제 이러한 전사 작업에 인공 지능이 점점 더 많이 사용되고 있다. 일부 테스트에서는 이러한 음성 인식 시스템이 인간보다 우수한 것으로 입증되기도 했다. 그러나 이는 언론인이나 연구원이 인터뷰를 변환하기 위해 사용하는 AI 지원 상용 녹취 서비스에도 적용될까?

CISPA(헬름홀츠 정보 보안 센터)의 라파엘 므로브친스키(Rafael Mrowczynski)와 그의 동료들은 이제 이 문제를 더 자세히 조사했다. 이를 위해 그들은 가장 잘 알려진 11개의 서비스 제공업체를 서로 비교했다. 테스트된 서비스 중에는 Amberscript, GoTransript, QualTranscribe, Rev 및 Scribble의 5개 수동 전사 서비스와 6개의 AI 기반 전사 제공업체인 Amazon Transcribe, AssemblyAI, Audiotranscription.de, Google Cloud, Microsoft Azure 및 OpenAI의 Whisper AI가 포함됐다.

11개의 전사 서비스 테스트

테스트를 위해 연구원들은 독일어와 영어로 된 약 10분간의 개별 인터뷰와 그룹 대화로 구성된 동일한 데이터 세트를 제공자에게 보냈다. 녹음 내용은 CISPA 연구원이 제작했으며 사이버 보안 연구 분야를 중심으로 이루어졌다. Mrowczynski는 “녹취의 정확성을 확인할 수 있도록 커뮤니티의 기술 용어를 사용하는 것이 중요했다”고 설명했다. 연구팀은 일상적인 연구에서 실제 인터뷰 조건에서 발생하는 배경 소음을 사용하여 일부 인터뷰를 풍성하게 했다.

Mrowczynski와 그의 동료들은 서비스 제공자로부터 받은 성적표를 자체 제작한 참조 성적표와 비교했다. 그들은 각 성적표와 참고 성적표 사이에 얼마나 많은 단어가 다른지, 그리고 내용이 올바르게 재현되었는지를 조사했다.

인간은 인공지능을 능가한다


팀은 "대부분의 수동 전사 서비스는 칭찬할만한 수준의 성능을 가지고 있는 반면, AI 기반 서비스는 녹음과 전사 사이에 의미를 왜곡하는 불일치를 나타내는 경우가 많았다"고 결론지었다. 녹음 내용을 허위로 표현하는 경우가 많다. Mrowczynski와 그의 동료들은 무엇보다도 기술적 용어를 사용하여 이를 결정했다. Mrowczynski는 "예를 들어 기록에서 '해시'가 '재'라는 단어가 되었다"고 말했다.

최근 몇 년 동안 음성 인식이 발전했음에도 불구하고 AI 기반 제공업체는 대화 및 그룹 대화에서 음성 콘텐츠를 올바른 화자에게 할당하는 데 계속해서 문제를 겪고 있다. 또한 팀의 보고에 따르면 AI가 생성한 녹취록 파일은 텍스트를 연구용 분석 소프트웨어에 사용하기 전에 다시 형식화해야 했다.

배경 소음이 음성 인식을 방해한다.

전반적으로 대부분의 전사 제공업체는 독일어보다 영어와 더 잘 지냈다. Mrowczynski와 그의 팀이 발견한 것처럼 배경 소음은 일반적으로 녹취록 결과에 부정적인 영향을 미쳤다. OpenAI의 Whisper AI는 2022년 12월 조사 현황 기준으로 AI 제공업체 중 최고의 녹취록을 제공했다. 그러나 AI 산업의 최근 발전은 이번 연구에서 고려되지 않았다.

연구에 따르면, 지금까지 AI를 기반으로 한 오디오 녹음 녹취에는 인간이 만든 녹취록보다 더 많은 오류 소스와 오류 비율이 더 많이 포함되어 있다. 이는 또한 비디오 사운드트랙에서 자동으로 생성된 자막에 여전히 오류가 자주 포함되는 이유를 설명한다.
(Konferenzposter, ACM CCS 2023)
출처: Helmholtz-Zentrum für Informationssicherheit
CISPA – 헬름홀츠 정보 보안 센터

[더사이언스플러스=문광주 기자]

[ⓒ the SCIENCE plus. 무단전재-재배포 금지]