스마트 홈 시스템의 음성 인식, 때때로 녹음돼 제조업체로 전송된다. (실험 동영상)

스마트 홈 시스템의 음성 인식, 때때로 녹음돼 제조업체로 전송된다. (실험 동영상): Business News / 문광주 기자 / 2020-07-07 14:57:40

(읽기 3분 + 동영상 1분)
음성 지원 시스템은 원치 않아도 대화, 주변 소음을 녹음한다.
잘못 듣고 녹음시작.

Alexa, Siri 등이 우리 대화를 듣고 있다.
음성 어시스턴트는 잘못 들린 문구에 반응한 다음 녹음을 한다.

테스트 결과 Amazon, Apple 또는 Google의 음성 지원은, 원하지 않을 때도 대화 및 기타 주변 소음을 녹음한다. TV 프로그램이나 같은 방에 있는 사람들 사이의 대화도 그렇다. 녹음은 종종 제조업체로 전송되며 사람들이 듣고 평가할 수도 있다.

▲ 일반적인 음성 어시스턴트는 실제 트리거 단어를들을뿐만 아니라 유사한 발음 문구로 시작한다.

© RUB / Katja Marquard

Alexa, Siri, Cortana 또는 Google Assistant :
음성 도우미는 점점 인기를 얻고 있다. 이미 전 세계 수천만 가구에서 작동하고 있다.
이러한 적응형 시스템은 음성 명령에 응답하여 네트워크, 제어 장치 또는 온라인으로 정보를 제공한다. 이 디지털 어시스턴트는 특수 촉발-단어를 통해 활성화된다.

오래전부터 Alexa와 동종 제품들에 대해 자주 잘못 듣는다는 보고가 있었다.
잘못 듣고 트리거 단어와 비슷한 단어에 반응을 한다.

TV 테스트에서 Alexa, Siri, Google

독일 보쿰에 있는 루르 대학교(Ruhr University Bochum, RUB)의 레아 쇤헤르(Lea Schönherr)와 동료들은 최근 이것이 실제로 얼마나 자주 발생하고 어떤 단어가 이 잘못된 반응을 일으키는지를 체계적으로 테스트했다.
이를 위해 8개 제조업체의 11개 언어 어시스턴트를 독일어, 영어 및 중국어 사운드 시스템에 몇 시간 동안 노출했다. Telekom의 Alexa, Siri, Cortana, Google Assistant 및 Houndify 외에도 세 가지 중국 모델도 테스트에 참가했다.

이 장치는 TV 뉴스 프로그램, ‘Tatort(독일의 범죄 수사물)’ 에피소드 및 ‘왕좌의 게임’ 또는 ‘Modern Family’시리즈의 전체 시즌을 받았다. 음성 어시스턴트를 훈련하는 데 사용되는 전문 오디오 데이터 세트도 있었다. 연구원들은 음성 어시스턴트가 활성화될 때를 나타내는 LED와 모든 어시스턴트에 음성 보조기가 데이터를 외부로 전송했는지 여부를 등록했다.

테스트를 위한 장치

수천 개의 잘못된 트리거 목록

쇤헤르(Schönherr)와 동료들은 “결국 우연히 수백 개의 우발적인 트리거를 발견했다”고 보고했다. 첫 번째 테스트에서 그들은 수천 개의 잘못된 트리거 단어 목록을 수집했다. “장치는 사람들을 이해할 수 있어야 하므로 의도적으로 다소 자유로이 프로그래밍 된다. 그래서 그들은 너무 적은 것이 아니라 너무 많이 시작하는 경향이 있다”고 RUB의 Dorothea Kolossa가 요약했다.

대부분의 경우 허위 소리는 트리거 단어와 음향적으로 유사한 문구다.
강조에 따라 Alexa는 영어 단어 ‘unacceptable’과 ‘election’라는 단어, Google은 ‘OK, cool’이라는 단어를 혼동한다. 예를 들어 독일어에서 Amazon은 ‘Am Sonntag’ 및 Siri는 ‘Daiquiri’라는 용어로 착각한다.

두 단계에서 나쁜 반응

음성 어시스턴트가 이러한 단어 중 하나로 이동하면 2단계 프로세스가 수행된다.
먼저, 장치는 트리거 단어가 인식된 언어에 포함되어 있는지 로컬로 분석한다.
장치가 활성화 단어를 듣고 있다고 의심되면 현재 대화를 녹음하고 제조업체의 클라우드에 업로드하기 시작한다.
두 번째로 더 강력한 프로그램이 트리거 단어가 발생하는지 다시 분석한다.

보다 강력한 클라우드 분석이 용어를 잘못된 트리거로 식별하는 경우 음성 지원은 조용히 유지되며 표시등만 잠깐 켜진다. 클라우드를 속일 수 있는 경우 장치가 음성으로 응답한다.
예를 들어 Alexa의 “We like some privacy”라는 문구는 로컬 분석만 거부한 반면 "A letter"라는 표현은 클라우드를 잘못 해석했다.

데이터는 종종 오디오 녹음을 몇 초 동안 제조업체에 전송한 다음 미래에 이러한 잘못된 트리거를 피하기 위해 사람들이 부분적으로 기록한다

대화 조각은 제조업체에 도달한다.

이에 대한 문제 :
이 잘못된 이해를 통해 Alexa, Siri 및 동종 데이터는 종종 오디오 녹음을 몇 초 동안 제조업체에 전송한 다음 미래에 이러한 잘못된 트리거를 피하기 위해 사람들이 부분적으로 기록한다. RUB의 토르스텐 홀츠(Thorsten Holz)는 “엔지니어링 관점에서 볼 때 시스템은 그러한 데이터의 도움으로만 개선될 수 있기 때문에 절차를 이해할 수 있다”고 말했다.

그러나 프라이버시 관점에서 볼 때, 때때로 매우 개인적인 대화가 낯선 사람들에게 도달할 수 있기 때문에 우려가 된다. 홀츠는 “제조업체들은 데이터 보호와 기술 최적화 사이의 균형을 유지해야 한다”고 말했다. Google과 Apple에서 사용자는 그러한 평가에 적극적으로 동의해야 하며, 아마존에서는 최소한 이의를 제기 할 수 있다.