정치인의 딥페이크(Deepfakes)에 맞서는 AI

기술 / 문광주 기자 / 2023-01-03 20:36:27
3'30" 읽기
- 생체 인식, 언어 및 제스처 특성으로 가짜 동영상 노출
- 정치인 및 기타 유명인의 가짜 비디오를 99.99%의 정확도로 탐지할 수 있는 방법 개발
- 의심스러운 비디오가 유포되면 소프트웨어가 바로 비교 분석을 시작
- 성공률은 고려된 약 400개의 특성에서 99.5% 달성

정치인의 딥페이크(Deepfakes)에 맞서는 AI
생체 인식, 언어 및 제스처 특성으로 가짜 동영상 노출


연구원들은 정치인 및 기타 유명인의 가짜 비디오를 99.99%의 정확도로 탐지할 수 있는 방법을 개발했다. 이것은 실제 비디오 자료를 사용하여 대상자의 생체 인식, 언어 및 제스처 특성을 기록하고 위조의 편차를 신속하게 식별할 수 있는 적응형 알고리즘을 통해 가능하다. 테스트 대상은 수차례 딥페이크(deepfakes)의 대상이 된 볼로디미르 젤렌스키 우크라이나 대통령이었다. 

▲ 우크라이나 대통령은 여러 차례 딥페이크의 피해자였다. © 우크라이나 대통령/ 퍼블릭 도메인

기술 발전으로 인해 이미지와 비디오를 위조하고 이른바 딥페이크를 만드는 것이 훨씬 쉬워졌다. 녹화된 영상 속 얼굴이 바뀌거나 입 움직임이 디지털 방식으로 바뀌어 그 사람의 입에 어떤 말이든 담을 수 있다. 이러한 딥페이크는 종종 협박, 사기 목적 또는 표적 허위 정보에 사용되었다.

우크라이나 전쟁에서의 딥페이크

두드러진 예는 우크라이나 전쟁의 맥락에서 딥페이크다. 전쟁이 시작된 직후인 2022년 3월 인터넷에 볼로디미르 젤렌스키(Volodymyr Zelenskyj) 우크라이나 대통령이 러시아와의 전쟁에서 패배한 것을 설명하는 것처럼 보이는 비디오가 나타났다. 이 딥페이크는 비디오가 이미 소셜 미디어에서 유포되고 심지어 우크라이나 TV에서도 방영된 후에야 폭로되었다.

또 다른 사례는 2022년 여름에 발생했다. 딥페이크가 베를린, 마드리드, 비엔나 시장을 성공적으로 속여 키예프 시장인 Vitali Klitschko와의 화상 회의에서 말하고 있다고 믿게 했다. 버클리에 있는 캘리포니아 대학의 Hany Farid와 프라하의 Kepler Gymnasium의 Matyas Bohacek는 "이 최근 사건은 녹화 및 라이브 비디오에 대한 딥페이크 공격의 새로운 물결의 시작에 불과하다"고 설명했다.

정치인에게 특히 적합한 신원 기반 방법

하지만 그러한 딥페이크에 대해 무엇을 할 수 있을까? 딥페이크를 식별하기 위해 이미 다양한 기술이 사용되고 있다. 일반적인 방법은 예를 들어 잘못된 입 움직임이나 얼굴 삽입으로 인해 발생하는 것과 같은 아티팩트를 비디오 파일에서 찾는다. 생체 인식 비교는 묘사된 사람들의 신원을 확인하는 데에도 사용할 수 있다. 이를 위해서는 원본 인물의 해당 특성을 기록하고 비디오와 비교해야 한다. 이는 비교적 복잡한 과정이다.

특히 저명한 공인의 경우 대상자의 개별 특성과 특성을 미리 학습할 수 있는 학습 알고리즘을 통해 이러한 신원 기반 확인을 크게 단축할 수 있다. 이것은 공개적으로 이용 가능한 그런 사람들의 풍부한 비디오 자료에 의해 가능해졌다. 의심스러운 비디오가 유포되면 소프트웨어가 바로 비교 분석을 시작할 수 있다.

Farid와 Bohacek는 "우리가 보기에 이러한 신원 기반 방법은 세계적 수준의 정치인을 보호하는 데 있어 가장 합리적이고 강력한 접근 방식이다"고 말했다.

생체 인식, 언어 및 몸놀림 특성

연구원들은 그들의 시스템을 개발하고 테스트하기 위해 Selenskyj 우크라이나 대통령을 테스트 대상으로 선택했다. 그들의 적응형 알고리즘은 먼저 공개 연설, 기자 회견 및 그가 만든 비디오 메시지에서 Zelenskyj를 보여주는 총 506분의 비디오 녹화를 분석했다.

적응형 분석 시스템은 얼굴 및 신체 움직임의 생체 데이터뿐만 아니라 음성 및 언어 특성도 평가했다. 이러한 분석을 통해 20개의 얼굴 특징, 12개의 몸짓 및 8개의 언어적 특징이 도출되었으며, 이들의 조합은 Volodymyr Zelenskyj에 대해 780개의 특징적인 식별 표시를 생성했다. 그런 다음 다른 소프트웨어가 이러한 기능을 사용하여 비디오의 진위를 확인했다.

99.99퍼센트 정확도

테스트에서 이 시스템은 우크라이나 대통령의 실제 녹음에서 Zelenskyj의 4개의 딥페이크와 외국 비교 인물이 있는 250개의 비디오를 안정적으로 구별해야 한다. 이 방법은 99.99%의 정확도를 달성했다. 과학자들이 보고한 바와 같이, 성공률은 고려된 약 400개의 특성에서 99.5%였다.
▲ 각 데이터 포인트가 10~600개의 무작위로 선택된 얼굴, 몸짓 및 음성 특징을 사용하여 100개의 훈련 및 테스트 주기에 걸쳐 중앙값(50% 분위수) 분류 정확도에 해당하는 제거 분석 오차 막대는 25% 및 75% 분위수에 해당. 전체 행동 모델은 780개의 기능으로 구성된다. 세 개의 곡선은 서로 다른 진양성률(실제 비디오 세그먼트를 올바르게 분류함)에 해당한다. (출처: 관련논문 Protecting world leaders against deep fakes using facial, gestural, and vocal mannerisms / PNAS)

Selenskyj의 특이성 중 일부는 특히 의미가 있는 것으로 판명되었으며, 그것들만이 식별 정확도에 10% 이상 기여했다. "가장 눈에 띄는 특징은 젤렌스키 대통령이 오른팔을 옆구리에 늘어뜨린 상태에서 왼팔로 몸짓을 하는 경향이다"며 "이것은 그가 좌우로 움직일 때 오른쪽 팔꿈치와 오른쪽 어깨의 움직임 사이에 강한 상관관계를 만든다"고 연구원들은 말했다. Zelenskyj의 미소의 비대칭도 중요한 것으로 판명되었다.

정부 및 평판이 좋은 뉴스 매체에서 사용 가능

Farid와 Bohacek은 "이렇게 매우 구체적인 상관관계는 위조자가 개인의 행동에서 개별적인 매너리즘을 완전히 캡처하고 재생산하는 것을 어렵게 만든다"고 말했다. 따라서 그들은 딥페이크를 신속하게 밝혀낼 수 있도록 정치 및 공적 생활에서 중요한 인물에 대한 이러한 테스트 모델을 구체적으로 생성하는 것이 유용하고 유망하다고 생각한다.

위조자의 가능한 대응책을 피하기 위해 알고리즘을 공개하지 않았다. "우리는 평판이 좋은 미디어와 정부 기관이 허위 정보 캠페인에 대처할 수 있도록 분류기를 사용할 수 있도록 할 것이다"고 연구원은 말했다.
(National Academy of Sciences 회보, 2022; doi:10.1073/pnas.2216035119)
출처: National Academy of Sciences 회보

[더사이언스플러스=문광주 기자]

[ⓒ the SCIENCE plus. 무단전재-재배포 금지]