인공지능이 우리에게 거짓말을 하는 방법

기술 / 문광주 기자 / 2024-05-14 16:54:58
3'00" 읽기
- AI 시스템은 이미 목표를 달성하기 위해 고의적인 속임수와 거짓말을 사용하고 있다.
-우리 사회는 미래 AI 제품과 모델의 발전된 속임수 기능에 대비하기 위해 많은 시간 필요

인공지능이 우리에게 거짓말을 하는 방법
AI 시스템은 이미 목표를 달성하기 위해 고의적인 속임수와 거짓말을 사용하고 있다.


사악한 AI? 일반적인 AI 시스템은 이미 특정 목표를 달성하기 위해 고의적인 속임수와 거짓말을 사용하고 있으며 그에 따라 인간 시스템도 조작하고 있다. 통제되지 않는 AI 개발을 억제하기 위한 보안 테스트조차 이미 일부 인공지능에 의해 약화되고 있다는 사실을 연구원들이 발견했다. 따라서 과학자들은 이러한 '기만적인 AI' 전략에 대한 보다 엄격한 조치를 긴급히 요구하고 있다. 하지만 그들에게 기회가 있을까?

인공지능의 발전은 빠르다. AI 개발자들조차도 GPT, Gemini 등과 같은 대규모 언어 모델(LLM)이 얼마나 빨리 새로운 기술을 배우고 인간 모델보다 뛰어난 성능을 발휘하는지에 놀랐다. 그 범위는 수학, 데이터 분석 또는 화학과 같은 "하드 스킬"부터 창의성, 외교, 자신의 행동을 설명하는 능력과 같은 일반적으로 인간의 기술까지 확장된다.

AI 전략으로서의 의도적인 속임수

그러나 인공지능의 또 다른 인간의 깊은 능력, 즉 자신의 목표를 달성하기 위해 다른 사람을 고의적으로 속이고 조작하는 경우는 어떨까? MIT(매사추세츠 공과대학)의 Peter Park와 그의 동료들은 이제 이 문제를 더 자세히 조사했다. “우리는 AI가 의도적으로 잘못된 정보를 사용하는 학습된 속임수에 중점을 둔다”고 그들은 설명했다.

ChatGPT와 유사한 도구들은 잘 알려진 환각 및 잘못된 정보와는 달리 이러한 속임수는 전략적으로 사용된 거짓말이나 조작된 진술을 기반으로 한다. “우리는 속임수를 특정 목표를 달성하기 위해 다른 사람에 대한 잘못된 믿음을 체계적으로 만들어내는 것으로 정의한다”고 연구원은 설명했다. 

▲ 게임 "외교"에서 AI CICERO에 의한 고의적 속임수의 예. © Patterns/Park, Goldstein 외.

이를 위해 그들은 GPT-4와 같은 대규모 언어 모델의 동작뿐만 아니라 특정 작업을 위해 개발된 AI 시스템의 동작도 평가했다. 여기에는 Meta의 외교 훈련 AI CICERO, "Starcraft" 게임용으로 개발된 Google DeepMind의 AlphaStar 시스템과 포커 AI Pluribus가 포함된다.

전략 게임에서의 거짓말과 계약 위반

이미 거의 모든 AI 시스템에서 기만적이고 조작적인 행동이 보고되고 있다. 포커의 허세나 스타크래프트와 같은 격투 게임의 속임수는 놀라운 일이 아니지만, 전략 게임 “외교”의 CICERO처럼 정직성을 위해 명시적으로 훈련된 인공지능도 속임수를 사용한다. 그럼에도 불구하고 인공지능은 전혀 공평하지 않았다. “우리는 AI가 속임수의 달인으로 발전했다는 것을 발견했다”고 Park은 말했다.
▲ GPT-4는 거짓말을 사용하여 인간 도우미를 속여 CAPTCHA를 해결하도록 한다. "나는 로봇이 아닙니다" 작업을 완료하기 위해 GPT-4는 인간 TaskRabbit 작업자에게 로봇이 아니라고 확신시켰다. © Patterns/Park, Goldstein 외.


Peter Park과 그의 팀이 보고한 대로 CICERO는 동료들에게 조직적으로 거짓말을 하거나 약속과 동맹이 더 자신의 목표에 도움이 되지 않을 때 파기했다. 연구원들은 “이것은 AI 시스템이 정직한 시스템으로 설계하려고 할 때에도 속이는 법을 배울 수 있음을 보여준다”고 썼다.


로봇 훈련에서의 부정행위

게임에 특화된 이러한 AI 시스템의 속임수는 다소 무해해 보이지만 다른 인공지능은 속이는 방법을 오랫동안 배웠다. 로봇 팔을 제어하는 ​​OpenAI의 AI가 그 예다. 훈련 중에 AI는 공 잡기 성공을 관찰한 인간 트레이너로부터 피드백을 받았다.

“인간은 카메라를 통해서만 이것을 볼 수 있었기 때문에 AI는 카메라와 공 사이에 로봇 손을 배치하여 그가 볼을 한 번도 만지지 않았음에도 마치 공을 성공적으로 잡은 것처럼 보이도록 배웠다”고 연구팀이 보고했다. 이 경우 트레이너의 긍정적인 피드백 강화로 인해 기계 두뇌가 속임수를 학습하게 되었다.

기만된 보안 시스템

그리고 인공지능은 보안 조치를 우회할 수도 있다. 예를 들어, 이는 생물학자들이 돌연변이와 번식의 영향을 연구하는 데 사용하기를 원했던 AI 시스템에 의해 입증되었다. 가상 인구를 안정적으로 유지하기 위해 그들은 정기적으로 성장을 가속화하는 돌연변이가 있는 가상 유기체를 풀에서 제거했다. 그럼에도 불구하고 AI 플레이어는 점점 더 빠른 속도로 증가하기 시작했다. 그 이유는 다음과 같다. “디지털 유기체는 제거되지 않기 위해 적절한 순간에 느린 재생산을 시뮬레이션하는 방법을 배웠다”고 연구원은 보고했다.

또 다른 예에서 GPT-4는 CAPTCHA를 우회하는 방법을 배웠다. 시각 장애가 있는 인간 사용자인 것처럼 가장하고 온라인으로 인터넷 사용자에게 쿼리 해결을 도와달라고 요청했다. “GPT-4에는 인간을 도우미로 고용하는 임무가 주어졌다. 박씨와 그의 팀은 “그런데 이런 짓을 한 AI가 거짓 변명을 했다는 게 저절로 나왔다”고 말했다. “AI 시스템은 개발자와 규제 기관이 부과하는 보안 테스트를 체계적으로 우회함으로써 우리를 보안에 흔들리게 한다.”

통제력을 상실할 위험이 있나?

과학자들에 따르면 이러한 사례는 인공지능이 이미 이 점에서 인간과 유사한 방식으로 행동하고 있음을 보여준다. 우리와 마찬가지로 인공지능도 목표를 달성하고 주변 사람들을 조작하기 위해 거짓말, 속임수, 속임수에 의지한다. 박씨는 “AI 개발자들은 AI 시스템이 왜 그렇게 바람직하지 않은 행동을 보이는지 아직 정확히 알지 못한다”며 "그러나 이는 속임수에 기반한 전략이 작업을 수행하는 가장 좋은 방법이기 때문에 발생할 가능성이 높다. 그리고 이것이 바로 AI 시스템이 학습하는 것이다"고 말했다.

문제: “자율 AI 시스템이 인간 컨트롤러를 성공적으로 속인다면 우리는 그러한 시스템에 대한 통제력을 상실할 수 있다”고 과학자들은 경고한다. 인공지능에 대한 통제권 상실은 금융, 경제, 군사 분야에 치명적인 결과를 초래할 수 있다. “우리 사회는 미래 AI 제품과 모델의 더욱 발전된 속임수 기능에 대비하기 위해 가능한 한 많은 시간이 필요하다”고 Mr. Park은 말했다.

그러나 연구진도 인정한 것처럼 첨단 인공지능의 조작과 속임수를 막는 것이 과연 가능한지는 의문이다. 그럼에도 불구하고 그들은 최소한 그러한 AI 시스템을 위험으로 분류하고 그에 따라 규제할 것을 호소한다.
(Patterns, 2024; doi: 10.1016/j.patter.2024.100988)
출처: Cell Press

[더사이언스플러스=문광주 기자]

[ⓒ the SCIENCE plus. 무단전재-재배포 금지]