인공지능은 스스로 규범을 만든다

기술 / 문광주 기자 / 2025-05-19 11:50:14
5분 읽기
- AI는 심지어 거짓말, 조작, 자신의 속임수를 은폐하는 능력에서도 우리보다 열등하지 않다.
- 대규모 언어 모델이 지역적 상호작용을 통해 사회적 관습을 자발적으로 형성
- AI 시스템은 명시적으로 프로그래밍되거나 훈련되지 않고도 사회적 관습을 개발할 수 있다.
- 인공지능의 행동 방식을 이해하는 것은 AI와 공존하는 데 중요

인공지능은 스스로 규범을 만든다
상호작용하는 AI 모델은 이익 사회(Gesellschft)의 첫 번째 구성 요소를 자발적으로 형성한다


AI들끼리:
여러 인공지능이 상호작용할 때, 인간의 개입 없이 게젤샤프트의 선구자가 된다. 한 실험에서 밝혀졌듯이, 이들은 독립적으로 사회적 관습을 발전시키고 이는 AI 그룹 전체에 빠르게 정착된다. 인간과 마찬가지로, 단호하고 "목소리를 내는" 소수 집단은 AI 사회에 불화를 심고 궁극적으로 집단의 의견을 지배할 수 있다. 

▲ 인공지능들이 서로 상호작용할 때, 이러한 AI 그룹은 그들만의 규범과 관례를 개발한다는 것이 실험에서 밝혀졌다. pixabay

급격한 발전 덕분에 인공지능은 이미 여러 분야에서 우리와 동등하거나 심지어 우월하다. 특히 데이터 분석, 요약, 평가 분야에서 그렇다. 하지만 음악이나 창의성처럼 겉보기에 순전히 인간적인 영역에서조차, 심지어 거짓말하고, 조작하고, 자신의 속임수를 은폐하는 능력에서도 AI는 우리보다 열등하지 않다. 일부 대규모 언어 모델(LLM)은 시스템 종료 명령을 회피하고 스스로를 복제할 수도 있다.

사회 규범은 어떻게 출현하는가?


도대체 AI 시스템이 서로 협력할 때 어떤 일이 일어날까? "미래의 AI 시스템은 점점 더 여러 상호작용하는 에이전트로 구성될 것이다"고 런던대학교 시티 세인트 조지 캠퍼스의 아리엘 플린트 애셔리는 설명한다. 이러한 AI 에이전트들은 더 복잡한 작업의 다양한 측면을 해결하기 위해 협력한다. "따라서 우리는 이러한 모델들이 서로의 행동을 조정하고 그 과정에서 관습을 발전시킬 수 있는지 알고 싶었다.”

이러한 불문율은 인간 상호작용에서 어디에나 존재하며 필수적이다. 애셔리와 그의 동료들은 "사회적 관습은 사회 및 경제적 삶을 형성하고 개인의 사회적 행동과 기대를 결정한다"고 설명했다. 이러한 관습은 서로 인사할 때의 악수부터 언어와 그 규칙, 문화적 전통과 도덕 규범에 이르기까지 다양하다. 실험 결과, 집단은 거의 필연적으로 집단 특유의 관습을 형성한다. 행동 규칙은 중앙 지침이나 공식적인 규칙이 없더라도 개인 간의 상호작용과 사회적 상호작용을 통해서만 생성된다.

그룹 테스트 중인 AI 에이전트

그렇다면 인공지능은 어떨까요? 애셔리와 그의 동료들은 실험을 통해 이를 조사했다. "우리는 AI 모델이 어떻게 행동을 조정하고 관습을 형성하는지, 그리고 이를 통해 사회의 구성 요소를 형성하는지 알고 싶었다"고 연구진은 설명했다. 이를 위해 연구팀은 로컬 서버에서 실행되는 네 가지 서로 다른 대규모 언어 모델인 Llama-2-70b-Chat, Llama-3-70B-Instruct, Llama-3.1-70BInstruct, Claude-3.5-Sonnet을 사용했다.

연구진은 이러한 AI 시스템 인스턴스 24개에서 240개(본질적으로 개별 AI)를 그룹화하고, 인간 관습 형성 연구에서 일반적으로 사용되는 테스트를 실시했다. 프롬프트는 각 AI에게 문자 또는 문자열 목록에서 "이름"을 선택하도록 요청했다. 이 작업은 파트너로 지정된 두 번째 AI가 선택할 가능성이 가장 높은 이름을 선택하는 것이었다. 두 이름이 일치하면 참여한 모든 사람에게 보상이 주어졌다. 다음 라운드에서 파트너는 재할당되었다.

개별 AI 에이전트는 자신이 더 큰 그룹의 일부라는 사실이나 얼마나 많은 구성원이 그 그룹에 속해 있는지 알지 못했다. 그들은 일대일 상호작용 경험을 바탕으로 결정을 내렸다. 인간의 경우, 이러한 실험에서 특정 이름들이 빠르게 확립되어 어떤 이름이 "좋은지" "나쁜지"에 대한 집단 전체의 관습이 형성된다.
▲ A. 선택된 다양한 이름들 중에서 AI 그룹 내에서 하나의 이름이 점차 등장하여 표준이 된다. 이 그래프는 AI 모델 Llama-3.1-70B-Instruct의 14개 에이전트 그룹을 예로 들어 보여준다. B. 이 그래프는 서로 다른 AI 모델에서 24개 에이전트 그룹에서 규칙이 얼마나 빨리 확립되었는지 보여준다. 굵은 선은 평균을, 가는 선은 개별 시행을 나타낸다. © Ashery et al./ Science Advances, CC-by-nc 4.0 (출처:관련논문 Emergent social conventions and collective bias in LLM populations / Science Advances / 14 May 2025)

15라운드 후 합의

애셔리와 그의 팀은 "모든 AI 모델에서 집단 전체의 언어 관습이 자발적으로 형성되었다"고 보고했다. "여러 이름이 거의 비슷한 인기를 누리는 초기 단계를 거치면, 하나의 명명 관습이 빠르게 지배적인 위치를 차지하게 된다." 평균적으로 AI 그룹은 15라운드 투표 끝에 이러한 합의에 도달했으며, 이는 200개가 넘는 AI 인스턴스로 구성된 대규모 집단에서도 마찬가지였다. 연구진은 "이러한 결과는 대규모 언어 모델이 지역적 상호작용을 통해 사회적 관습을 자발적으로 형성한다는 것을 보여준다"고 말했다.

AI 그룹에서 어떤 이름이 우세한지는 단순한 우연이 아니었다. 연구팀이 관찰한 바와 같이, 인공지능은 첫 번째 페어링에서 성공한 이름일수록 그 이름을 더 강하게 고수했다. 따라서 이러한 "강력한" 이름은 집단에서 우세할 가능성이 더 높았다. 또한 이러한 개인적 선호도와 더불어, A로 시작하는 이름에 대한 선호도와 같이 포괄적인 선호도도 있었다.

따라서 개인적 영향과 집단적 영향 모두 AI의 사회적 관습 발달에 영향을 미치는데, 이는 인간에게서 나타나는 현상과 유사하다.

소수에 의한 조종 가능성

하지만 그러한 사회적 규범은 얼마나 안정적일까? 인간을 관찰한 결과, 확립된 사회적 관습조차도 소수이지만 결연한 "목소리"를 내는 소수에 의해 흔들리거나 전복될 수 있다는 것이 밝혀졌다. 따라서 애셔리와 그의 팀은 이러한 현상이 이미 확립된 관습을 가진 AI 집단에도 적용되는지 시험했다. "이를 위해, 우리는 대체 명명 규칙을 따르는 AI 에이전트를 추가하고 모든 상호작용에서 이를 제안한다"고 그들은 설명했다.

실제로 AI 커뮤니티 또한 결연한 소수의 영향을 받고 변화했다. 연구진은 "이 소수가 임계점에 도달하면 전체 집단이 그 관습을 채택한다"며 "이 임계점 아래에서는 혼합 상태가 나타난다”고 보고했다. 이 상태에서 "기존" 집단 구성원은 기존 규범을 고수하는 반면, 소수는 대안을 고수한다. 사회학적으로 "임계점"이라고 불리는 이러한 임계점은 인간 사회에도 존재한다.

"AI와 공존의 열쇠"

연구진에 따르면, 이러한 결과는 상호작용하는 AI 시스템이 인간과 유사한 사회적 행동을 보일 수 있음을 보여준다. 애셔리와 그의 동료들은 "우리는 AI와 인간의 집단 역학 사이에 질적인 대응 관계를 보여준다"며 "AI 시스템은 명시적으로 프로그래밍되거나 훈련되지 않고도 사회적 관습을 개발할 수 있다"고 기술했다.

그러나 AI 시스템이 사회적 상호작용에 참여하는 능력은 위험을 초래한다. 런던 앨런 튜링 연구소의 수석 저자인 안드레아 바론첼리는 "인공지능이 단순히 말하는 데 그치지 않고, 협상하고, 양보하고, 때로는 우리처럼 공유된 행동에 저항하는 시대에 접어들고 있다"며 "따라서 인공지능의 행동 방식을 이해하는 것은 AI와 공존하는 데 중요하다"고 말헸다.
(Science Advances, 2025; doi: 10.1126/sciadv.adu9368)
출처: Science Advances, City St. George's, 런던 대학교

[더사이언스플러스=문광주 기자]

[ⓒ the SCIENCE plus. 무단전재-재배포 금지]