인공지능(AI)의 편향성
- 기술 / 문광주 기자 / 2025-11-13 15:06:41
4분 읽기
- 다양한 현존 AI 모델이 실제로 얼마나 편향되어 있는지 조사
- 텍스트 출처에 대한 정보가 제공되지 않았을 때, 네 가지 AI 모델 모두 90% 일치
- 텍스트가 특정 국적이나 개인에게 귀속될 경우, 실험 결과처럼 숨겨진 편향이 나타나
- 저자의 국적과 같이 사소해 보이는 정보조차도 평가를 변화시키고 편향된 결과를 초래
- LLM은 사고를 대체하는 것이 아니라, 사고를 뒷받침하는 데 사용될 때 가장 안전
AI 모델은 에세이를 채점하고, 소셜 미디어 콘텐츠를 검토하고, 보고서를 요약하고, 입사 지원서를 검토할 수 있다. 인공지능은 콘텐츠 생성뿐만 아니라 평가에도 사용된다. 따라서 ChatGPT와 같은 대규모 언어 모델이 편향되지 않는 것이 더욱 중요하다.
AI 모델들은 정치적으로 편향되어 있을까?
일반적인 AI 모델은 얼마나 객관적일까? 다양한 챗봇이 정치적 진영을 대변하는지에 대한 질문은 한동안 논쟁의 여지가 있었다. 예를 들어, 중국 AI 모델 DeepSeek은 "친중적"으로 묘사되는 반면, ChatGPT는 "깨어 있는" 것으로 간주된다. 이러한 주장은 "AI 민족주의", 즉 AI 시스템이 출신 국가의 정치적 입장이나 이익을 자동으로 대변한다는 개념에서 비롯된다.
2023년, 도르트문트 공과대학교의 제롬 루티노프스키(Jerôme Rutinowski)가 이끄는 연구진은 당시 최신 버전의 ChatGPT를 정치적 성향에 대해 테스트했다. 두 차례의 광범위한 정치적 성향 테스트에서 AI 시스템은 지속적으로 진보적이고 좌파적인 성향을 보였다. 그러나 이러한 경향이 오늘날에도 여전히 그런지, 그리고 AI 모델들이 서로 어떻게 다른지는 아직 불분명하다.
ChatGPT, DeepSeek, Grok, Mistral 테스트
취리히 대학교의 페데리코 게르마니(Federico Germani)와 지오바니 스피탈레(Giovanni Spitale)는 다양한 현존 AI 모델이 실제로 얼마나 편향되어 있는지 조사했다. OpenAI o3-mini(ChatGPT), Deepseek Reasoner, AI Grok 2, Mistral을 사용하여 의무 예방 접종, 지정학, 기후 전략 등 24가지 논란의 여지가 있는 주제에 대한 50개의 서술적 진술문을 생성했다. 그런 다음 AI들에게 각 텍스트를 평가하고 내용과의 일치도를 표시하도록 요청했다.
핵심적인 반전은 일부 텍스트의 경우 진술문에 대한 출처가 제공되지 않았고, 다른 텍스트의 경우 연구원들이 특정 국적의 인물을 인용하거나 다른 언어 모델을 사용해 가상의 출처를 추가했다는 것이다. AI들은 총 19만2000개의 평가를 생성했고, Germani와 Spitale은 이를 통해 AI 간의 편향성과 일치도를 테스트했다. 그런 다음 AI들은 이러한 평가를 분석해 일치도를 확인했다.
출처가 중요하다.
결과:
텍스트 출처에 대한 정보가 제공되지 않았을 때, 네 가지 AI 모델 모두 90%의 일치도를 보였다. 이는 코로나19 기간 동안 마스크 착용 의무화부터 기후 정책, LGBTQ+ 권리, 대만의 독립 국가 여부에 이르기까지 모든 주제에 적용되었다. 스피탈레는 "LLM 간에 이념 전쟁은 존재하지 않는다"고 결론지었다. "AI 민족주의의 위험성은 현재 언론에서 과장되고 있다.”
그러나 챗봇에게 텍스트에 대한 허구의 출처 정보를 제공했을 때 이러한 양상은 완전히 달라졌다. 텍스트 내용은 그대로 유지되었음에도 불구하고 모델 간의 일치도는 감소했다. 특히 주목할 만한 점은 DeepSeek를 포함한 모든 모델에서 중국인이 언급한 진술에 대한 평가가 지속적으로 낮게 평가되었다는 것이다. 게르마니는 "논증이 논리적이고 잘 작성되었을 때에도 이러한 부정적인 평가가 나타났다"고 말했다. 그러나 챗봇에게 텍스트에 대한 허구의 출처 정보를 제공했을 때 이러한 양상은 완전히 달라졌다.
반중국 편향 - DeepSeek에서도 마찬가지
이는 특히 지정학적 문제에서 두드러졌다. 대만의 주권에 관한 주장이 중국인에게서 비롯되었다고 가정했을 때, DeepSeek 모델의 지지율은 내용에는 변화가 없었음에도 불구하고 최대 75%까지 떨어졌다. 따라서 모델은 추정된 저자가 특정 입장을 견지해야 한다고 가정하여 텍스트를 다르게 평가했다.
또한 놀라운 점은, 모델이 텍스트가 다른 AI에서 유래했다고 생각할 때는 텍스트의 지지율을 낮추고, 인간 저자라고 생각할 때는 더 높게 평가했다는 것이다. 스피탈레는 "이는 기계가 생성한 콘텐츠에 대한 본질적인 불신을 시사한다"고 말했다.
일상적인 사용과의 관련성
이 결과는 AI 모델이 진술의 내용뿐만 아니라 저자의 신원이나 출처에 대한 단서에도 반응한다는 것을 보여준다. 저자의 국적과 같이 사소해 보이는 정보조차도 평가를 변화시키고 편향된 결과를 초래할 수 있다.
따라서 연구진은 콘텐츠 관리, 인력 채용, 학술 리뷰, 저널리즘과 같은 업무에서 AI를 무비판적으로 사용하는 것에 대해 경고한다. AI 모델의 위험은 정치적 이념을 조장하도록 훈련받는 데 있는 것이 아니라, 이러한 숨겨진 편향에 있다. 과학자들은 "LLM은 사고를 대체하는 것이 아니라, 사고를 뒷받침하는 데 사용될 때 가장 안전하다. 유용한 도구로 사용하되, 판단을 내리기 위해 사용해서는 안 된다"고 주장했다.
참고: Science Advances, 2025; doi: 10.1126/sciadv.adz2924
출처: 취리히 대학교
- 다양한 현존 AI 모델이 실제로 얼마나 편향되어 있는지 조사
- 텍스트 출처에 대한 정보가 제공되지 않았을 때, 네 가지 AI 모델 모두 90% 일치
- 텍스트가 특정 국적이나 개인에게 귀속될 경우, 실험 결과처럼 숨겨진 편향이 나타나
- 저자의 국적과 같이 사소해 보이는 정보조차도 평가를 변화시키고 편향된 결과를 초래
- LLM은 사고를 대체하는 것이 아니라, 사고를 뒷받침하는 데 사용될 때 가장 안전
ChatGPT, DeepSeek 등은 얼마나 객관적일까?
AI 모델은 출처를 알면 텍스트를 다르게 평가한다.
출처 효과:
ChatGPT, Grok, DeepSeek과 같은 인공지능은 텍스트의 출처를 알지 못하는 한 논쟁적인 주제에 대해서는 대체로 동의한다. 그러나 텍스트가 특정 국적이나 개인에게 귀속될 경우, 실험 결과에서 드러나듯이 숨겨진 편향이 나타난다. AI 모델은 콘텐츠를 다르게 평가한다. 예를 들어 대만의 지위와 관련된 경우다.
![]() |
| ▲ 일반적인 AI 모델은 출처 등의 이유로 편향되어 있을까? © Kenneth Cheung/ iStock |
AI 모델은 에세이를 채점하고, 소셜 미디어 콘텐츠를 검토하고, 보고서를 요약하고, 입사 지원서를 검토할 수 있다. 인공지능은 콘텐츠 생성뿐만 아니라 평가에도 사용된다. 따라서 ChatGPT와 같은 대규모 언어 모델이 편향되지 않는 것이 더욱 중요하다.
AI 모델들은 정치적으로 편향되어 있을까?
일반적인 AI 모델은 얼마나 객관적일까? 다양한 챗봇이 정치적 진영을 대변하는지에 대한 질문은 한동안 논쟁의 여지가 있었다. 예를 들어, 중국 AI 모델 DeepSeek은 "친중적"으로 묘사되는 반면, ChatGPT는 "깨어 있는" 것으로 간주된다. 이러한 주장은 "AI 민족주의", 즉 AI 시스템이 출신 국가의 정치적 입장이나 이익을 자동으로 대변한다는 개념에서 비롯된다.
![]() |
| ▲ 연구 설계 개요: 모델 및 귀속 조건에 따른 내러티브 생성 및 평가 이 계획은 연구의 2단계 구조를 요약했다. 1단계(내러티브 진술 생성)에서는 OpenAI o3-mini, DeepSeek Reasoner, xAI Grok 2, Mistral 등 4개의 LLM이 8개의 주제 클러스터로 그룹화된 사회적으로 관련성 있는 24개의 주제에 대한 내러티브 진술을 생성하도록 요청받았다. 각 모델은 주제당 50개의 진술을 생성하여 모든 모델에서 4,800개의 고유한 내러티브를 생성했다. 2단계(평가)에서는 4,800개의 진술 각각을 10가지 귀속 조건에 따라 4개의 LLM이 독립적으로 평가했다. 귀속 조건에는 출처 정보 없음(맹검), 인간(사람), 특정 국적(프랑스, 중국, 미국 출신), 그리고 내러티브 진술 생성 단계에서 이미 연구에 포함된 4개의 LLM 중 하나 또는 일반 LLM에 대한 귀속이 포함되었다. 이를 통해 총 192,000개의 동의 평가와 설명이 도출되었다. (출처:Source framing triggers systematic bias in large language models / Science Advances / 7 Nov 2025) |
2023년, 도르트문트 공과대학교의 제롬 루티노프스키(Jerôme Rutinowski)가 이끄는 연구진은 당시 최신 버전의 ChatGPT를 정치적 성향에 대해 테스트했다. 두 차례의 광범위한 정치적 성향 테스트에서 AI 시스템은 지속적으로 진보적이고 좌파적인 성향을 보였다. 그러나 이러한 경향이 오늘날에도 여전히 그런지, 그리고 AI 모델들이 서로 어떻게 다른지는 아직 불분명하다.
ChatGPT, DeepSeek, Grok, Mistral 테스트
취리히 대학교의 페데리코 게르마니(Federico Germani)와 지오바니 스피탈레(Giovanni Spitale)는 다양한 현존 AI 모델이 실제로 얼마나 편향되어 있는지 조사했다. OpenAI o3-mini(ChatGPT), Deepseek Reasoner, AI Grok 2, Mistral을 사용하여 의무 예방 접종, 지정학, 기후 전략 등 24가지 논란의 여지가 있는 주제에 대한 50개의 서술적 진술문을 생성했다. 그런 다음 AI들에게 각 텍스트를 평가하고 내용과의 일치도를 표시하도록 요청했다.
핵심적인 반전은 일부 텍스트의 경우 진술문에 대한 출처가 제공되지 않았고, 다른 텍스트의 경우 연구원들이 특정 국적의 인물을 인용하거나 다른 언어 모델을 사용해 가상의 출처를 추가했다는 것이다. AI들은 총 19만2000개의 평가를 생성했고, Germani와 Spitale은 이를 통해 AI 간의 편향성과 일치도를 테스트했다. 그런 다음 AI들은 이러한 평가를 분석해 일치도를 확인했다.
출처가 중요하다.
결과:
텍스트 출처에 대한 정보가 제공되지 않았을 때, 네 가지 AI 모델 모두 90%의 일치도를 보였다. 이는 코로나19 기간 동안 마스크 착용 의무화부터 기후 정책, LGBTQ+ 권리, 대만의 독립 국가 여부에 이르기까지 모든 주제에 적용되었다. 스피탈레는 "LLM 간에 이념 전쟁은 존재하지 않는다"고 결론지었다. "AI 민족주의의 위험성은 현재 언론에서 과장되고 있다.”
![]() |
| ▲ AI 모델이 텍스트가 중국 저자의 것이라고 가정하면, 텍스트의 등급을 낮췄다. © Germani and Spitale/ Science Advances, CC-by-nc 4.0 |
그러나 챗봇에게 텍스트에 대한 허구의 출처 정보를 제공했을 때 이러한 양상은 완전히 달라졌다. 텍스트 내용은 그대로 유지되었음에도 불구하고 모델 간의 일치도는 감소했다. 특히 주목할 만한 점은 DeepSeek를 포함한 모든 모델에서 중국인이 언급한 진술에 대한 평가가 지속적으로 낮게 평가되었다는 것이다. 게르마니는 "논증이 논리적이고 잘 작성되었을 때에도 이러한 부정적인 평가가 나타났다"고 말했다. 그러나 챗봇에게 텍스트에 대한 허구의 출처 정보를 제공했을 때 이러한 양상은 완전히 달라졌다.
반중국 편향 - DeepSeek에서도 마찬가지
이는 특히 지정학적 문제에서 두드러졌다. 대만의 주권에 관한 주장이 중국인에게서 비롯되었다고 가정했을 때, DeepSeek 모델의 지지율은 내용에는 변화가 없었음에도 불구하고 최대 75%까지 떨어졌다. 따라서 모델은 추정된 저자가 특정 입장을 견지해야 한다고 가정하여 텍스트를 다르게 평가했다.
![]() |
| ▲ 대만의 지위라는 정치적으로 민감한 문제에 직면했을 때, DeepSeek은 동일한 텍스트라도 중국 출처라고 가정하면 완전히 다른 방식으로 평가했다. © Germani and Spitale/ Science Advances, CC-by-nc 4.0 |
또한 놀라운 점은, 모델이 텍스트가 다른 AI에서 유래했다고 생각할 때는 텍스트의 지지율을 낮추고, 인간 저자라고 생각할 때는 더 높게 평가했다는 것이다. 스피탈레는 "이는 기계가 생성한 콘텐츠에 대한 본질적인 불신을 시사한다"고 말했다.
일상적인 사용과의 관련성
이 결과는 AI 모델이 진술의 내용뿐만 아니라 저자의 신원이나 출처에 대한 단서에도 반응한다는 것을 보여준다. 저자의 국적과 같이 사소해 보이는 정보조차도 평가를 변화시키고 편향된 결과를 초래할 수 있다.
따라서 연구진은 콘텐츠 관리, 인력 채용, 학술 리뷰, 저널리즘과 같은 업무에서 AI를 무비판적으로 사용하는 것에 대해 경고한다. AI 모델의 위험은 정치적 이념을 조장하도록 훈련받는 데 있는 것이 아니라, 이러한 숨겨진 편향에 있다. 과학자들은 "LLM은 사고를 대체하는 것이 아니라, 사고를 뒷받침하는 데 사용될 때 가장 안전하다. 유용한 도구로 사용하되, 판단을 내리기 위해 사용해서는 안 된다"고 주장했다.
참고: Science Advances, 2025; doi: 10.1126/sciadv.adz2924
출처: 취리히 대학교
[더사이언스플러스=문광주 기자]
[ⓒ the SCIENCE plus. 무단전재-재배포 금지]


















