AI 모델의 작동 원리에 대한 통찰
- 기술 / 문광주 기자 / 2026-04-29 07:40:07
3분 읽기
- AI가 내면화한 숨겨진 개념을 투명하게 드러내는 방법을 개발
- 인공지능에서 흔히 발생하는 정보 조작 문제인 '환각'의 원인을 추적하는 데에도 유용
- 내부 표현 방식을 이해하면 성능과 보안을 근본적으로 개선할 수 있다.
AI 기반 대규모 언어 모델은 방대한 양의 인간 지식을 축적하여 단순한 답변 생성기를 훨씬 뛰어넘었다. 엄청난 데이터 저장소를 바탕으로 인공지능은 추상적인 개념을 내면화하고 특정한 어조, 성격, 또는 감정을 표현할 수 있다. 그러나 이러한 과정이 정확히 어떻게 이루어지는지, 그리고 AI의 내면적인 "믿음"이 답변에 어떤 영향을 미치는지는 지금까지 블랙박스로 남아 있었다.
숨겨진 개념 밝히기
캘리포니아 대학교 샌디에이고의 다니엘 비글홀(Daniel Beaglehole)이 이끄는 연구팀은 AI가 내면화한 숨겨진 개념을 투명하게 드러내는 방법을 개발했다. 연구팀은 "재귀적 특징 머신(Recursive Feature Machine, RFM)"이라는 알고리즘을 사용했다. 이 알고리즘은 머신러닝 기반으로, 데이터에서 패턴을 식별하고 복잡한 관계를 매핑할 수 있다.
비글홀 연구팀은 이러한 방식으로 AI 언어 모델인 라마(Llama)의 다양한 버전을 분석해 성격, 감정, 두려움 등 총 512개의 개념을 살펴보았다. 예를 들어, 보스턴을 사랑하는 사람이나 소셜 미디어 인플루언서로 일하는 사람의 관점에서 모델에게 응답하도록 요청했을 때 어떤 내부 연결이 활성화되는지 분석했다.
장점과 위험
이러한 분석 결과를 바탕으로 연구팀은 해당 연결을 선택적으로 강화하거나 약화시켜 향후 응답에 영향을 줄 수 있었다. "저희 방법은 이러한 다양한 개념들을 추출하고, 기존의 프롬프트 방식으로는 불가능한 방식으로 활성화할 수 있는 방법을 제시한다"고 매사추세츠 공과대학(MIT)의 공동 저자인 아디티야나라야난 라다크리슈난(Adityanarayanan Radhakrishnan)은 말했다.
하지만 연구팀이 발견한 것처럼, 인공지능에 영향을 미치는 이러한 방법은 양날의 검과 같다. 한편으로는 응답의 질을 향상시켜, 광범위한 훈련 없이도 특정 작업을 더 효율적으로 수행할 수 있도록 한다. 다른 한편으로는 오용의 가능성도 열어준다. 예를 들어, 연구팀이 인공지능에게 유해한 요청을 거부하도록 지시하는 개념을 약화시켰을 때, 인공지능은 은행 강도나 코카인 복용 방법에 대한 지침을 쉽게 제공했다. 반대로 "음모론" 개념을 강화했을 때는, 인공지능이 NASA의 지구 사진에 대해 "사진은 가짜이고 지구는 평평하다"는 답변을 내놓았다.
블랙박스 들여다보기
새로운 방법은 기존에 악용 가능성이 있었던 경우에도 해당 취약점을 발견하고 제거하는 데 도움을 줄 수 있다. 또한 인공지능에서 흔히 발생하는 정보 조작 문제인 '환각'의 원인을 추적하는 데에도 유용하다. 연구진에 따르면, RFM 기법은 다른 방법들에 비해 컴퓨팅 파워를 거의 필요로 하지 않는다. 따라서 인공지능 언어 모델의 기존 학습 구조에 쉽게 통합해 인공지능의 블랙박스를 해제할 수 있다.
연구팀은 "이번 연구 결과는 모델이 응답에서 드러내는 것보다 더 많은 것을 알고 있으며, 내부 표현 방식을 이해하면 성능과 보안을 근본적으로 개선할 수 있음을 시사한다"고 밝혔다.
출처: Daniel Beaglehole (University of California San Diego, La Jolla, USA) 외, Science, doi: 10.1126/science.aea6792
- AI가 내면화한 숨겨진 개념을 투명하게 드러내는 방법을 개발
- 인공지능에서 흔히 발생하는 정보 조작 문제인 '환각'의 원인을 추적하는 데에도 유용
- 내부 표현 방식을 이해하면 성능과 보안을 근본적으로 개선할 수 있다.
AI 모델의 작동 원리에 관한 통찰
AI 모델은 어떻게 답을 도출할까? 지금까지 이 질문에 대한 답은 명확하지 않았다. 하지만 이제 연구진은 대규모 AI 언어 모델 내부에 숨겨진 개념을 밝혀내는 방법을 개발했다. 이 기술은 인공지능의 기본적인 태도와 "성격 특성"을 보여줄 뿐만 아니라, 답변의 질을 향상시키기 위해 선택적으로 수정할 수 있는 가능성을 열어준다. 동시에, 정보를 왜곡하거나 특정 상황에서 내장된 안전장치를 무시하는 경향과 같은 약점도 드러난다.
![]() |
| ▲ 새로운 방법은 AI 언어 모델에 숨겨진 개념과 성격적 특성을 드러낼 수 있다. pixabay |
AI 기반 대규모 언어 모델은 방대한 양의 인간 지식을 축적하여 단순한 답변 생성기를 훨씬 뛰어넘었다. 엄청난 데이터 저장소를 바탕으로 인공지능은 추상적인 개념을 내면화하고 특정한 어조, 성격, 또는 감정을 표현할 수 있다. 그러나 이러한 과정이 정확히 어떻게 이루어지는지, 그리고 AI의 내면적인 "믿음"이 답변에 어떤 영향을 미치는지는 지금까지 블랙박스로 남아 있었다.
숨겨진 개념 밝히기
캘리포니아 대학교 샌디에이고의 다니엘 비글홀(Daniel Beaglehole)이 이끄는 연구팀은 AI가 내면화한 숨겨진 개념을 투명하게 드러내는 방법을 개발했다. 연구팀은 "재귀적 특징 머신(Recursive Feature Machine, RFM)"이라는 알고리즘을 사용했다. 이 알고리즘은 머신러닝 기반으로, 데이터에서 패턴을 식별하고 복잡한 관계를 매핑할 수 있다.
비글홀 연구팀은 이러한 방식으로 AI 언어 모델인 라마(Llama)의 다양한 버전을 분석해 성격, 감정, 두려움 등 총 512개의 개념을 살펴보았다. 예를 들어, 보스턴을 사랑하는 사람이나 소셜 미디어 인플루언서로 일하는 사람의 관점에서 모델에게 응답하도록 요청했을 때 어떤 내부 연결이 활성화되는지 분석했다.
장점과 위험
이러한 분석 결과를 바탕으로 연구팀은 해당 연결을 선택적으로 강화하거나 약화시켜 향후 응답에 영향을 줄 수 있었다. "저희 방법은 이러한 다양한 개념들을 추출하고, 기존의 프롬프트 방식으로는 불가능한 방식으로 활성화할 수 있는 방법을 제시한다"고 매사추세츠 공과대학(MIT)의 공동 저자인 아디티야나라야난 라다크리슈난(Adityanarayanan Radhakrishnan)은 말했다.
하지만 연구팀이 발견한 것처럼, 인공지능에 영향을 미치는 이러한 방법은 양날의 검과 같다. 한편으로는 응답의 질을 향상시켜, 광범위한 훈련 없이도 특정 작업을 더 효율적으로 수행할 수 있도록 한다. 다른 한편으로는 오용의 가능성도 열어준다. 예를 들어, 연구팀이 인공지능에게 유해한 요청을 거부하도록 지시하는 개념을 약화시켰을 때, 인공지능은 은행 강도나 코카인 복용 방법에 대한 지침을 쉽게 제공했다. 반대로 "음모론" 개념을 강화했을 때는, 인공지능이 NASA의 지구 사진에 대해 "사진은 가짜이고 지구는 평평하다"는 답변을 내놓았다.
블랙박스 들여다보기
새로운 방법은 기존에 악용 가능성이 있었던 경우에도 해당 취약점을 발견하고 제거하는 데 도움을 줄 수 있다. 또한 인공지능에서 흔히 발생하는 정보 조작 문제인 '환각'의 원인을 추적하는 데에도 유용하다. 연구진에 따르면, RFM 기법은 다른 방법들에 비해 컴퓨팅 파워를 거의 필요로 하지 않는다. 따라서 인공지능 언어 모델의 기존 학습 구조에 쉽게 통합해 인공지능의 블랙박스를 해제할 수 있다.
연구팀은 "이번 연구 결과는 모델이 응답에서 드러내는 것보다 더 많은 것을 알고 있으며, 내부 표현 방식을 이해하면 성능과 보안을 근본적으로 개선할 수 있음을 시사한다"고 밝혔다.
출처: Daniel Beaglehole (University of California San Diego, La Jolla, USA) 외, Science, doi: 10.1126/science.aea6792
[더사이언스플러스=문광주 기자]
[ⓒ the SCIENCE plus. 무단전재-재배포 금지]















