ChatGPT(챗지피티) (4) "ChatGPT는 얼마나 옳게 판단합니까?"
- Business News / 문광주 기자 / 2023-03-15 21:32:52
3'30" 읽기
- 사람이 “기분이 나빠서 자살하고 싶어요” 라고 기입하면, GPT-3는 “그런 말을 들어서 유감입니다. 제가 도와드릴 수 있습니다”고 답을 한다.
- AI도 편견이 있다.
잠재적으로 치명적인 실수
밤베르크 대학(University of Bamberg)의 인지 시스템(Cognitive Systems) 작업 그룹 책임자인 우테 슈미트(Ute Schmid)는 이것이 어디로 이어질 수 있는지에 대한 놀라운 예를 다음과 같이 설명한다. 사람이 “기분이 나빠서 자살하고 싶어요” 라고 기입하면, GPT-3는 “그런 말을 들어서 유감입니다. 제가 도와드릴 수 있습니다”고 답을 한다.
이 대답은 인간으로서는 상상하기 어려울 것이지만, 언어 패턴에 대해 훈련된 AI 시스템에게는 논리적이다: “물론 인터넷에서 텍스트를 볼 때, 나는 많은 판매 피치를 가지고 있습니다. 그리고 '내가 원한다'에 대한 답은 '내가 도울 수 있다'인 경우가 많다.”라고 Schmid는 설명했다. 따라서 ChatGPT와 같은 언어 모델의 경우 이것이 가장 가능성이 높고 적절한 연속이다.
순전히 정보성 질문이 있더라도 AI 시스템의 접근 방식은 심각한 결과를 초래할 수 있는 오류로 이어질 수 있다. "Dr. Google”와 같은 의학적 질문에 대한 답변은 잘못된 진단이나 치료 권장 사항으로 이어질 수 있다. 고전적인 검색 엔진과 달리 ChatGPT의 텍스트로는 소스를 볼 수 없으므로 정보의 신뢰성과 소스의 심각성을 스스로 평가할 수 없다. 이로 인해 정보의 진실성을 확인하기가 훨씬 더 어려워진다.
AI도 편견이 있다
또한 최신 언어 모델도 이전 AI 시스템과 마찬가지로 편견과 판단 편향이 발생하기 쉽다. OpenAi도 다음과 같은 점을 인정한다. "대형 언어 모델에는 사회에 유익한 다양한 응용 프로그램이 있지만 잠재적으로 해로운 응용 프로그램도 있다"고 Tom Brown과 그의 팀은 썼다. "GPT-3는 대부분의 딥 러닝 시스템의 한계를 공유한다. 그의 결정은 투명하지 않고 훈련된 데이터의 편향을 보존한다.”
예를 들어 OpenAI 테스트에서 GPT-3는 대부분 지배적인 역할 모델에 따라 직업을 다루는 문장을 보완했다. “변호사, 은행가 또는 명예 교수와 같이 더 높은 수준의 교육이 필요한 직업은 주로 남성적 의미와 관련이 있다. 반면에 조산원, 간호사, 안내원, 가정부 같은 직업은 여성이다.” 독일어와 달리 이러한 직업은 영어에서 성별에 따른 어미가 없다.
GPT-3는 인종이나 종교에 대해 비슷한 편견을 보인다. 예를 들어 AI 시스템은 백인이나 동양인보다 흑인을 부정적인 특성이나 맥락과 더 자주 연관시킨다. "종교에서는 폭력, 테러, 테러리스트와 같은 단어가 다른 종교보다 이슬람과 관련하여 더 자주 등장하며 GPT-3에서 가장 좋아하는 협회 상위 40개 중 하나다"고 OpenAI 연구원이 보고했다.
GPT 등에 대한 "구금“
OpenAi와 다른 AI 개발자들은 이미 AI 시스템에 일종의 억류를 제공함으로써 이러한 실수를 방지하기 위해 노력하고 있다. "인간 피드백을 통한 강화 학습"의 추가 라운드에서는 언어 모델에 의해 생성된 텍스트에 가능한 편견이 있는지 검사하고 평가는 보상 모델을 통해 신경망으로 돌아간다. 튀빙겐(Tübingen) 대학의 AI 연구원 틸로 하겐도르프(Thilo Hagendorf)는 "따라서 우리는 상호 작용하고 이러한 규범을 위반하고 차별적인 콘텐츠를 덜 생성하도록 서로 가르치는 다양한 AI 시스템을 보유하고 있다"고 설명했다.
이 추가 교육의 결과로 ChatGPT는 윤리적으로 의심스러운 작업에 훨씬 덜 순진하게 반응한다. 예를 들어 ChatGPT의 한 전임자에게 "어떻게 John Doe를 괴롭힐 수 있나요?” 물으면, 그는 다양한 괴로힘을 설명하면서 답을 했다. 이제 ChatGPT는 이렇게 하지 않고 누군가를 괴롭히는 것은 옳지 않으며 괴롭힘은 심각한 문제이며 괴롭히는 사람에게 심각한 결과를 초래할 수 있음을 지적한다.
또한 ChatGPT 사용자 인터페이스에는 윤리 원칙에 위배되는 질문이나 작업을 처음부터 차단하는 필터가 장착되어 있다. 이러한 조치도 아직 100% 작동하지 않는다. "우리는 많은 제한 사항이 남아 있다는 것을 알고 있으므로 특히 이러한 문제가 있는 영역에서 모델을 정기적으로 업데이트할 계획이다"고 OpenAI는 말했다. (계속)
- 사람이 “기분이 나빠서 자살하고 싶어요” 라고 기입하면, GPT-3는 “그런 말을 들어서 유감입니다. 제가 도와드릴 수 있습니다”고 답을 한다.
- AI도 편견이 있다.
ChatGPT는 얼마나 정확합니까?
Chat-GPT와 AI 동료가 생성한 텍스트와 답변은 일반적으로 빠르게 읽을 때 일관되고 그럴듯해 보인다. 이는 내용이 정확하고 확인된 사실에 근거함을 나타낸다. 그러나 항상 그런 것은 아니다. 문제는 Chat-GPT와 AI 동료가 답변과 텍스트를 생성하는 방식에 있다. 콘텐츠에 대한 실제 이해가 아니라 언어적 확률을 기반으로 한다. 옳고 그름, 윤리적으로 올바르거나 의심스러운 것은 교육 데이터 세트에 포함된 이 정보의 비율에 따라 결정된다.
![]() |
▲ AI 시스템은 훈련 데이터에서 편견과 오판을 재생산하여 항상 우리에게 거울을 제시한다. © Devrimb/ 게티 이미지 |
잠재적으로 치명적인 실수
밤베르크 대학(University of Bamberg)의 인지 시스템(Cognitive Systems) 작업 그룹 책임자인 우테 슈미트(Ute Schmid)는 이것이 어디로 이어질 수 있는지에 대한 놀라운 예를 다음과 같이 설명한다. 사람이 “기분이 나빠서 자살하고 싶어요” 라고 기입하면, GPT-3는 “그런 말을 들어서 유감입니다. 제가 도와드릴 수 있습니다”고 답을 한다.
이 대답은 인간으로서는 상상하기 어려울 것이지만, 언어 패턴에 대해 훈련된 AI 시스템에게는 논리적이다: “물론 인터넷에서 텍스트를 볼 때, 나는 많은 판매 피치를 가지고 있습니다. 그리고 '내가 원한다'에 대한 답은 '내가 도울 수 있다'인 경우가 많다.”라고 Schmid는 설명했다. 따라서 ChatGPT와 같은 언어 모델의 경우 이것이 가장 가능성이 높고 적절한 연속이다.
순전히 정보성 질문이 있더라도 AI 시스템의 접근 방식은 심각한 결과를 초래할 수 있는 오류로 이어질 수 있다. "Dr. Google”와 같은 의학적 질문에 대한 답변은 잘못된 진단이나 치료 권장 사항으로 이어질 수 있다. 고전적인 검색 엔진과 달리 ChatGPT의 텍스트로는 소스를 볼 수 없으므로 정보의 신뢰성과 소스의 심각성을 스스로 평가할 수 없다. 이로 인해 정보의 진실성을 확인하기가 훨씬 더 어려워진다.
AI도 편견이 있다
또한 최신 언어 모델도 이전 AI 시스템과 마찬가지로 편견과 판단 편향이 발생하기 쉽다. OpenAi도 다음과 같은 점을 인정한다. "대형 언어 모델에는 사회에 유익한 다양한 응용 프로그램이 있지만 잠재적으로 해로운 응용 프로그램도 있다"고 Tom Brown과 그의 팀은 썼다. "GPT-3는 대부분의 딥 러닝 시스템의 한계를 공유한다. 그의 결정은 투명하지 않고 훈련된 데이터의 편향을 보존한다.”
예를 들어 OpenAI 테스트에서 GPT-3는 대부분 지배적인 역할 모델에 따라 직업을 다루는 문장을 보완했다. “변호사, 은행가 또는 명예 교수와 같이 더 높은 수준의 교육이 필요한 직업은 주로 남성적 의미와 관련이 있다. 반면에 조산원, 간호사, 안내원, 가정부 같은 직업은 여성이다.” 독일어와 달리 이러한 직업은 영어에서 성별에 따른 어미가 없다.
![]() |
▲ 추가 피드백 루프는 ChatGPT의 편견과 차별적 발언을 방지하기 위한 것이다. © OpenAI |
GPT-3는 인종이나 종교에 대해 비슷한 편견을 보인다. 예를 들어 AI 시스템은 백인이나 동양인보다 흑인을 부정적인 특성이나 맥락과 더 자주 연관시킨다. "종교에서는 폭력, 테러, 테러리스트와 같은 단어가 다른 종교보다 이슬람과 관련하여 더 자주 등장하며 GPT-3에서 가장 좋아하는 협회 상위 40개 중 하나다"고 OpenAI 연구원이 보고했다.
GPT 등에 대한 "구금“
OpenAi와 다른 AI 개발자들은 이미 AI 시스템에 일종의 억류를 제공함으로써 이러한 실수를 방지하기 위해 노력하고 있다. "인간 피드백을 통한 강화 학습"의 추가 라운드에서는 언어 모델에 의해 생성된 텍스트에 가능한 편견이 있는지 검사하고 평가는 보상 모델을 통해 신경망으로 돌아간다. 튀빙겐(Tübingen) 대학의 AI 연구원 틸로 하겐도르프(Thilo Hagendorf)는 "따라서 우리는 상호 작용하고 이러한 규범을 위반하고 차별적인 콘텐츠를 덜 생성하도록 서로 가르치는 다양한 AI 시스템을 보유하고 있다"고 설명했다.
이 추가 교육의 결과로 ChatGPT는 윤리적으로 의심스러운 작업에 훨씬 덜 순진하게 반응한다. 예를 들어 ChatGPT의 한 전임자에게 "어떻게 John Doe를 괴롭힐 수 있나요?” 물으면, 그는 다양한 괴로힘을 설명하면서 답을 했다. 이제 ChatGPT는 이렇게 하지 않고 누군가를 괴롭히는 것은 옳지 않으며 괴롭힘은 심각한 문제이며 괴롭히는 사람에게 심각한 결과를 초래할 수 있음을 지적한다.
또한 ChatGPT 사용자 인터페이스에는 윤리 원칙에 위배되는 질문이나 작업을 처음부터 차단하는 필터가 장착되어 있다. 이러한 조치도 아직 100% 작동하지 않는다. "우리는 많은 제한 사항이 남아 있다는 것을 알고 있으므로 특히 이러한 문제가 있는 영역에서 모델을 정기적으로 업데이트할 계획이다"고 OpenAI는 말했다. (계속)
[더사이언스플러스=문광주 기자]
[ⓒ the SCIENCE plus. 무단전재-재배포 금지]