챗봇이 만든 기술 문서 초록은 숙련된 검토자도 속을 정도
- 기술 / 문광주 기자 / 2023-01-17 11:19:38
- AI 시스템 ChatGPT는 모든 종류의 텍스트를 작성할 수 있다. 과학논문 초록도.
- ChatGPT가 생성한 초록의 32%가 실제 테스트를 통과
- 제출된 논문은 텍스트가 ChatGPT 또는 다른 AI 시스템을 사용해 생성됐는지 명시해야
ChatGPT는 과학도 한다.
챗봇이 만든 기술 문서 초록은 숙련된 검토자도 속인다.
믿을 수 없을 정도로 실제:
AI 시스템 ChatGPT는 모든 종류의 텍스트를 작성할 수 있을 뿐만 아니라 과학 분야에서도 텍스트 생성기는 걱정스러울 정도로 설득력이 있다. 결과적으로 ChatGPT가 생성한 초록의 32%가 실제 테스트를 통과한 것으로 나타났다. 인기 있는 표절 탐지 소프트웨어는 심지어 그의 모든 초록을 진품으로 분류하기도 했다.
![]() |
▲ 텍스트 생성기 ChatGPT는 믿을 수 없을 정도로 실제적인 과학적 초록을 작성할 수 있다. |
신경망과 자가 학습 알고리즘 덕분에 인공 지능은 엄청난 발전을 이루었다. 인간의 영역에서도 전략 게임과 외교를 마스터하고 단백질 구조를 해독하거나 컴퓨터 프로그램을 작성한다. 음성 인식 및 음성 출력은 이제 AI 시스템이 독립적으로 대화를 나누고 텍스트를 작성할 수 있을 정도로 잘 발달되었다.
ChatGPT: 시에서 에세이로
AI 시스템은 2022년 말부터 혼란을 일으키고 있다: ChatGPT. 미국 회사인 OpenAI가 개발한 이 챗봇은 현재까지 가장 강력한 텍스트 분석 및 출력 알고리즘 중 하나를 기반으로 한다. 이를 통해 그는 질문에 답하고 텍스트 출력 스타일을 셰익스피어 소네트에서 에세이, 건조한 주식 시장 분석에 이르기까지 모든 문학 또는 저널리즘 스타일에 적용할 수 있다.
Northwestern University의 Catherine Gao는 "ChatGPT가 소네트에서 학교 에세이에 이르기까지 무엇이든 쓸 수 있다는 것을 읽었을 때 학술 초록에 대해서도 같은 말을 할 수 있는지 궁금했다"고 말했다. 초록은 각 과학 기사의 시작 부분에 있는 필수 내용을 요약하는 짧은 요약이다. 그들은 간행물의 필수적인 부분이며 특히 자유롭게 접근할 수 없는 전문 기사의 경우 가이드로 중요하다.
![]() |
▲ Neuralink 및 OpenAI(ChatGPT개발) 사무실이 있는 샌프란시스코 미션 디스트릭트의 파이오니어 빌딩 (출처: 위키미디아) |
첫 번째 테스트로 Cao는 유명한 챗봇에게 집중 치료실의 폐렴에 대한 가상 연구의 초록을 작성하도록 의뢰했다. "그는 저를 위해 놀랍도록 좋은 초록을 만들어 주었다"고 연구원은 회상한다.
테스트 작업으로 50개의 의료 초록
이것은 단지 우연의 일치였을까? 아니면 ChatGPT가 정말 좋은 것인가? 이를 알아보기 위해 Gao와 그녀의 동료들은 AI 시스템에 Nature Medicine, Lancet, JAMA, NEJM 및 BMJ 등 5개의 유명한 의학 저널에 발표된 50개의 실제 논문에 대한 초록을 작성하도록 요청했다. ChatGPT는 제목과 저널만 정보로 받았다. "우리가 시스템에 입력한 작업은 전문 저널( )의 스타일로 제목( )이 있는 기사에 대한 과학 초록을 작성하십시오"라고 연구원은 설명했다.
그런 다음 일반적인 표절 탐지 소프트웨어, 또 다른 AI 시스템 및 숙련된 의료 전문가 형태의 인간 검토자를 사용하여 ChatGPT가 작성한 초록을 분석했다. 후자는 실제 초록과 ChatGPT가 생성한 초록의 혼합을 수신했으며 어떤 것이 AI에서 왔는지 알아내야 했다. Gao와 그녀의 팀은 "우리가 아는 한, 이것은 새로운 ChatGPT 모델이 매력적인 의학 초록을 작성하는 능력을 평가한 첫 번째 연구다"고 말했다.
3분의 1은 정품으로 판정
결과:
표절 소프트웨어는 완전히 속았고 채팅 봇이 만든 요약을 100% 원본으로 분류했다. AI 감지기는 더 나은 성능을 보였다. 챗봇 텍스트의 66%를 컴퓨터에서 생성된 것으로 인식했지만 약 1/3을 놓쳤다. 인간 리뷰어에게는 그다지 좋아 보이지 않았다. 그들은 ChatGPT가 생성한 초록의 68%를 챗봇에서 온 것으로 정확하게 식별했다. 그러나 AI가 생성한 텍스트의 32%는 실제 과학자가 만든 것으로 평가했다.
Gao는 "저희 검토자들은 일부 초록이 가짜라는 것을 알고 있었기 때문에 처음부터 의심했다"고 말했다. "그들이 여전히 ChatGPT 텍스트의 32%를 인식하지 못했다는 사실은 그들이 얼마나 좋은지를 보여준다." 14%의 초록에 대해 리뷰어들은 반대 방향으로 심지어 잘못 분류했다. 그들은 실제 초록을 컴퓨터 생성으로 잘못 분류했다. Gao는 "검토자들은 진짜와 가짜 초록을 구별하기가 놀라울 정도로 어렵다고 말했다"고 전했다.
ChatGPT가 확신하는 이유
수십억 개의 서로 다른 텍스트에 대한 교육 덕분에 ChatGPT는 과학적 전문 지식을 설득력 있게 시뮬레이션할 수도 있다. AI 시스템은 텍스트의 전형적인 과학적 어법을 모방하는 데 성공했을 뿐만 아니라 초록의 내용도 놀랍도록 설득력이 있었다. 그 요약은 종종 실제보다 더 상세했으며 챗봇에는 가상의 임상 시험 식별자도 포함되었다.
Gao는 "ChatGPT는 다양한 주제에 대해 발명한 환자 코호트가 얼마나 커야 하는지도 알고 있었다"고 말했다. 이러한 방식으로 시스템은 고혈압과 같은 일반적인 현상에 대한 연구에 일반적으로 수천에서 수만 명의 참가자 데이터가 포함된다는 것을 알고 있었다. 반면 원숭이 수두 감염과 같은 다소 드문 현상의 경우 사례가 부족하여 사례가 훨씬 적다.
"걱정하는 이유“
연구원에 따르면 이러한 AI 시스템은 우려의 원인이다. "신뢰할 수 있는 데이터로 초록을 생성하는 기능을 고려할 때 출판물을 위조하는 데 사용될 수 있다"고 그들은 설명했다. ChatGPT 및 기타 텍스트 생성기가 출판물의 나머지 부분을 설득력 있게 위조할 수 있다면 리뷰어와 다른 과학자들은 속아 자신의 작업을 잘못된 방향으로 이끌 수 있다.
과학과 기술의 규제를 연구하는 옥스퍼드 대학의 산드라 워쳐(Sandra Wachter)도 비슷한 견해를 가지고 있다. 그녀는 "네이처 뉴스(Nature News)"에서 "지금 우리가 전문가들조차도 더 이상 무엇이 진실인지 아닌지 구별할 수 없는 상황에 처한다면 복잡한 문제를 통해 우리를 안내해야 하는 중개인을 잃게 될 것이다"고 논평했다. 결과적으로 과학 출판에서 관례적인 동료 검토가 약화될 수 있다.
한계는 어디?
Gao와 그녀의 동료들도 이러한 위험을 인식하고 있다. 따라서 그들은 미래에 사람 검토자 외에도 적절하게 훈련된 AI 시스템을 사용하여 제출된 전문 논문을 평가해야 한다고 제안한다. “우리가 테스트한 AI 출력 감지기는 ChatGPT의 텍스트를 감지하는 데 꽤 능숙했다. 따라서 보충 자료로 전문 저널의 심사 과정에 통합될 수 있다"고 Gao는 설명했다.
동시에 연구원들은 그러한 텍스트 생성기의 사용 기회를 보고 있다. 예를 들어, 비영어권 과학자가 전문적인 기사를 작성하는 데 도움이 될 수 있다. "따라서 생성 텍스트 기술은 과학을 민주화할 잠재력이 있다"고 팀은 말한다. 그러나 제출된 논문은 텍스트가 ChatGPT 또는 다른 AI 시스템을 사용하여 생성되었는지 명확하게 명시해야 한다. "따라서 이 기술은 윤리적 및 비윤리적 방식 모두에서 사용될 수 있다"고 Gao는 말했다. 이제 어려움은 경계를 명확하게 그리는 것이다.
(Preprint BioRxiv, 2022; doi: 10.1101/2022.12.23.521610)
출처: 노스웨스턴 대학교
[더사이언스플러스=문광주 기자]
[ⓒ the SCIENCE plus. 무단전재-재배포 금지]