사회과학 연구 결과는 얼마나 재현성이 있을까?
- Business News / 문광주 기자 / 2026-05-26 14:12:51
5분 읽기
- 연구의 신뢰성 "3R"이라고 불리는 세 가지 기준; 재현성, 복제 가능성, 견고성
- 2009-2018년까지 학술지에 발표된 약 3천9백 건의 연구에 관해 신뢰성 3R 검증.
- 이 중 53%는 재현성이 입증, 견고성 약 57% 충족, 55%의 연구에서 재현성이 입증
- 이 결과를 사회과학 자체가 신뢰할 수 없는 연구 분야라고 받아들여서는 안돼
- 연구는 개선을 위한 귀중한 통찰력을 제공
연구의 신뢰성은 흔히 "3R"이라고 불리는 세 가지 기준에 달려 있다.
첫 번째 기준은 재현성이다. 동일한 원자료를 동일한 분석 방법을 사용하여 재분석했을 때 동일한 결과가 나와야 한다. 두 번째 기준은 복제 가능성이다. 다른 연구팀이 동일한 방식으로 실험을 반복했을 때, 동일한 결과가 나와야 한다. 세 번째 기준은 견고성이다. 동일한 원자료를 다른 방법으로 분석했을 때에도 동일한 핵심 결론에 도달해야 한다는 것이다. 이론상으로는 그렇지만, 실제로는 이러한 검증 시도가 실패하는 경우가 많다. 특정 논문의 결과가 재현되지 않는 사례가 빈번하게 발생한다.
과학의 3R 기준
대규모 국제 프로젝트인 SCORE(Systematizing Confidence in Open Research and Evidence)는 지난 몇 년간 사회과학 분야에서 3R 기준을 더욱 자세히 검토해 왔다. 이 프로젝트에는 전 세계 850명 이상의 연구자들이 참여하여 2009년부터 2018년까지 동료 심사를 거친 학술지에 발표된 약 3,900건의 연구에 대해 재현성, 복제 가능성, 견고성을 검증했다.
이 연구들은 사회학, 심리학, 교육학, 경제학, 경영학, 정치학 등 다양한 분야에서 나왔다. SCORE 참여자들은 현재 세 편의 동료 심사 논문을 통해 연구 결과를 발표했다. 브레멘 국제 사회과학대학원(BIGSSS)에서 이 프로젝트에 참여한 연구원 크리스티나 그레쿨레스쿠(Cristina Greculescu)는 "이 논문들이 네이처와 같은 주요하고 권위 있는 학술지에 게재되었다는 사실은 이제 과학 연구를 제대로 수행하는 데 대한 관심이 높아지고 있음을 보여준다"고 말하며, "이는 이러한 연구가 중요하고 과학적 진실성이 중요하다는 긍정적인 신호다"고 덧붙였다.
첫 번째 기준인 재현성을 검증하기 위해 미국 샬러츠빌에 있는 오픈 사이언스 센터의 올리비아 미스케(Olivia Miske)가 이끄는 연구팀은 사회 및 경제 과학의 다양한 분야에서 발표된 600편의 연구를 분석했다. 그 결과, 전체 논문 중 약 4분의 1만이 재현성을 확보할 수 있는 충분한 원자료와 분석 방법 및 사용된 컴퓨터 코드에 대한 정보를 포함하고 있는 것으로 나타났다.
이 중 53%는 재현성이 입증됐고, 또 다른 4분의 1은 최소한 대략적인 재현성이 있는 것으로 확인됐다. 미스케와 그의 동료들은 "정치학과 경제학 분야의 논문은 다른 분야에 비해 원자료를 더 자주 이용할 수 있었고, 재현성 또한 더 높았다"고 보고했다. "이는 아마도 해당 분야 학술지의 논문 게재 지침 때문일 것이다. 해당 지침에서는 논문 게재를 위해 원자료와 코드를 공유하도록 요구한다.”
절반만이 견고하고 재현 가능
부다페스트 에트뵈시 로란드 대학교의 발라즈 아첼(Balazs Aczel) 교수가 이끄는 연구팀은 100개의 연구를 통해 연구 결과의 견고성을 조사했다. 그들은 동일한 원자료를 사용했지만, 분석 방법은 다르게 적용했다. 그 결과, "독립적인 재분석에서 34%가 원 연구와 동일한 결과를 보였다"고 연구팀은 밝혔다. "허용 오차 범위를 넓히면 약 57%의 연구가 기준을 충족했다." 그러나 24%의 재분석에서는 유의미한 결과가 나오지 않거나 핵심 결과가 모순되는 경우도 있었다.
세 번째이자 가장 복잡한 기준인 재현성은 워싱턴 D.C.에 있는 오픈 사이언스 센터(Center for Open Science)의 앤드류 타이너(Andrew Tyner) 교수가 이끄는 연구팀이 다루었다. 그들은 164개의 연구에서 수행된 실험과 테스트를 반복했다. 그 결과, 55%의 연구에서 재현성이 입증되었다.
스탠퍼드 대학교의 사회학자 롭 밀러는 네이처(Nature)지에 기고한 글에서 “이번 연구 결과는 경종을 울리는 계기가 되어야 한다”며, “만약 이 결과를 진지하게 받아들인다면, 사회과학 분야에서 시간의 시험을 견뎌낼 수 있는 견고한 지식을 구축하는 데 도움이 될 수 있을 것”이라고 평했다. SCORE 프로젝트 참여자들도 같은 견해를 밝혔다.
브레멘 컨스트럭터 대학교의 울리히 퀴넨(Ulrich Kühnen)은 “이번 결과를 사회과학 자체가 신뢰할 수 없는 연구 분야라는 근본적인 비판으로 받아들여서는 안 된다. 그것은 완전히 잘못된 생각”이라고 강조했다. 프로젝트 결과는 개선을 위한 귀중한 통찰력을 제공한다. 그레쿨레스쿠는 “이번 결과는 사회 및 행동 과학 전반에 걸쳐 자기비판적인 계기가 되었지만, 긍정적인 의미에서 그렇다”며, “과학 연구의 진실성과 개방성을 높이는 길을 열어줄 것”이라고 덧붙였다.
출처: SCORE 프로젝트, 네이처(Nature)
- 연구의 신뢰성 "3R"이라고 불리는 세 가지 기준; 재현성, 복제 가능성, 견고성
- 2009-2018년까지 학술지에 발표된 약 3천9백 건의 연구에 관해 신뢰성 3R 검증.
- 이 중 53%는 재현성이 입증, 견고성 약 57% 충족, 55%의 연구에서 재현성이 입증
- 이 결과를 사회과학 자체가 신뢰할 수 없는 연구 분야라고 받아들여서는 안돼
- 연구는 개선을 위한 귀중한 통찰력을 제공
사회과학 연구 결과는 얼마나 재현성이 있을까요?
과학에서 재현성과 복제 가능성은 결과의 신뢰성을 판단하는 중요한 기준으로 여겨진. 연구나 실험을 재검토했을 때 동일한 결과가 나온다면, 그 결과는 타당하다고 볼 수 있다. 그러나 최근 한 국제 프로젝트를 통해 사회과학 분야에서 심각한 문제가 드러났다.
사회학, 심리학, 정치학, 경제학, 교육학 분야의 약 3천9백 건의 연구를 분석한 결과, 절반 정도에서만 재현성이 확보되었다. 또한 많은 연구에서 원자료가 부족하고 컴퓨터 분석에 사용된 자료에 대한 정확한 정보가 누락된 것으로 나타났다. 심지어 동일한 데이터를 다른 분석 방법을 사용하여 재분석했을 때, 일부 연구에서는 원래 발표된 핵심 결과와 정반대의 결과가 나오기도 했다. 이러한 결과는 과학적 연구에 어떤 의미를 가질까?
![]() |
| ▲ 과학 연구는 재현 가능하고, 복제 가능하며, 견고해야 한다. |
연구의 신뢰성은 흔히 "3R"이라고 불리는 세 가지 기준에 달려 있다.
첫 번째 기준은 재현성이다. 동일한 원자료를 동일한 분석 방법을 사용하여 재분석했을 때 동일한 결과가 나와야 한다. 두 번째 기준은 복제 가능성이다. 다른 연구팀이 동일한 방식으로 실험을 반복했을 때, 동일한 결과가 나와야 한다. 세 번째 기준은 견고성이다. 동일한 원자료를 다른 방법으로 분석했을 때에도 동일한 핵심 결론에 도달해야 한다는 것이다. 이론상으로는 그렇지만, 실제로는 이러한 검증 시도가 실패하는 경우가 많다. 특정 논문의 결과가 재현되지 않는 사례가 빈번하게 발생한다.
과학의 3R 기준
대규모 국제 프로젝트인 SCORE(Systematizing Confidence in Open Research and Evidence)는 지난 몇 년간 사회과학 분야에서 3R 기준을 더욱 자세히 검토해 왔다. 이 프로젝트에는 전 세계 850명 이상의 연구자들이 참여하여 2009년부터 2018년까지 동료 심사를 거친 학술지에 발표된 약 3,900건의 연구에 대해 재현성, 복제 가능성, 견고성을 검증했다.
이 연구들은 사회학, 심리학, 교육학, 경제학, 경영학, 정치학 등 다양한 분야에서 나왔다. SCORE 참여자들은 현재 세 편의 동료 심사 논문을 통해 연구 결과를 발표했다. 브레멘 국제 사회과학대학원(BIGSSS)에서 이 프로젝트에 참여한 연구원 크리스티나 그레쿨레스쿠(Cristina Greculescu)는 "이 논문들이 네이처와 같은 주요하고 권위 있는 학술지에 게재되었다는 사실은 이제 과학 연구를 제대로 수행하는 데 대한 관심이 높아지고 있음을 보여준다"고 말하며, "이는 이러한 연구가 중요하고 과학적 진실성이 중요하다는 긍정적인 신호다"고 덧붙였다.
첫 번째 기준인 재현성을 검증하기 위해 미국 샬러츠빌에 있는 오픈 사이언스 센터의 올리비아 미스케(Olivia Miske)가 이끄는 연구팀은 사회 및 경제 과학의 다양한 분야에서 발표된 600편의 연구를 분석했다. 그 결과, 전체 논문 중 약 4분의 1만이 재현성을 확보할 수 있는 충분한 원자료와 분석 방법 및 사용된 컴퓨터 코드에 대한 정보를 포함하고 있는 것으로 나타났다.
이 중 53%는 재현성이 입증됐고, 또 다른 4분의 1은 최소한 대략적인 재현성이 있는 것으로 확인됐다. 미스케와 그의 동료들은 "정치학과 경제학 분야의 논문은 다른 분야에 비해 원자료를 더 자주 이용할 수 있었고, 재현성 또한 더 높았다"고 보고했다. "이는 아마도 해당 분야 학술지의 논문 게재 지침 때문일 것이다. 해당 지침에서는 논문 게재를 위해 원자료와 코드를 공유하도록 요구한다.”
![]() |
부다페스트 에트뵈시 로란드 대학교의 발라즈 아첼(Balazs Aczel) 교수가 이끄는 연구팀은 100개의 연구를 통해 연구 결과의 견고성을 조사했다. 그들은 동일한 원자료를 사용했지만, 분석 방법은 다르게 적용했다. 그 결과, "독립적인 재분석에서 34%가 원 연구와 동일한 결과를 보였다"고 연구팀은 밝혔다. "허용 오차 범위를 넓히면 약 57%의 연구가 기준을 충족했다." 그러나 24%의 재분석에서는 유의미한 결과가 나오지 않거나 핵심 결과가 모순되는 경우도 있었다.
세 번째이자 가장 복잡한 기준인 재현성은 워싱턴 D.C.에 있는 오픈 사이언스 센터(Center for Open Science)의 앤드류 타이너(Andrew Tyner) 교수가 이끄는 연구팀이 다루었다. 그들은 164개의 연구에서 수행된 실험과 테스트를 반복했다. 그 결과, 55%의 연구에서 재현성이 입증되었다.
스탠퍼드 대학교의 사회학자 롭 밀러는 네이처(Nature)지에 기고한 글에서 “이번 연구 결과는 경종을 울리는 계기가 되어야 한다”며, “만약 이 결과를 진지하게 받아들인다면, 사회과학 분야에서 시간의 시험을 견뎌낼 수 있는 견고한 지식을 구축하는 데 도움이 될 수 있을 것”이라고 평했다. SCORE 프로젝트 참여자들도 같은 견해를 밝혔다.
브레멘 컨스트럭터 대학교의 울리히 퀴넨(Ulrich Kühnen)은 “이번 결과를 사회과학 자체가 신뢰할 수 없는 연구 분야라는 근본적인 비판으로 받아들여서는 안 된다. 그것은 완전히 잘못된 생각”이라고 강조했다. 프로젝트 결과는 개선을 위한 귀중한 통찰력을 제공한다. 그레쿨레스쿠는 “이번 결과는 사회 및 행동 과학 전반에 걸쳐 자기비판적인 계기가 되었지만, 긍정적인 의미에서 그렇다”며, “과학 연구의 진실성과 개방성을 높이는 길을 열어줄 것”이라고 덧붙였다.
출처: SCORE 프로젝트, 네이처(Nature)
[더사이언스플러스=문광주 기자]
[ⓒ the SCIENCE plus. 무단전재-재배포 금지]
















