어떤 AI 모델이 기후에 특히 해로울까?
- 지구환경 / 문광주 기자 / 2025-06-30 09:29:24
4분 읽기
- 다양한 제조업체에서 제작한 다양한 규모의 14가지 대규모 언어 모델 테스트
- 동일한 질문에 대규모 추론모델은 소규모 일반언어모델보다 최대 50배 많은 CO2 배출
- 킬로와트시당 480g의 CO2 환산 계수를 사용하여 CO2 배출량을 계산
- AI 시스템이 긴 고민 없이 간단하고 짧은 답변을 제공하도록 유도하면 배출량을 크게 줄여
인공지능은 급성장하고 있지만 많은 에너지가 소모된다. ChatGPT, Gemini, DeepSeek 등과 같은 AI 시스템은 많은 전력을 소모하는 강력한 그래픽 프로세서에서 실행된다. 뮌헨 응용과학대학교의 막시밀리안 다우너와 구드룬 소허는 "대규모 언어 모델(LLM)을 포함한 생성 AI 모델은 연간 약 29.3TWh(테라와트시)를 소비하는데, 이는 아일랜드 전체 에너지 수요에 해당한다"고 설명했다. 이 전기가 화석 연료에서 나온다면, 그에 상응하는 높은 이산화탄소 배출량을 유발한다.
라마에서 딥시크까지: 14가지 AI 모델 비교
다양한 AI 모델은 에너지 소비와 탄소 발자국 측면에서 어떻게 다를까? 그리고 작업 유형은 어떤 영향을 미칠까? 다우너와 소처는 이 문제를 더 자세히 조사했다. 연구를 위해 다양한 제조업체에서 제작한 다양한 규모의 14가지 대규모 언어 모델을 테스트했다. 여기에는 메타(Meta)의 라마 3.1과 3.4, 그리고 알리바바(Alibaba)의 퀀(Qwen) 모델(각각 700억~80억 개, 약 700억 개의 매개변수 포함), 그리고 미국 기업 딥코기토(DeepCogito)의 다양한 코기토(Cogito) 모델이 포함되었다. GPT는 로컬 서버에서 실행되지 않으므로 테스트에 포함되지 않았다.
이 테스트에는 딥시크(DeepSeek)와 코기토(Cogito)의 다양한 규모의 추론 모델도 포함되었다. 이러한 AI 시스템은 주어진 작업을 개별 단계로 독립적으로 분해하고 결과를 표시하기 전에 "반영"한다. 모든 AI 시스템에는 역사, 철학, 수학, 법학 분야에서 500개의 문제가 주어졌다. 첫 번째 라운드에서는 이러한 질문들을 객관식 문제로 답해야 했고, 두 번째 라운드에서는 해당 문제에만 기반하여 답해야 했다.
각 과제에 대해 연구팀은 AI 모델이 생성한 토큰의 개수를 파악했다. 토큰은 시스템이 단어를 분석하고 작업 부하를 나타내는 디지털 정보 단위다. 또한 LLM을 실행하는 로컬 컴퓨터의 전력 소비량도 측정했다. 킬로와트시당 480g의 CO2 환산 계수를 사용하여 CO2 배출량을 계산했다.
토큰 문제
결과는 예상대로 대형 AI 모델이 매개변수가 적은 소형 AI 모델보다 평균적으로 더 많은 정답을 제공함을 보여주었다. 하지만 생성된 토큰의 개수에서 알 수 있듯이 추론 모델은 특히 더 많은 컴퓨팅 성능을 필요로 했다. 그 이유는 AI 시스템이 실제 과제에 대한 토큰 외에도 "사고"에 대한 노력을 나타내는 추가적인 사고 토큰을 생성하기 때문이다.
이러한 차이는 특히 객관식 문제에서 두드러졌다. 각 답변에는 정답을 나타내는 문자 하나만 필요했다. 따라서 대부분의 기존 언어 모델은 소수의 토큰만으로 문제를 해결했다. 수학 문제의 경우, 이러한 토큰은 한 자릿수에 불과했다. 연구진은 "반대로 Deepseek-R1의 가장 작은 변형은 이러한 수학 문제 중 하나에 대해 최대 1만4187개의 토큰을 생성했다"고 보고했다.
CO2 발자국은 모델 크기와 문제에 따라 달라져
이는 AI 시스템의 전력 소비량과 CO2 발자국에도 반영된다. Dauner는 "정확성과 지속 가능성 사이에 명확한 타협점이 있음을 확인했다. 80% 이상의 정답률을 기록한 대형 AI 모델 중 1,000개의 문제에 대해 500g 미만의 CO2 배출량을 기록한 모델은 없었다"고 보고했다.
테스트에서 가장 작은 모델인 Qwen은 매개변수가 70억 개에 불과했지만, 1천 개의 문제 모두에서 약 27.7g의 CO2 배출량을 발생시켰다. 그러나 이 AI는 전체 문제의 3분의 1에서만 정답률을 기록했다. 반면, 700억 개의 매개변수를 가진 가장 큰 버전인 DeepSeek-R1은 두 번의 테스트에서 2,000그램 이상의 이산화탄소를 배출했지만, 정답률은 약 80%에 그쳤다.
질문과 프롬프트의 유형 또한 AI의 기후 영향에 영향을 미치는 것으로 나타났다. 다우너와 소처는 "추상 대수학이나 철학과 같은 상징적이고 추상적인 학문은 더 많은 컴퓨팅 성능을 필요로 한다"고 보고했다. 더 긴 "사고 과정"을 수반하는 이러한 질문은 과거 데이터와 같이 명확한 사실에 기반한 질문보다 최대 6배 더 많은 이산화탄소 배출량을 유발했다.
추론 능력에도 영향을 미친다.
추론 과정은 탄소 발자국에도 중요한 역할을 한다. 다우너는 "추론 가능 모델이 단순 LLM보다 최대 50배 더 많은 이산화탄소를 배출하는 것으로 나타났다"고 말했다. 동일한 규모의 AI 시스템에서 기존 모델과 추론 모델 간의 이산화탄소 배출량 차이는 3~4배였다.
더 구체적으로 설명하자면, DeepSeek-R1이 60만 개의 사용자 질문에 답한다면, 이는 런던에서 뉴욕까지 왕복 항공편 한 대가 배출하는 온실가스량과 같은 양이다. 반면, 동일한 규모의 비추론 모델인 Qwen 2.5는 동일한 양의 이산화탄소를 배출하더라도 세 배 더 많은 질문에 비슷한 정확도로 답할 수 있다.
이는 일상적인 AI에 어떤 의미를 가질까?
AI 활용 측면에서 이는 다음과 같다. 우리는 인공지능을 선택함으로써 질문의 기후 영향에 영향을 미칠 수 있다. 따라서 우리는 스스로에게 다음과 같은 질문을 던져야 한다. 단순한 사실 기반 질문에 정말 대규모 추론 모델이 필요한가? 아니면 매개변수가 약간 더 적은 기존 LLM으로 충분할까?
다우너는 "사용자가 AI 시스템이 긴 고민 없이 간단하고 짧은 답변을 제공하도록 유도하면 배출량을 크게 줄일 수 있다"며 "또한 가장 강력한 모델은 이러한 컴퓨팅 파워를 진정으로 필요로 하는 작업에만 사용해야 한다"고 말했다.
마지막으로, 인공지능의 기후 영향은 단순히 재미 삼아 인공지능을 활용하는 것이 얼마나 정당하고 필요한지에 대한 의문을 제기한다. 다우너는 "AI가 생성하는 출력물이 얼마나 많은 이산화탄소를 배출하는지 알면, 우리는 더 신중하게 선택하고 이러한 기술을 사용할지에 관한 시기를 미리 고려할 수 있을 것이다"고 말했다.
참고: Frontiers in Communication, 2025; doi: 10.3389/fcomm.2025.1572947
출처: Frontiers
- 다양한 제조업체에서 제작한 다양한 규모의 14가지 대규모 언어 모델 테스트
- 동일한 질문에 대규모 추론모델은 소규모 일반언어모델보다 최대 50배 많은 CO2 배출
- 킬로와트시당 480g의 CO2 환산 계수를 사용하여 CO2 배출량을 계산
- AI 시스템이 긴 고민 없이 간단하고 짧은 답변을 제공하도록 유도하면 배출량을 크게 줄여
어떤 AI 모델이 기후에 특히 해로울까?
일부 인공지능은 다른 인공지능보다 50배 더 많은 CO2를 배출한다.
테스트 중인 AI 시스템:
실험 결과, 프롬프트와 AI 모델에 따라 인공지능의 CO2 배출량은 크게 다르다. 예를 들어, 동일한 질문에 대해 대규모 추론 모델은 소규모 "일반" 언어 모델보다 최대 50배 더 많은 CO2를 배출한다. 또한 일부 프롬프트와 주제 영역은 다른 영역보다 기후에 더 해롭다. AI 시스템이 해당 영역에 대해 "더 열심히 작업"하기 때문이다. 이는 우리의 일상적인 AI 작업에 어떤 의미를 갖을까?
![]() |
▲ 시험에 통과한 LLM의 객관식 및 자유응답 과제 성과를 비교하고, 개별 과목 성과도 표시한다. (출처: Energy costs of communicating with AI / Frontiers / Front. Commun., 19 June 2025) |
인공지능은 급성장하고 있지만 많은 에너지가 소모된다. ChatGPT, Gemini, DeepSeek 등과 같은 AI 시스템은 많은 전력을 소모하는 강력한 그래픽 프로세서에서 실행된다. 뮌헨 응용과학대학교의 막시밀리안 다우너와 구드룬 소허는 "대규모 언어 모델(LLM)을 포함한 생성 AI 모델은 연간 약 29.3TWh(테라와트시)를 소비하는데, 이는 아일랜드 전체 에너지 수요에 해당한다"고 설명했다. 이 전기가 화석 연료에서 나온다면, 그에 상응하는 높은 이산화탄소 배출량을 유발한다.
라마에서 딥시크까지: 14가지 AI 모델 비교
다양한 AI 모델은 에너지 소비와 탄소 발자국 측면에서 어떻게 다를까? 그리고 작업 유형은 어떤 영향을 미칠까? 다우너와 소처는 이 문제를 더 자세히 조사했다. 연구를 위해 다양한 제조업체에서 제작한 다양한 규모의 14가지 대규모 언어 모델을 테스트했다. 여기에는 메타(Meta)의 라마 3.1과 3.4, 그리고 알리바바(Alibaba)의 퀀(Qwen) 모델(각각 700억~80억 개, 약 700억 개의 매개변수 포함), 그리고 미국 기업 딥코기토(DeepCogito)의 다양한 코기토(Cogito) 모델이 포함되었다. GPT는 로컬 서버에서 실행되지 않으므로 테스트에 포함되지 않았다.
이 테스트에는 딥시크(DeepSeek)와 코기토(Cogito)의 다양한 규모의 추론 모델도 포함되었다. 이러한 AI 시스템은 주어진 작업을 개별 단계로 독립적으로 분해하고 결과를 표시하기 전에 "반영"한다. 모든 AI 시스템에는 역사, 철학, 수학, 법학 분야에서 500개의 문제가 주어졌다. 첫 번째 라운드에서는 이러한 질문들을 객관식 문제로 답해야 했고, 두 번째 라운드에서는 해당 문제에만 기반하여 답해야 했다.
각 과제에 대해 연구팀은 AI 모델이 생성한 토큰의 개수를 파악했다. 토큰은 시스템이 단어를 분석하고 작업 부하를 나타내는 디지털 정보 단위다. 또한 LLM을 실행하는 로컬 컴퓨터의 전력 소비량도 측정했다. 킬로와트시당 480g의 CO2 환산 계수를 사용하여 CO2 배출량을 계산했다.
![]() |
▲ 각 LLM에서 여러 과목의 질문에 답하는 데 필요한 평균 토큰 수다. 추론 모델의 경우, 최종 답변을 제공하기 전에 생성된 추론 토큰 수는 더 진한 색으로 표시된다. (출처: Energy costs of communicating with AI / Frontiers / Front. Commun., 19 June 2025) |
토큰 문제
결과는 예상대로 대형 AI 모델이 매개변수가 적은 소형 AI 모델보다 평균적으로 더 많은 정답을 제공함을 보여주었다. 하지만 생성된 토큰의 개수에서 알 수 있듯이 추론 모델은 특히 더 많은 컴퓨팅 성능을 필요로 했다. 그 이유는 AI 시스템이 실제 과제에 대한 토큰 외에도 "사고"에 대한 노력을 나타내는 추가적인 사고 토큰을 생성하기 때문이다.
이러한 차이는 특히 객관식 문제에서 두드러졌다. 각 답변에는 정답을 나타내는 문자 하나만 필요했다. 따라서 대부분의 기존 언어 모델은 소수의 토큰만으로 문제를 해결했다. 수학 문제의 경우, 이러한 토큰은 한 자릿수에 불과했다. 연구진은 "반대로 Deepseek-R1의 가장 작은 변형은 이러한 수학 문제 중 하나에 대해 최대 1만4187개의 토큰을 생성했다"고 보고했다.
CO2 발자국은 모델 크기와 문제에 따라 달라져
이는 AI 시스템의 전력 소비량과 CO2 발자국에도 반영된다. Dauner는 "정확성과 지속 가능성 사이에 명확한 타협점이 있음을 확인했다. 80% 이상의 정답률을 기록한 대형 AI 모델 중 1,000개의 문제에 대해 500g 미만의 CO2 배출량을 기록한 모델은 없었다"고 보고했다.
테스트에서 가장 작은 모델인 Qwen은 매개변수가 70억 개에 불과했지만, 1천 개의 문제 모두에서 약 27.7g의 CO2 배출량을 발생시켰다. 그러나 이 AI는 전체 문제의 3분의 1에서만 정답률을 기록했다. 반면, 700억 개의 매개변수를 가진 가장 큰 버전인 DeepSeek-R1은 두 번의 테스트에서 2,000그램 이상의 이산화탄소를 배출했지만, 정답률은 약 80%에 그쳤다.
![]() |
▲ 각 LLM이 500개의 질문에 모두 답할 때 생성되는 총 CO2 배출량(그램으로 측정)은 객관식과 자유 응답 시나리오에 대해 별도로 보고된다. (출처: Energy costs of communicating with AI / Frontiers / Front. Commun., 19 June 2025) |
질문과 프롬프트의 유형 또한 AI의 기후 영향에 영향을 미치는 것으로 나타났다. 다우너와 소처는 "추상 대수학이나 철학과 같은 상징적이고 추상적인 학문은 더 많은 컴퓨팅 성능을 필요로 한다"고 보고했다. 더 긴 "사고 과정"을 수반하는 이러한 질문은 과거 데이터와 같이 명확한 사실에 기반한 질문보다 최대 6배 더 많은 이산화탄소 배출량을 유발했다.
추론 능력에도 영향을 미친다.
추론 과정은 탄소 발자국에도 중요한 역할을 한다. 다우너는 "추론 가능 모델이 단순 LLM보다 최대 50배 더 많은 이산화탄소를 배출하는 것으로 나타났다"고 말했다. 동일한 규모의 AI 시스템에서 기존 모델과 추론 모델 간의 이산화탄소 배출량 차이는 3~4배였다.
더 구체적으로 설명하자면, DeepSeek-R1이 60만 개의 사용자 질문에 답한다면, 이는 런던에서 뉴욕까지 왕복 항공편 한 대가 배출하는 온실가스량과 같은 양이다. 반면, 동일한 규모의 비추론 모델인 Qwen 2.5는 동일한 양의 이산화탄소를 배출하더라도 세 배 더 많은 질문에 비슷한 정확도로 답할 수 있다.
![]() |
▲ 1천 개 문항에 대한 각 LLM의 CO2 배출량(그램 단위)과 전반적인 정확도를 비교했다. 결과는 모델 크기, 추론 깊이, 그리고 환경 영향 간의 상충 관계를 보여준다. (출처: Energy costs of communicating with AI / Frontiers / Front. Commun., 19 June 2025) |
이는 일상적인 AI에 어떤 의미를 가질까?
AI 활용 측면에서 이는 다음과 같다. 우리는 인공지능을 선택함으로써 질문의 기후 영향에 영향을 미칠 수 있다. 따라서 우리는 스스로에게 다음과 같은 질문을 던져야 한다. 단순한 사실 기반 질문에 정말 대규모 추론 모델이 필요한가? 아니면 매개변수가 약간 더 적은 기존 LLM으로 충분할까?
다우너는 "사용자가 AI 시스템이 긴 고민 없이 간단하고 짧은 답변을 제공하도록 유도하면 배출량을 크게 줄일 수 있다"며 "또한 가장 강력한 모델은 이러한 컴퓨팅 파워를 진정으로 필요로 하는 작업에만 사용해야 한다"고 말했다.
마지막으로, 인공지능의 기후 영향은 단순히 재미 삼아 인공지능을 활용하는 것이 얼마나 정당하고 필요한지에 대한 의문을 제기한다. 다우너는 "AI가 생성하는 출력물이 얼마나 많은 이산화탄소를 배출하는지 알면, 우리는 더 신중하게 선택하고 이러한 기술을 사용할지에 관한 시기를 미리 고려할 수 있을 것이다"고 말했다.
참고: Frontiers in Communication, 2025; doi: 10.3389/fcomm.2025.1572947
출처: Frontiers
[더사이언스플러스=문광주 기자]
[ⓒ the SCIENCE plus. 무단전재-재배포 금지]