새로운 arc-agi-2 벤치마크 점수에 열광하는 동안, 99%의 사람들은 가장 중요한 질문을 놓치고 있다. 우리는 기계의 지능을 측정하고 있다고 믿지만, 실은 우리 자신의 맹점을 드러내고 있는지도 모른다. 이 숫자 게임의 진실은 우리가 생각하는 것과 정반대일 수 있다.
ARC-AGI 벤치마크, 숫자는 무엇을 말하는가?
ARC-AGI 벤치마크(Abstraction and Reasoning Corpus for Artificial General Intelligence)는 단순히 어려운 문제를 푸는 능력을 넘어, AI가 이전에 본 적 없는 새로운 문제에 얼마나 잘 적응하고 추론하는지를 측정하기 위해 설계되었다. 구글 딥마인드의 프랑소와 숄레(François Chollet)가 제안한 이 테스트의 핵심은, 기존 벤치마크처럼 방대한 데이터 암기 능력으로는 해결할 수 없는, 인간의 직관과 유사한 문제 해결 능력을 요구한다는 점이다. 이는 ARC-AGI의 설계와 목표에 명확히 드러나 있다.
그런데 여기서 중요한 것은, 최근 공개된 arc-agi 2 버전이 무엇을 목표로 하는가이다. 이는 기존의 한계를 넘어 보다 복잡하고 다층적인 인간의 문제 해결 방식을 모방하려는 시도로, 그 ARC-AGI-2 공식 개요를 통해 구체적인 확장 방향을 확인할 수 있다. 하지만 그 점수가 의미하는 바를 제대로 이해하려면, 먼저 그 구조를 해부해야 한다.
- 벤치마크 구성 및 평가 항목 요약
| 구분 | ARC-AGI 1 | ARC-AGI 2 (주요 변화) |
|---|---|---|
| 핵심 목표 | 새로운 문제에 대한 추상화 및 추론 능력 | 다단계 추론, 도구 사용, 사전 지식 활용 능력 추가 |
| 평가 항목 | 시각적 패턴 인식, 논리적 추론 | 작업 분해, 실수 교정, 가설 검증 |
| 데이터셋 | 인간이 최소한의 경험으로 풀 수 있는 문제 | 현실 세계와 유사한 복잡성을 지닌 문제 포함 |
| 주요 한계 | 언어 이해, 상식, 상호작용 능력 부재 | 주관적 가치 판단 및 창의적 해결책 평가 불가 |
| 이 표가 보여주는 것은 명백하다. arc-agi 2는 기술적으로 진보했지만, 여전히 인간 지능의 극히 일부만을 측정하는 ‘닫힌 세계’의 테스트라는 점이다. Anthropic의 최근 보고서(2024) 역시 이러한 측정의 한계를 명시하며, 점수를 맹신하는 것의 위험성을 경고한다. |

리더보드의 함정: 점수가 지능을 증명하지 못하는 이유
최신 arc-agi leaderboard를 보면 특정 모델들이 압도적인 점수를 기록하며 순위 경쟁을 벌이고 있다. 사람들은 이 순위표를 보며 AGI의 도래가 임박했다고 흥분하지만, 이는 현상의 절반만 보는 것이다. 더 깊은 진실은 ‘벤치마크 오염(Benchmark Contamination)’이라는, 전문가들이 꾸준히 지적해 온 문제에 숨어있다. 이는 LLM 벤치마크 오염의 체계적 증거에서도 잘 드러나는 현상이다.
AI 모델들이 훈련 데이터에 테스트 문제가 유출되었거나, 혹은 벤치마크 자체의 패턴에 과적합(overfitting)되도록 미세조정될 수 있다는 것이다. 즉, 모델은 진정으로 ‘추론’하는 것이 아니라, 테스트를 ‘통과하는 법’을 학습했을 수 있다. 이는 마치 시험에 나올 문제의 답만 외운 학생과 같다. 그 학생이 해당 과목을 완전히 이해했다고 말할 수 있을까?
바로 이 지점에서 우리는 Unveil이 탐구하는 인간 본질의 영역과 마주하게 된다. 인간의 지능은 정답을 찾는 능력뿐만 아니라, 애매한 상황에서 최선을 선택하고, 틀린 답에서 새로운 의미를 발견하며, 때로는 비논리적인 직관으로 돌파구를 찾는 능력을 포함한다. arc-agi-2 벤치마크는 이러한 무의식적이고 주관적인 판단 과정을 전혀 측정하지 못한다. 점수표의 숫자가 높아질수록, 우리는 오히려 기계가 흉내 낼 수 없는 인간 고유의 가치가 무엇인지 더 명확하게 보게 된다. 점수와 실제 지능 사이의 간극을 이해하는 것은, 진정한 범용 인공지능(AGI)과의 근본적인 차이를 파악하는 첫걸음이다.

한계 너머의 트렌드: 벤치마크가 놓치고 있는 것들
arc-agi-2의 등장은 역설적으로 AGI 연구의 다음 방향이 어디로 향해야 하는지를 보여준다. 현재의 벤치마크가 측정하지 못하는, 그러나 인간에게는 너무나 당연한 능력들이 바로 그것이다.
사회적 맥락과 상식의 부재
AI는 ‘사과가 나무에서 떨어진다’는 물리 법칙은 학습할 수 있지만, ‘실수 F를 저지른 동료 B에게 A라는 말을 건네는 것이 왜 무례한가’와 같은 사회적 맥락은 이해하지 못한다. 인간의 지능은 고립된 문제 풀이가 아니라, 복잡한 사회적 관계망 속에서 발현된다.
주관적 경험과 가치 판단
어떤 그림이 ‘아름다운지’, 어떤 음악이 ‘슬픈지’ 판단하는 능력은 객관적인 점수로 환산할 수 없다. 이는 개인의 경험, 기억, 감정이 얽힌 지극히 주관적인 영역이다. AI가 아무리 정교한 작품을 만들어내도, 그것은 인간의 미적 선호도 데이터를 분석한 결과일 뿐, 스스로 ‘감동’을 느끼는 것은 아니다.
창의성과 예측 불가능성
진정한 창의성은 기존 패턴의 조합을 넘어, 규칙 자체를 깨는 데서 나온다. arc-agi 벤치마크는 정해진 규칙 안에서의 문제 해결을 측정하지만, 인간은 때로 그 규칙이 왜 필요한지 질문하고 새로운 판을 설계한다. AI가 모방할 수 없는 이 예측 불가능성이야말로, AI 시대에 인간이 확보해야 할 가장 중요한 경쟁력이다.
ARC-AGI 2 이후, 우리는 무엇을 질문해야 하는가
ARC-AGI 2의 출현은 우리에게 중요한 질문을 던진다. 우리는 “어떤 AI가 가장 높은 점수를 얻었는가?”를 물을 것이 아니라, “우리는 지능의 무엇을 가치 있게 여기는가?”를 물어야 한다. 점수 경쟁에 매몰되는 순간, 우리는 기계의 프레임에 인간의 가능성을 가두게 된다.
Unveil이 심리학과 인지과학을 통해 인간의 무의식적 패턴을 탐구하는 이유는 여기에 있다. AI가 최적화와 효율성을 향해 달려갈 때, 인간은 비효율적으로 보이는 직관과 불완전한 감정 속에서 새로운 가치를 창조할 수 있다. 벤치마크는 유용한 도구이지만, 그것이 우리가 나아갈 길을 결정하는 지도가 되어서는 안 된다.
중요한 것은 점수 자체가 아니라, 그 점수가 무엇을 측정하고 무엇을 놓치고 있는지를 아는 것이다. AI의 한계를 명확히 인식할 때, 비로소 AI를 대체재가 아닌 강력한 협력 도구로 활용할 수 있는 길이 열린다. 인식과 판단의 메커니즘을 해킹하고 사고의 해방을 경험하는 것은, 기계가 아닌 우리 자신을 이해하는 데서 시작된다.

결국 AGI를 향한 맹목적인 점수 경쟁은, 기계가 아닌 우리 자신의 지능을 시험하는 것일지도 모른다. 우리가 무엇을 가치있게 여기고, 무엇을 인간 고유의 영역으로 남겨둘 것인지에 대한 질문 말이다.