구독은 사랑입니다.

데이터 없는 AI 학습, '앱솔루트 제로'가 여는 새로운 패러다임

데이터 없는 AI 학습, '앱솔루트 제로'가 여는 새로운 패러다임


General: 데이터 중심 AI의 한계를 넘는 새로운 도전

최근 AI 연구에서 매우 흥미로운 논문이 발표되었습니다. 2024년 5월 7일, 칭화대와 베이징 제너럴 AI 연구소, 펜실베니아 주립대 연구진이 공동 발표한 이 논문은 기존 AI 학습 방식과는 전혀 다른 접근을 시도했습니다. 모델 이름은 '앱솔루트 제로(Absolute Zero)'로, 외부 학습 데이터 없이 스스로 문제를 만들고 해결하며 성능을 높이는 자율 학습 AI를 제안합니다. 이는 전통적인 지도 학습(Supervised Learning), 강화 학습(Reinforcement Learning)과는 차별화된 방식으로, AI가 스스로 문제를 출제하고 푸는 셀프 플레이 기반 학습을 통해 결과를 도출합니다.

펜실베니아 주립대 연구진이 공동 발표한 이 논문'앱솔루트 제로(Absolute Zero)


Insight: AI 학습의 패러다임 전환과 의미

기존의 LLM(Large Language Models)은 대부분 대규모의 고품질 데이터셋에 의존해 학습합니다. 문제는 이러한 데이터가 점점 희소해지고 있다는 점입니다. 공개된 퍼블릭 텍스트의 양은 한계가 있으며, GPT류 모델이 학습한 데이터 규모는 수십 조 토큰에 달합니다. 이미 많은 연구자들이 "학습 가능한 데이터는 2028년경 포화에 이를 것"이라고 예측하고 있습니다.

이런 상황에서 '앱솔루트 제로'는 AI가 외부 데이터 없이도 자율적으로 문제를 만들고, 해결하며 성장하는 메커니즘을 증명해 보인 최초의 사례 중 하나로 평가됩니다. AI가 문제를 출제(Propose)하고, 이를 스스로 해결(Solve)하며 그 과정에서 학습을 반복하는 구조로, 자가 생성 + 자가 평가 + 자가 개선이라는 전례 없는 셀프 러닝 루프를 갖추고 있습니다.

또한 이 모델은 '코딩 문제'를 기반으로 사고력, 논리적 추론 능력을 훈련합니다. 코드 기반 학습은 정확한 정답 유무 판단이 가능하기 때문에 자동 채점과 리워드 부여 시스템 설계에 매우 유리합니다. 이는 마치 AI가 스스로 사고 훈련을 하는 셈입니다.



Specific: 앱솔루트 제로의 구조와 가능성

핵심 구조

  • LM 하나가 두 가지 역할 수행:

    • 문제 출제자(Proposer)

    • 문제 해결자(Solver)

  • 코드 실행기(Code Executor): 자동 채점 및 리워드 제공

  • 셀프 플레이 루프: 자가 생성 → 자가 해결 → 자가 검증 → 반복 학습

학습되는 추론 유형

  • 연역 추론(Deduction): A → B, B → C이면 A → C

  • 귀납 추론(Induction): 여러 사례를 바탕으로 일반 법칙 도출

  • 역추론(Abduction): 결과를 기반으로 원인을 추론

이 방식은 초기에는 간단한 '헬로월드' 수준에서 시작해 점차 복잡한 문제로 진화하며, 리워드를 통해 학습 난이도를 스스로 조절합니다. 또한 이 구조는 GPT나 라마(LLaMA) 등의 기존 모델에도 적용 가능한 확장성을 보였고, 특히 모델 크기가 클수록 성능 향상이 더욱 두드러지는 점도 입증됐습니다.

고려해야 할 한계점

  • 셀프 플레이 루프는 막대한 자원 소모 가능성

  • 일반화 능력은 제한적 (논리/코드 문제에는 강하지만 현실 세계 문제에는 불확실)

  • 예상치 못한 AI 행동 발생 시 안전성(Safety) 이슈


결론: AGI 시대를 향한 진정한 자율 학습의 첫걸음

앱솔루트 제로는 기존 AI가 반드시 필요로 했던 "사람이 만든 데이터" 없이도 고성능 학습이 가능함을 보여줬습니다. 이는 AGI(인공일반지능)를 위한 새로운 돌파구가 될 수 있으며, AI가 인간 수준을 넘는 사고 능력을 가질 수 있다는 가능성을 제시한 셈입니다.

아직은 초기 단계지만, 이 방식이 발전한다면 우리는 AI가 스스로 학습하고 발전하는 완전 자율 학습 시대를 맞이하게 될지도 모릅니다. 트랜스포머가 AI 아키텍처의 전환점이었다면, 앱솔루트 제로는 학습 패러다임의 전환점이 될 가능성이 있습니다.

앱솔루트 제로는 외부 데이터 없이도 스스로 학습하며 기존 최고 성능 모델과 견줄 수 있는 결과를 도출한 AI 모델로, AGI 시대를 향한 새로운 패러다임을 제시합니다.

처음으로