『Welcome to the Era of Experience』

데이터의 양적 측면에서 텍스트만으로는 충분한 멘탈 모델(Mental model)과 월드 모델(World model)을 만들 수 없다. 전세계에 공개된 모든 텍스트를 읽는다고 해도 90조 바이트 정도다. 4살 아기가 눈으로 뭔가를 볼 때는 시각피질로 초당 2MB 데이터가 처리된다. 아기가 4년간 16,000 시간 정도 깨어 있다고 한다면 데이터는 115조 바이트 정도가 된다. 4살 아기가 수집한 시각 데이터의 양이 인류가 지금까지 만든 텍스트 데이터 전체와 비슷하다는 것이다[1].

인공지능 모델도 사람이 만든 휴먼 데이터를 암기하는 것만으로는 초인간적 능력에 도달하기 어렵다. (1) 이미 고품질의 휴먼 데이터는 대부분 소비되었고, (2) 휴먼 데이터만으로는 인간 지식 범위를 벗어난 문제를 해결할 수 없으며, (3) 보상이 인간의 편견에 기반하기 때문이다. 따라서 인공지능이 스스로의 경험에서 학습하는 새로운 패러다임이 필요하다.

경험의 시대는 인공지능이 환경과의 상호작용을 통해 자율적으로 데이터를 생성하고 학습하는 시대다. 가령 AlphaProof는 10만개의 수학 증명(휴먼 데이터)에서 출발해 1억 개 이상의 새로운 증명을 생성해 IMO에서 메달을 획득했다.

경험 기반 인공지능의 네 가지 핵심 요소는 다음과 같다.

  • 스트림: 기존 모델은 단발적 상호작용에 집중, 한 세션 단위로 사고 한다. 반면 인간은 수년간 이어지는 경험의 흐름 속에서 지속적으로 학습하고 행동을 수정한다. 인공지능도 장기간의 연속적 경험을 기반으로 학습하고, 시간이 흐름에 따라 점진적으로 개선되는 능력을 가져야 한다. e.g., 사용자 데이터를 수개월간 모니터링하고 개인화된 조언을 제공.
  • 행동과 관찰: 기존 모델은 사용자의 텍스트 입력에 의존해 출력을 제공한다. 경험 기반 인공지능은 디지털 및 물리 세계와 자율적으로 상호작용해야 한다. e.g., UI를 직접 조작, 실제 실험실에서 실험을 수행.
  • 보상: 기존 모델은 사전 판단된 인간 피드백에 의존한다. 하지만 이 방식은 현실을 반영하지 못한다. 인간의 판단이 아닌, 환경에서 발생하는 실질적 신호를 보상으로 받아야 한다. 보상 함수로는 사용자 목표를 입력받아 보상을 출력하는 신경망 기반 함수를 적용할 수 있다. e.g., 심박수, 시험 점수, 탄소 농도 등.
  • 계획과 추론: 기존 모델은 인간 사고를 모방하는 수준이다. 하지만 인간 언어는 최적의 사고 매커니즘이 아니며, 더 효율적인 사고 방식이 존재할 수 있다. 인공지능이 경험을 통해 더 나은 계산 구조나 사고 모델을 발견할 수도 있다. 에이전트가 월드 모델을 구축하고, 자신의 행동이 환경에 미치는 영향을 예측하고 계획할 수 있어야 한다.

왜 지금이 전환점인가? 강화학습은 시뮬레이션에서 성공적이었지만, 현실 문제의 복잡성과 다양성에서 한계를 맞았다. LLM은 휴먼 데이터를 통해 일반성을 확보했지만, 자기 발견 능력에서 한계를 맞았다. 경험의 시대는 두 접근을 융합해 자율성과 일반성을 동시에 달성할 수 있다. 과거 강화학습은 강력한 도구를 많이 발전시켰지만, 최근에는 RLHF(Reinforcement Learning from Human Feedback) 같은 접근이 강화학습의 핵심 개념을 우회하고 있다. 경험의 시대는 강화학습의 고전적 개념들을 현실 세계에 적용하는 새로운 기회를 제공할 것이다.

참고로 데이비드 실버와 리처드 서튼은 딥러닝의 시대에도 강화학습을 계속 연구해온 이들이다.

이 문서를 인용한 문서


  1. Ben Eum, 『'얀 르쿤’의 WEF 2025 타운홀 스피치』, Turing Post Korea, 2025 ↩︎