🔬비공식 AI를 넘어 확장하기 - Carina Hong, Axiom Math
2025년, 설립 7개월 된 스타트업 Axiom이 Putnam 시험의 12개 문제를 모두 풀었다 (시간 제한 내에 8/12을 획득). 12/12 점수는 최고 수준의 학부생(110/120)과 보고된 결과가 있는 가장 가까운 AI 시스템(DeepSeek 103/120)보다 더 낫다. 다만 더 많은 시간이 주어졌을 때 사람들과 다른 시스템들이 어떻게 수행했을지는 불명확하다. 그럼에도 불구하고 Putnam 시험은 어려움으로 유명하며, 중앙값 점수는 일반적으로 0 또는 1점이다. 그 자체로 보면 이것은 AI의 작은 깃털 같은 것으로 보인다. 인류와의 정점 경쟁에서 AI 시스템이 달성한 오랜 일련의 성과 중 하나일 뿐이며, Deep Blue가 Kasparov를 이긴 것부터 시작됐다.
2026년 중반으로 빠르게 진행하면, Claude Code와 Codex가 세상을 뒤흔들고 있다. 2024년 코드와 기업에 대한 Anthropic의 베팅은 더 나은 모델과 막대한 소비 규모를 가진 OpenAI와 비교해 더 실용적인 틈새 플레이처럼 보였다. 오늘날, 코드를 통한 가속화에 대한 Amodei의 전폭적인 베팅(이미지와 비디오는 그딴 거 상관없다)은 선견지명이 있는 것처럼 보인다.
하지만 Anthropic의 성장하는 모멘텀에도 불구하고, Axiom CEO Carina Hong은 코딩 능력을 AGI로 가는 길에서 필요하지만 충분하지 않은 마일스톤으로 본다. 코드는 아마도 코딩 외의 일부 도메인에서 초지능의 관점으로 불규칙한 경계를 밀어낸다, 하지만 놀랍게도 간격이 있다(링크). Carina는 AI 진행을 병목으로 삼을 것이라고 믿는다. (수학 벤치마크 통계).
비공식 병목
"검증된 AI"는 브로콜리를 먹는 것처럼 들린다1 그리고 세금을 내는 것처럼. 하지만 Axiom에게는 완전히 다른 의미이다. "검증은 나에게 결과를 확대하는 것이고, 결과를 복합적으로 만드는 것이다"라고 Carina는 우리에게 말했다.
내가 그녀가 무엇을 의미하는지 이해하는 데 시간이 걸렸다(그것이 마케팅 언어처럼 들릴 때까지 클릭했다). Carina는 전설적인 수학자 Srinivasa Ramanujan ("무한을 알았던 남자")를 이 점을 설명하기 위해 언급한다. G.H. Hardy가 마침내 Ramanujan을 그의 (막강한) 직관에 의존하는 대신 정리를 공식적으로 증명하도록 설득했을 때, 그것이 그의 자신의 능력을 개선했다고 알려진다. 이는 아마도 공식적으로 증명하는 것이 Ramanujan이 세부 사항을 명확히 하도록 강제했고 새로운 사고선을 열 수 있었기 때문일 것이다. 이것이 수학에서 어떻게 "복합적으로" 되는지이다 — 흔들리는 기초가 아닌 견고한 것 위에 구축하는 것이다... 또한 공리(Axioms)로 알려진 것이다.
하지만 공식적으로 증명하는 것은 또한 다른 사람들이 그의 직관의 혜택을 받도록 허용했다: 증명은 직관을 전달하고 다른 사람들을 그 직관이 맞다고 설득하는 방법이다. 이것이 확장(더 많은 사람들이 결과를 사용함)이고 복합적(사람들이 그의 작업에서 배우고 구축할 수 있음)이다.
이것이 Axiom이 취하고 있는 접근 방식을 이해할 수 있게 하는 핵심 통찰력이다.
검증된 생성
검증된 AI는 두 가지 방식으로 나타난다: 훈련과 추론에서.
하지만 빠른 우회: 대략적으로, "형식적 검증"은 형식 검증기(TypeScript, C++ 또는 Rust의 것처럼이지만 더 capable)를 사용하여 Lean과 같은 언어를 사용하여 자세히 지정된 수학적 증명을 검증하는 것을 의미한다.2. "비공식적" 증명을 Lean 증명으로 번역하는 데 많은 노력이 필요하다(비록 대부분의 사람들이 "비공식적"이라고 호출하지는 않을 증명이지만).3. Axiom 자신들은 AXLE 로 획기적인 작업을 오픈 소스했다 - 수학 증명을 탐색, 검증 및 조작하기 위한 상호작용형 Lean 애플리케이션의 도구 모음.
강화 학습 중에 이것이 어떻게 (매우) 유용할 수 있을지 상상해볼 수 있다: 통계(GRPO, RLHF 등)에 기반한 최선의 추측에 의존하는 대신, Lean 검증기를 사용하여 증명이 맞는지 확인할 수 있다. 이것은 분명히 훨씬 강한 보상 신호이며, 코딩과 함께 RL을 하면서 일반적으로 하는 것(컴파일 및 테스트)과 같다.
갇힘: LLM은 (현재) Lean으로 증명하는 데 매우 좋지 않다.
Axiom 입장: 12/12 Putnam 결과 외에 벤치마크 번호를 공식적으로 보고하지 않았지만, Carina는 Verina 코드생성 벤치마크에서 매우 인상적인 99% (187/189) ProofGen을 달성했다고 보고한다. 이 벤치마크는 일련의 문제에 대해 코드 및 정확성 증명을 생성하는 것이다. 맥락상, OpenAI o3 (알려진 마지막 OpenAI 실행)은 이 벤치마크에서 4.9%를 달성했다.
sparse 벤치마킹에 따르면, frontier 랩들이 annual IMO milestones 외에 현재 어떻게 수행하고 있는지 말하기는 어렵지만, Carina는 그들이 여전히 비공식적 증명에 의존하기보다는 Lean 증명을 직접 생성하기 위해 훈련하고 있지 않다고 제안한다.
시간이 말해줄 것이다 frontier 랩들의 현재 접근 방식이 이 격차를 줄일 것인지에 대해.
확장과 복합
Carina의 Ramanujan 비유는 꽤 직접적이다. 더 나은 증명 → 더 나은 Lean 생성 → 더 나은 RL. 더 강한 신호는 더 높은 샘플 효율성과 더 높은 최대 성능을 의미한다. 좋다!
확장은 꽤 명확하다 : 한번 내가 Lean에서 무언가를 증명했다면, 출력의 품질은 기본적으로4 사람으로부터 나온 것처럼 높기 때문에 고품질 훈련 세트가 비공식적 롤아웃 말뭉치가 할 수 없는 방식으로 성장했다. 내 Lean 증명을 신뢰할 수 있다.
복합도 명확하다: 이제 향후 모든 추론과 훈련은 그 증명에 기반을 두고 구축될 수 있다.
반면에, GRPO와 같은 통계적 신호만을 사용하여 RL 훈련된 모델은 형식적 검증을 사용하는 시스템으로부터의 이점이 있는 샘플 효율성, 최대 성능 및 복합 말뭉치가 부족하다.
모든 길은 검증으로 통한다
브로콜리와 세금은 접어두고, 검증은 우리의 많은 대화에서 나타났다. 물리적 시스템의 영역에서, Applied Intuition을 상기해보자:
"나는 [검증 가능성]이 아마도 지금 가장 어려운 문제라고 생각한다. 모델이 더 나아질수록, 시스템의 결함을 찾기가 더 어려워질 수 있다. 그리고 그 결함들을 찾기 위해 적절한 평가를 하는 문제도 모델이 더 나아질수록 계속해서 더 어려워진다."
이론 물리학에서, 우리는 Alex Lupsasca를 상기해보자:
"...이제 당신이 ChatGPT에게 수천 개의 질문을 동시에 해결하도록 할 수 있는 체제에 있다면, 그것은 상당한 비율에 대해 증명을 반환할 것이다. 이제 실제로 부담은 모든 산출물을 검증하기 위해 다시 인간에게 돌아온다. 그래서 네, 그것이 병목이 되면서, 수학을 형식화하고 검증을 자동화하는 것이 더 가치 있게 될 것이라고 생각한다."
검증은 사실상 과학을 위한 AI와 계산을 위한 AI의 핵심적인 차이이다: 과학에서는 물리적 실험을 수행하여 당신의 가설을 실제로 검증(검증)해야 한다. Radical AI 와 Lila와 같은 "lab in the loop" 시스템은 정확히 이 전제 주위에 구축된다(우리는 두 팀과 함께 에피소드를 기록했으며 곧 해제할 것이다!)
그리고 네, 비행 제어, 원자력 발전소, 심박 조율기와 같은 중요한 시스템의 형식적 검증은 그들을 실행하는 소프트웨어와 하드웨어가 더 복잡해지면서 성장하는 초점이다.
Carina는 AGI requires 검증된 생성을 강하게 믿어서 그녀는 "우리는 다른 가능한 미래가 없다고 믿는다"는 제한되지 않은 주장을 한다.
생성에는 비싸지만 검증에는 저렴
Lean 증명은 생성하기 어렵지만, 정확한지 아닌지 쉽게 보여줄 수 있다. 하지만 당신이 만든 증명이 당신이 신경 쓰는 문제에 정확하게 매핑되는지 어떻게 알 수 있는가? Carina가 말한 대로: "무언가든 지정될 수 있다면 증명될 수 있다. 인간들은 우리가 원하는 모든 것을 지정하는 데 나쁘다."
우리는 지금 명세 사업에 있는가? 에피소드를 확인하여 Carina의 관점을 들어보고, 다음도 보자:
하드웨어 검증이 왜 킬러 앱인지
최근 공개된 AXLE 오픈 API 및 Discovery 도구 키트의 세부 사항
Erdos 논쟁
OpenAI GPT-f 이산(diaspora)
풀 비디오 팟캐스트
타임스탬프:
0:00 소개: $200M Series A와 수학 스타트업 논제
4:52 검증된 AI: 좋지 않은 것을 수정하는 게 아니라 결과를 확장하기
13:42 Axiom의 시스템: Lean 데이터, RL, 그리고 Putnam 완벽한 점수
22:12 수학적 발견 — 추측 이전
25:12 Rice의 정리, 불완전성, 그리고 실제 한계
30:42 증명과 함께하는 코드 — Verina 벤치마크
37:57 증명 트리, 컨텍스트 윈도우, 그리고 확장 한계
43:57 시장, 해자, 그리고 사업 사건 ($1.6B 밸류에이션)
55:27 개인 기원 이야기: Oxford, UCL Gatsby, Stanford Law
1:00:57 Erdos 논쟁과 검색의 어려움
1:06:02 수학을 위한 AlphaZero, 자기 개선
1:08:47 스타트업 이점과 OpenAI GPTF 스레드
1:13:17 Axle API — 규모에서 Lean을 위한 오픈 인프라
1:20:47 협력, Polymath, 그리고 병목으로서의 인간 관심
1:22:21 설립 이야기 — 집착, 법학대학원, Julie Zhuo
1:26:17 큰 비전 — AGI, 과학, 그리고 전이 학습
1:35:02 병목, 파편화, 그리고 이 분야의 미래
실제로 나는 브로콜리를 사랑하지만, 그렇다면 테스트 주도 개발도 강하게 믿어서, ¯\(ツ)/¯
형식적 검증은 또한 모델 검사(TLA+, SPIN), SMT 기반 도구(Dafny, F*, Why3), 및 정제 유형 시스템(Liquid Haskell)을 포함한다 — 대부분은 유사한 논리적 핵심이 아래에 있을 때도 사용자 관점에서 "증명을 입력 검사"처럼 보이지 않는다. 또한 순수 수학이 아니라 소프트웨어 및 하드웨어 정확성에 적용된다.
이것은 과소 평가이다. 대부분의 정리는 형식화가 매우 어렵기 때문에 비공식으로 남아있다. 가장 중요한 증명을 형식화하려는 많은 노력이 있었고, 혼합된 결과가 있었다.
어떤 사람은 그것이 LLM을 위해 분포 내에 있기 때문에 약간 낮다고 주장할 수 있다.



