AI·News
뒤로

비공식 AI를 넘어선 확장 - 카리나 홍, 액시엄 매스

🔬Scaling Past Informal AI - Carina Hong, Axiom Math

Latent.Space
Latent Space: AI 엔지니어 팟캐스트
🔬비공식 AI를 넘어 확장하기 - Carina Hong, Axiom Math
0:00
-1:33:03

🔬비공식 AI를 넘어 확장하기 - Carina Hong, Axiom Math

검증된 생성과 복합적 지능

2025년, 설립 7개월 된 스타트업 Axiom이 Putnam 시험의 12개 문제를 모두 풀었다 (시간 제한 내에 8/12을 획득). 12/12 점수는 최고 수준의 학부생(110/120)과 보고된 결과가 있는 가장 가까운 AI 시스템(DeepSeek 103/120)보다 더 낫다. 다만 더 많은 시간이 주어졌을 때 사람들과 다른 시스템들이 어떻게 수행했을지는 불명확하다. 그럼에도 불구하고 Putnam 시험은 어려움으로 유명하며, 중앙값 점수는 일반적으로 0 또는 1점이다. 그 자체로 보면 이것은 AI의 작은 깃털 같은 것으로 보인다. 인류와의 정점 경쟁에서 AI 시스템이 달성한 오랜 일련의 성과 중 하나일 뿐이며, Deep Blue가 Kasparov를 이긴 것부터 시작됐다.

2026년 중반으로 빠르게 진행하면, Claude Code와 Codex가 세상을 뒤흔들고 있다. 2024년 코드와 기업에 대한 Anthropic의 베팅은 더 나은 모델과 막대한 소비 규모를 가진 OpenAI와 비교해 더 실용적인 틈새 플레이처럼 보였다. 오늘날, 코드를 통한 가속화에 대한 Amodei의 전폭적인 베팅(이미지와 비디오는 그딴 거 상관없다)은 선견지명이 있는 것처럼 보인다.

하지만 Anthropic의 성장하는 모멘텀에도 불구하고, Axiom CEO Carina Hong은 코딩 능력을 AGI로 가는 길에서 필요하지만 충분하지 않은 마일스톤으로 본다. 코드는 아마도 코딩 외의 일부 도메인에서 초지능의 관점으로 불규칙한 경계를 밀어낸다, 하지만 놀랍게도 간격이 있다(링크). Carina는 AI 진행을 병목으로 삼을 것이라고 믿는다. (수학 벤치마크 통계).

비공식 병목

"검증된 AI"는 브로콜리를 먹는 것처럼 들린다1 그리고 세금을 내는 것처럼. 하지만 Axiom에게는 완전히 다른 의미이다. "검증은 나에게 결과를 확대하는 것이고, 결과를 복합적으로 만드는 것이다"라고 Carina는 우리에게 말했다.

내가 그녀가 무엇을 의미하는지 이해하는 데 시간이 걸렸다(그것이 마케팅 언어처럼 들릴 때까지 클릭했다). Carina는 전설적인 수학자 Srinivasa Ramanujan ("무한을 알았던 남자")를 이 점을 설명하기 위해 언급한다. G.H. Hardy가 마침내 Ramanujan을 그의 (막강한) 직관에 의존하는 대신 정리를 공식적으로 증명하도록 설득했을 때, 그것이 그의 자신의 능력을 개선했다고 알려진다. 이는 아마도 공식적으로 증명하는 것이 Ramanujan이 세부 사항을 명확히 하도록 강제했고 새로운 사고선을 열 수 있었기 때문일 것이다. 이것이 수학에서 어떻게 "복합적으로" 되는지이다 — 흔들리는 기초가 아닌 견고한 것 위에 구축하는 것이다... 또한 공리(Axioms)로 알려진 것이다.

하지만 공식적으로 증명하는 것은 또한 다른 사람들이 그의 직관의 혜택을 받도록 허용했다: 증명은 직관을 전달하고 다른 사람들을 그 직관이 맞다고 설득하는 방법이다. 이것이 확장(더 많은 사람들이 결과를 사용함)이고 복합적(사람들이 그의 작업에서 배우고 구축할 수 있음)이다.

이것이 Axiom이 취하고 있는 접근 방식을 이해할 수 있게 하는 핵심 통찰력이다.

검증된 생성

검증된 AI는 두 가지 방식으로 나타난다: 훈련과 추론에서.

하지만 빠른 우회: 대략적으로, "형식적 검증"은 형식 검증기(TypeScript, C++ 또는 Rust의 것처럼이지만 더 capable)를 사용하여 Lean과 같은 언어를 사용하여 자세히 지정된 수학적 증명을 검증하는 것을 의미한다.2. "비공식적" 증명을 Lean 증명으로 번역하는 데 많은 노력이 필요하다(비록 대부분의 사람들이 "비공식적"이라고 호출하지는 않을 증명이지만).3. Axiom 자신들은 AXLE 로 획기적인 작업을 오픈 소스했다 - 수학 증명을 탐색, 검증 및 조작하기 위한 상호작용형 Lean 애플리케이션의 도구 모음.

강화 학습 중에 이것이 어떻게 (매우) 유용할 수 있을지 상상해볼 수 있다: 통계(GRPO, RLHF 등)에 기반한 최선의 추측에 의존하는 대신, Lean 검증기를 사용하여 증명이 맞는지 확인할 수 있다. 이것은 분명히 훨씬 강한 보상 신호이며, 코딩과 함께 RL을 하면서 일반적으로 하는 것(컴파일 및 테스트)과 같다.

갇힘: LLM은 (현재) Lean으로 증명하는 데 매우 좋지 않다.

Axiom 입장: 12/12 Putnam 결과 외에 벤치마크 번호를 공식적으로 보고하지 않았지만, Carina는 Verina 코드생성 벤치마크에서 매우 인상적인 99% (187/189) ProofGen을 달성했다고 보고한다. 이 벤치마크는 일련의 문제에 대해 코드 정확성 증명을 생성하는 것이다. 맥락상, OpenAI o3 (알려진 마지막 OpenAI 실행)은 이 벤치마크에서 4.9%를 달성했다.

sparse 벤치마킹에 따르면, frontier 랩들이 annual IMO milestones 외에 현재 어떻게 수행하고 있는지 말하기는 어렵지만, Carina는 그들이 여전히 비공식적 증명에 의존하기보다는 Lean 증명을 직접 생성하기 위해 훈련하고 있지 않다고 제안한다.

시간이 말해줄 것이다 frontier 랩들의 현재 접근 방식이 이 격차를 줄일 것인지에 대해.

확장과 복합

Carina의 Ramanujan 비유는 꽤 직접적이다. 더 나은 증명 → 더 나은 Lean 생성 → 더 나은 RL. 더 강한 신호는 더 높은 샘플 효율성과 더 높은 최대 성능을 의미한다. 좋다!

확장은 꽤 명확하다 : 한번 내가 Lean에서 무언가를 증명했다면, 출력의 품질은 기본적으로4 사람으로부터 나온 것처럼 높기 때문에 고품질 훈련 세트가 비공식적 롤아웃 말뭉치가 할 수 없는 방식으로 성장했다. 내 Lean 증명을 신뢰할 수 있다.

복합도 명확하다: 이제 향후 모든 추론과 훈련은 그 증명에 기반을 두고 구축될 수 있다.

반면에, GRPO와 같은 통계적 신호만을 사용하여 RL 훈련된 모델은 형식적 검증을 사용하는 시스템으로부터의 이점이 있는 샘플 효율성, 최대 성능 및 복합 말뭉치가 부족하다.

모든 길은 검증으로 통한다

브로콜리와 세금은 접어두고, 검증은 우리의 많은 대화에서 나타났다. 물리적 시스템의 영역에서, Applied Intuition을 상기해보자:

"나는 [검증 가능성]이 아마도 지금 가장 어려운 문제라고 생각한다. 모델이 더 나아질수록, 시스템의 결함을 찾기가 더 어려워질 수 있다. 그리고 그 결함들을 찾기 위해 적절한 평가를 하는 문제도 모델이 더 나아질수록 계속해서 더 어려워진다."

이론 물리학에서, 우리는 Alex Lupsasca를 상기해보자:

"...이제 당신이 ChatGPT에게 수천 개의 질문을 동시에 해결하도록 할 수 있는 체제에 있다면, 그것은 상당한 비율에 대해 증명을 반환할 것이다. 이제 실제로 부담은 모든 산출물을 검증하기 위해 다시 인간에게 돌아온다. 그래서 네, 그것이 병목이 되면서, 수학을 형식화하고 검증을 자동화하는 것이 더 가치 있게 될 것이라고 생각한다."

검증은 사실상 과학을 위한 AI와 계산을 위한 AI의 핵심적인 차이이다: 과학에서는 물리적 실험을 수행하여 당신의 가설을 실제로 검증(검증)해야 한다. Radical AILila와 같은 "lab in the loop" 시스템은 정확히 이 전제 주위에 구축된다(우리는 두 팀과 함께 에피소드를 기록했으며 곧 해제할 것이다!)

그리고 네, 비행 제어, 원자력 발전소, 심박 조율기와 같은 중요한 시스템의 형식적 검증은 그들을 실행하는 소프트웨어와 하드웨어가 더 복잡해지면서 성장하는 초점이다.

Carina는 AGI requires 검증된 생성을 강하게 믿어서 그녀는 "우리는 다른 가능한 미래가 없다고 믿는다"는 제한되지 않은 주장을 한다.

생성에는 비싸지만 검증에는 저렴

Lean 증명은 생성하기 어렵지만, 정확한지 아닌지 쉽게 보여줄 수 있다. 하지만 당신이 만든 증명이 당신이 신경 쓰는 문제에 정확하게 매핑되는지 어떻게 알 수 있는가? Carina가 말한 대로: "무언가든 지정될 수 있다면 증명될 수 있다. 인간들은 우리가 원하는 모든 것을 지정하는 데 나쁘다."

우리는 지금 명세 사업에 있는가? 에피소드를 확인하여 Carina의 관점을 들어보고, 다음도 보자:

  • 하드웨어 검증이 왜 킬러 앱인지

  • 최근 공개된 AXLE 오픈 API 및 Discovery 도구 키트의 세부 사항

  • Erdos 논쟁

  • OpenAI GPT-f 이산(diaspora)

풀 비디오 팟캐스트

타임스탬프:

  • 0:00 소개: $200M Series A와 수학 스타트업 논제

  • 4:52 검증된 AI: 좋지 않은 것을 수정하는 게 아니라 결과를 확장하기

  • 13:42 Axiom의 시스템: Lean 데이터, RL, 그리고 Putnam 완벽한 점수

  • 22:12 수학적 발견 — 추측 이전

  • 25:12 Rice의 정리, 불완전성, 그리고 실제 한계

  • 30:42 증명과 함께하는 코드 — Verina 벤치마크

  • 37:57 증명 트리, 컨텍스트 윈도우, 그리고 확장 한계

  • 43:57 시장, 해자, 그리고 사업 사건 ($1.6B 밸류에이션)

  • 55:27 개인 기원 이야기: Oxford, UCL Gatsby, Stanford Law

  • 1:00:57 Erdos 논쟁과 검색의 어려움

  • 1:06:02 수학을 위한 AlphaZero, 자기 개선

  • 1:08:47 스타트업 이점과 OpenAI GPTF 스레드

  • 1:13:17 Axle API — 규모에서 Lean을 위한 오픈 인프라

  • 1:20:47 협력, Polymath, 그리고 병목으로서의 인간 관심

  • 1:22:21 설립 이야기 — 집착, 법학대학원, Julie Zhuo

  • 1:26:17 큰 비전 — AGI, 과학, 그리고 전이 학습

  • 1:35:02 병목, 파편화, 그리고 이 분야의 미래

1

실제로 나는 브로콜리를 사랑하지만, 그렇다면 테스트 주도 개발도 강하게 믿어서, ¯\(ツ)

2

형식적 검증은 또한 모델 검사(TLA+, SPIN), SMT 기반 도구(Dafny, F*, Why3), 및 정제 유형 시스템(Liquid Haskell)을 포함한다 — 대부분은 유사한 논리적 핵심이 아래에 있을 때도 사용자 관점에서 "증명을 입력 검사"처럼 보이지 않는다. 또한 순수 수학이 아니라 소프트웨어 및 하드웨어 정확성에 적용된다.

3

이것은 과소 평가이다. 대부분의 정리는 형식화가 매우 어렵기 때문에 비공식으로 남아있다. 가장 중요한 증명을 형식화하려는 많은 노력이 있었고, 혼합된 결과가 있었다.

4

어떤 사람은 그것이 LLM을 위해 분포 내에 있기 때문에 약간 낮다고 주장할 수 있다.

이 에피소드에 대한 토론

Latent.Space
Latent Space: The AI Engineer Podcast
🔬Scaling Past Informal AI - Carina Hong, Axiom Math
0:00
-1:33:03

🔬Scaling Past Informal AI - Carina Hong, Axiom Math

Verified Generation and Compounding Intelligence

In 2025, seven-month-old startup Axiom solved all 12 of the problems Putnam exam (scoring 8/12 in the time limit) a prestigious undergraduate math exam. The 12/12 score is better than the top undergraduates (110/120) and the closest AI system that reported a result (DeepSeek 103/120), although it is unclear what the people and other systems would have scored with more time. Nonetheless, the Putnam exam is legendary for its difficulty, with the median score typically being 0 or 1 points. Taken by itself, this seems like a minor feather in the cap of AI; one of a long series of accomplishments by AI systems in elite competitions with humans, starting with Deep Blue beating Kasparov.

Fast forward to mid-2026, and Claude Code and Codex are setting the world on fire. In 2024 Anthropic’s bet on code and enterprise looked like a more pragmatic niche play vs. OpenAI’s better models and massive consume scale. Today, Amodei’s all in bet on acceleration via code (images and video be damned) seems prescient.

Despite Anthropic’s growing momentum, however, Axiom CEO Carina Hong sees coding ability as a necessary but not sufficient milestone on the path to AGI. Code arguably pushes the jagged frontier to the point of super intelligence in some domains outside of coding, but there are surprising gaps (link) that Carina believes will bottleneck AI progress. (Stats on math benchmarks).

The informal bottleneck

“Verified AI” sounds like eating broccoli1 and paying taxes, but to Axiom it means something very different. “Verification to me is about scaling brilliance, compounding brilliance,” Carina told us.

It actually took a while for me to understand what she means by this (sounded like marketing-speak until it clicked). Carina brings up the legendary mathematician Srinivasa Ramanujan (“The Man who knew Infinity”) to illustrate this point. When G.H. Hardy finally persuaded Ramanujan to formally prove theorems instead of relying on his (formidable) intuition, it reportedly improved his own capabilities. This is presumably because formally proving things forced Ramanujan to articulate the details in a way that open up new lines of thinking, etc. This is how you “compound” in math — building on solid rather than shaky foundations… also known as Axioms.

But formally proving things also allowed others to benefit from his intuition: the proofs are way of communicating an intuition and persuading others that the intuition is correct. This is scaling (more people use the result) and compounding (people can learn from and build on his work).

This is the core insight that lets us understand the approach Axiom is taking.

Verified Generation

There are two ways that Verified AI shows up: in training and in inference.

But a quick detour: to a first approximation, “Formal Verification” means using type checkers (like for TypeScript, C++ or Rust, but more capable) to verify mathematical proofs that are meticulously specified using a language like Lean2. It takes a lot of work to translate an “informal” proof (albeit one that most people would not remotely call “informal”) in to a Lean proof3. Axiom themselves have open sourced groundbreaking work with AXLE - their toolkit of interactive Lean applications for exploring, validating, and manipulating mathematical proofs.

You can imagine how this would be (very) useful during Reinforcement Learning: instead of relying on best guesses based on statistics (GRPO, RLHF, etc.), you can just verify the proof is correct using a Lean verifier. This is obviously a much stronger reward signal, akin to compiling code and testing it (which is what is typically done with RL on coding).

The catch: LLM are not (currently) very good at proving things with Lean.

Enter Axiom: While they have not officially reported benchmark numbers besides the 12/12 Putnam result, Carina reports that they have achieved a very impressive 99% (187/189) ProofGen on the Verina codegen benchmark. This benchmark is to generate code and proof of correctness for a series of problems. For context, OpenAI o3 (the last known OpenAI run) achieved 4.9% on this benchmark.

Based on the sparse benchmarking, it’s hard to say how the frontier labs are currently doing outside the annual IMO milestones, but Carina suggests that they still are not training to generate Lean proofs directly, rather relying on informal proofs.

Time will tell if the frontier labs’ current approaches will close this gap.

Scaling and compounding

Carina’s Ramanujan analogy is pretty direct. Better proofs → better Lean generation → better RL. A stronger signal means higher sample efficiency and higher maximum performance. Great!

Scaling is pretty clear too: once I have proved something in Lean, the quality of the output is basically4 as high as if it came from a human, so my high quality training set has grown in a way that an informal rollout corpus cannot. I can trust my Lean proofs.

Compounding is also clear: now all of future inference and training can build upon those proofs.

On the other hand, a model trained only using statistical signals like GRPO during RL lacks the sample efficiency, maximum performance and compounding corpus that a system that uses formal verification benefits from.

All roads lead to verification

Broccoli and taxes notwithstanding, verification has shown up in a lot of our conversations. In the domain of physical systems, recall Applied Intuition:

“I think [verifiability] is probably the hardest problem right now, because the as the models get better, it can be harder and harder to find the faults on the system. And so the problem of doing proper eval to find those faults, that problem also keeps getting harder as the models get better.”

In theoretical physics, we recall Alex Lupsasca:

“…now that we’re in this regime where you can just get ChatGPT to tackle thousands of questions at the same time, it will return proofs for a significant fraction of them. Now actually the onus is back on the humans to verify all the outputs. And so, yeah, as that becomes a bottleneck, I think formalizing math and automating verification will become more valuable.”

Verification is, in fact, the key differences between AI for science and AI for computation: in science you to have to actually test (verify) your hypothesis by performing physical experiments. Lab in the loop systems like Radical AI and Lila build around exactly this premise (we have recorded episodes with both of these teams and will release them soon!)

And yes, formally verifying critical systems such as flight control, nuclear power plants and pacemakers is a growing focus as the software and hardware that run them becomes more complex.

Carina believes so strongly that AGI requires verified generation that she makes the unqualified claim that “We do not believe there is any other possible future.”

Expensive to produce, cheap to verify

Lean proofs are hard generate, but they can be easily shown to be correct or incorrect. But how do you know that the proof you created maps correctly to the problem you care about? As Carina puts it: “Anything that can be specified can be proven. Humans are bad at specifying everything we want.”

Are we now in the specification business? Check out the episode to hear Carina’s take, as well as:

  • Why hardware verification is a killer app

  • Details on the AXLE open API and recently released Discovery toolkit

  • The Erdos debacle

  • The OpenAI GPT-f diaspora

Full Video Podcast

Timestamps:

  • 0:00 Intro: The $200M Series A and the Math Startup Thesis

  • 4:52 Verified AI: Scaling Brilliance, Not Fixing Lousiness

  • 13:42 Axiom’s System: Lean Data, RL, and the Putnam Perfect Score

  • 22:12 Mathematical Discovery — Before the Conjecture

  • 25:12 Rice’s Theorem, Incompleteness, and Practical Limits

  • 30:42 Code With Proof — The Verina Benchmark

  • 37:57 Proof Trees, Context Windows, and Scaling Limits

  • 43:57 Markets, Moat, and the Business Case ($1.6B valuation)

  • 55:27 Personal Origin Story: Oxford, UCL Gatsby, Stanford Law

  • 1:00:57 The Erdos Controversy and the Difficulty of Search

  • 1:06:02 AlphaZero for Math, Self-Improvement

  • 1:08:47 Startup Advantage and the OpenAI GPTF Thread

  • 1:13:17 Axle API — Open Infrastructure for Lean at Scale

  • 1:20:47 Collaboration, Polymath, and Human Attention as the Bottleneck

  • 1:22:21 Founding Story — Obsession, Law School, and Julie Zhuo

  • 1:26:17 The Bigger Vision — AGI, Science, and Transfer Learning

  • 1:35:02 Bottlenecks, Fragmentation, and the Field’s Future

1

I actually love broccoli, but then again, I also believe strongly in Test Driven Development, so ¯\(ツ)

2

Formal verification also includes model checking (TLA+, SPIN), SMT-based tools (Dafny, F*, Why3), and refinement-type systems (Liquid Haskell) — many of which don’t look much like “type checking a proof” from the user’s perspective even when there’s a similar logical core underneath. It also gets applied to software and hardware correctness, not only pure mathematics.

3

This is an understatement. Most theorems remain informal because formalization is so hard to do. There has been a great deal of effort to formalize the most important proofs, with mixed results.

4

One might argue that its a bit lower because the proof is in distribution for the LLM.

원문 보기 https://www.latent.space/p/axiom