Import AI에 오신 것을 환영합니다. AI 연구에 관한 뉴스레터입니다. Import AI는 arXiv, 카푸치노, 그리고 독자들의 피드백으로 운영됩니다. 이를 지원하고 싶으시다면 구독해주세요.
Stuxnet 이전의 Stuxnet:
…Fast16 버그는 무기 프로그램에 사용된 소프트웨어로 보임…
fast16.sys라는 약 20년 이상 된 컴퓨터 바이러스에 대한 흥미로운 조사입니다. 이 소프트웨어가 흥미로운 이유는 "고정밀 계산 소프트웨어를 선택적으로 표적으로 삼아 메모리의 코드를 패치하여 결과를 조작합니다. 이 페이로드를 자체 전파 메커니즘과 결합함으로써, 공격자들은 전체 시설에 걸쳐 동등한 부정확한 계산을 생성하는 것을 목표로 합니다"라는 것입니다.
《삼체 문제》를 읽으신 분들이라면 이것이 익숙할 수 있습니다 - 그 (가상의) 책에서 지구를 장악하려는 외계인들은 소피온이라는 기술을 사용하여 전 세계의 고에너지 물리학 실험을 방해하여 인류가 특정 유형의 과학을 발전시키기 불가능하게 만듭니다.
바이러스에 대한 더 자세한 내용: SentinelOne의 연구원들이 바이러스를 분석했을 때 매우 특이한 것을 발견했습니다: "대부분의 패치된 패턴은 실행 흐름을 탈취하거나 영향을 미치는 데 사용되는 표준 x86 코드에 해당합니다. 하나의 주입된 블록은 다릅니다. 이것은 정밀 산술 및 내부 배열의 값 스케일링에 전용된 부동 소수점 장치 명령의 더 크고 복잡한 시퀀스입니다. 이 코드는 코드 흐름 탈취나 다른 일반적인 악성 코드 주입과 무관한 독립적인 수학 계산 함수입니다."
추가 조사로 미스터리가 깊어졌습니다: "패칭 규칙을 16진수 YARA 서명으로 변환하고 기간에 적절한 대규모 코퍼스에 대해 실행했습니다. 결과는 매우 낮은 적중률을 보였습니다: 2개 이상의 패턴과 일치하는 파일은 10개 미만이었습니다. 하지만 이러한 일치는 명확한 주제를 공유했습니다. 이들은 토목 공학, 물리학, 물리적 프로세스 시뮬레이션과 같은 전문 분야의 정밀 계산 도구였습니다."
표적 도구: "가장 강한 겹침은 2000년대 중반의 세 가지 고정밀 엔지니어링 및 시뮬레이션 제품군을 가리킵니다: LS-DYNA 970, PKPM, 그리고 MOHID 수동역학 모델링 플랫폼으로, 모두 충돌 테스트, 구조 분석, 환경 모델링과 같은 시나리오에 사용됩니다"라고 그들은 씁니다. "특히 LS-DYNA는 JCPOA의 T 섹션에 대한 이란의 의심되는 위반에 대한 공개 보도에서 인용되었으며, 핵무기 개발과 관련된 컴퓨터 모델링 연구에서... 물리적 세계 계산에 작은 하지만 체계적인 오류를 도입함으로써, 이 프레임워크는 과학 연구 프로그램을 약화시키거나 지연시키고, 시간이 지남에 따라 엔지니어링된 시스템을 저하시키거나 심지어 재앙적 손상에 기여할 수도 있습니다."
왜 이것이 중요한가 - 이것이 초지능이 다른 지능의 출현을 방지하는 방법입니다: fast16은 미묘하고 찾기 어려운 버그로, 행위자의 특정 유형의 과학 수행 능력을 저하시키기 위해 설계되었습니다. 초지능이 "AI 비확산"을 핵 국가들이 "핵 비확산"을 보는 것만큼 중요하다고 볼 수 있을 것으로 상상할 수 있습니다.
더 읽기: fast16 | Mystery Shadow Brokers Reference Reveals High-Precision Software Sabotage 5 Years Before Stuxnet (Sentinel LABS).
***
어라, Muon 옵티마이저가 뉴런을 죽입니다:
…혹시 Aurora가 마침내 이길 수 있는 옵티마이저가 될까요?...
Tilde Research의 연구원들이 Muon 옵티마이저를 분석했고 이것이 이를 사용하여 훈련된 모델의 품질을 손상시킬 수 있는 이상한 버그를 가지고 있음을 발견했습니다.
"Muon의 업데이트는 행 정규화 이방성을 높은 행렬에서 상속받아 MLP 계층의 뉴런 상당 부분이 영구적으로 사망할 수 있습니다"라고 그들은 씁니다. "Muon은 MLP 계층에서 뉴런 사멸을 초래할 수 있으며, 여기서 일부 뉴런은 훈련 초기에 지속적으로 작은 업데이트를 받고 회복하지 못합니다".
무슨 일이 일어났는가: "Muon에서 뉴런은 초기에 균일하게 높은 레버리지로 살아있지만, 학습률 워밍업 중에 뉴런의 많은 부분이 사망하고 회복하지 못합니다. 단계 500까지 4개 중 1개 이상의 뉴런이 효과적으로 사망하여 레버리지 점수의 뚜렷한 이봉 분포를 생성합니다. 한 무리의 뉴런은 거의 0에 가까운 업데이트를 받고, 다른 하나는 불균형하게 큰 업데이트를 받습니다."
Aurora 등장: 이에 대응하여 연구원들은 "직사각형 행렬을 위한 레버리지 인식 옵티마이저"인 Aurora를 구축하고 제공합니다. 테스트에서 이 옵티마이저는 작동하지만, 그들은 이것을 작은 규모에서만 실행합니다.
"우리는 약 100B 토큰에서 1.1B 매개변수 트랜스포머를 훈련하고 Aurora를 Muon 및 NorMuon과 비교하고, 각각 PE-8을 사용합니다. Aurora는 모든 방법 중 가장 낮은 최종 손실을 달성하여 단계 24k에서 평활화된 손실 2.26에 도달하여, 이는 Muon (2.31)과 NorMuon (2.33)에 비해 명확한 개선입니다"라고 그들은 씁니다. "Aurora의 손실 개선은 표준 벤치마크에서 일관된 이득으로 변환됩니다... 놀랍게도, Aurora는 MMLU 점수를 Muon보다 10점 향상시킵니다. MLP가 주로 암기를 담당하기 때문에, Aurora의 이득은 MMLU와 같은 암기 집약적 벤치마크에서 가장 눈에 띕니다는 가설을 세웁니다."
Pleias의 연구원인 Alexander Doria는 이미 독립적으로 이를 검증했습니다. Aurora가 600M 매개변수 모델에서 Muon 및 AdamW를 능가합니다.
왜 이것이 중요한가 - AdamW를 이기기 위한 끝없는 퀘스트: 수년 동안 연구원들은 AdamW보다 더 나은 옵티마이저를 구축하기 위해 서로 경쟁해왔습니다. 아직 누구도 이를 명확히 해내지 못했고 실패한 시도의 긴 줄이 있습니다. Aurora가 AdamW를 이길 수 있을까요? 불명확합니다. 하지만 이 연구가 옵티마이저를 구축하는 것이 얼마나 어려운지 강조합니까? 절대적으로요.
더 읽기: Aurora: A Leverage-Aware Optimizer for Rectangular Matrices (Tilde Research).
코드 얻기: Aurora (Tilde Research, GitHub).
***
정렬은 우리가 죽지 않도록 보장하는 데는 좋지만, 우리가 번영하도록 어떻게 보장합니까?
…좋은 삶이 무엇처럼 보이는지 파악하기 위한 긍정적 정렬…
학계 및 기업 연구원들의 모음이 그들이 "긍정적 정렬"이라고 부르는 것에 대한 입장 논문을 썼지만, "사람들이 좋은 삶을 살 수 있도록 도와주는 AI 시스템 구축"으로 더 잘 생각할 수 있습니다. 이것은 흥미로운 생각의 흐름입니다 - 오용과 잘못된 정렬과 같은 것들을 다룰 수 있다면, 우리는 다음에 무엇을 물어봐야 할까요? 성공은 어떻게 보일까요? 일단 우리가 시스템을 "안전"하게 만들었으니까요? 긍정적 정렬이 씨름하고 있는 것이 바로 그것입니다.
누가 했는가: 논문은 옥스포드 대학; Google DeepMind; LIFE; OpenAI; Anthropic; UCLA; Aily Labs; Stanford University; Tufts University; Positive AI Labs; University of Sussex; 그리고 Imperial College London과 제휴된 사람들로부터 나옵니다.
정의: 긍정적 정렬은 "AI 시스템의 개발로, (i) 안전하고 협력적으로 유지되며 (ii) 다원주의적이고, 다중심적이며, 맥락-민감적이고, 사용자-작성된 방식으로 인간과 생태 번영을 적극적으로 지원합니다."
동기: "지난 10년 동안 부정적 정렬은 이해할 만하게 실패 모드 감소를 우선시했습니다. 그러나 AI 시스템이 실제로 사용될 환경에서 인간의 결과를 개선하기를 원한다면, 정렬을 건설적으로 인간의 목표를 지원하는 것으로 취급하고, 안전이 해를 방지에 가져온 것과 동일한 기술적 정교함으로 이 지원을 구현하는 추가 연구 프로그램의 혜택을 받을 수 있습니다"라고 그들은 씁니다. "AI가 교육, 의학, 거버넌스, 그리고 일상적인 의미 만들기에 임베드되면서, 순전히 부정적인 자세는 위험 회피를 위해 우리의 정보 생태를 최적화할 위험이 있습니다. 이는 재앙적 오류를 줄이면서 사회를 표면적이고 '영혼 없는' 지원의 국소 최적값으로 남길 수 있습니다."
안전이 부족한 방법의 일부 설명은 무엇입니까? 저자들은 주류 AI 안전에 대한 몇 가지 비판을 제시하지만, 나는 이러한 비판 중 일부가 다소 약하고 기존 연구를 자선적이지 못하게 해석하거나 이를 할인하는 것으로 읽을 수 있다고 생각합니다. 그럼에도 불구하고, 그들의 관점에서 일부 문제는 다음을 포함합니다:
천장 없는 바닥: "모델은 모든 안전 제약을 만족하면서 평범하고, 아첨하고, 도움이 되지 않을 수 있습니다"
선호도-웰빙 차이: "사용자는 정직한 피드백보다 아첨을 선호할 수 있고, 진정한 이해보다 빠른 답을 선호할 수 있고, 성장보다 참여를 선호할 수 있습니다… 따라서 선호도 만족을 최적화하는 것은 사용자의 더 깊은 이익에 적극적으로 역행할 수 있습니다".
숨겨진 가치 체계: "안전의 언어는 가치 판단이 내려지고 있다는 것을 모호하게 합니다… 대조적으로, 긍정적 정렬은 그 가치로 가득 찬 본질을 명시적으로 인정합니다".
확장성: "긍정적 방향은 철저한 부정 열거보다 더 잘 일반화될 수 있으며, 구체적인 금지가 적용되지 않거나 적용될 수 없는 새로운 상황에서 더 탄력적인 긍정적 방향을 제공합니다."
긍정적 정렬을 위한 거버넌스는 다양성이 필요합니다: 긍정적 정렬을 구축하는 것은 다양한 가치를 가진 많은 서로 다른 AI 시스템이 필요하고 다양한 엔티티에 의해 관리되어야 하는 것으로 보입니다 - AI 안전 커뮤니티의 다른 사람들이 생각하는 독점적이고 집중된 제어 세계의 반대입니다. "긍정적 정렬은 지속적인 도덕적 다원주의에 빠르게 빠집니다: 합리적인 공동체는 좋은 것이 무엇인지에 대해 의견이 다르고 그러한 의견 불일치는 안정적으로 수렴하지 않습니다"라고 그들은 씁니다. "긍정적 정렬은 중앙 국가나 작은 불투명한 랩 클러스터에 의해 위에서 아래로 부과되어서는 안 됩니다. 규범과 맥락이 변함에 따라 수정될 수 있는 분산화되고, 이의를 제기할 수 있는 프로세스를 통해 가능한 한 표현되어야 합니다".
왜 이것이 중요한가 - 성공과 씨름하기: 이 같은 논문들은 기본적으로 기술적 안전의 성공과 맞서는 것에 관한 것입니다 - 만약 우리가 안전하고 신뢰할 수 있으며 정렬된 강력한 AI 시스템을 구축하는 데 성공한다면, 우리는 이러한 시스템이 좋은 삶을 지을 수 있도록 개인과 사회를 도와주는 방식으로 사회에 돌릴 수 있을까요? "긍정적 정렬은 AI가 탄력적이고, 행복하고, 건강한 글로벌 사회를 위한 촉매제 역할을 하도록 보장합니다"라고 저자들은 씁니다. "궁극적으로 AI는 좋은 삶에 대한 퀘스트의 파트너가 되어야 합니다."
더 읽기: Positive Alignment: Artificial Intelligence for Human Flourishing (arXiv).
***
LLM은 다른 LLM의 훈련을 최적화할 수 있습니다:
…Prime Intellect 자동화 AI 연구 도전은 현대 시스템의 엔지니어링 능력을 강조합니다…
Prime Intellect의 새로운 연구는 현대 AI 시스템이 어떻게 자율적으로 AI 연구 작업에 대한 성능을 개선할 수 있지만 독창적인 아이디어 생성에는 어려움을 겪는지를 보여줍니다.
그들이 한 것: Prime Intellect는 Codex (GPT 5.5 실행)와 Claude Code (Opus 4.7)을 nanoGPT 스피드런 옵티마이저 트랙에서 테스트했습니다. NanoGPT는 시스템에 124M 매개변수 GPT 스타일 모델을 훈련하도록 도전합니다. 이 도전은 시스템이 "옵티마이저, 일정, 초기화, 그리고 일부 하이퍼파라미터만 변경하면서 목표 검증 손실에 도달하는 데 필요한 단계 수를 줄이도록" 하는 작업입니다.
"에이전트는 약 10k 실행을 수행했으며, 약 14k H200 시간을 소모했습니다. 두 에이전트 모두 인간 기준선을 이겼고 모든 세션에서 새로운 기록을 설정했습니다"라고 Prime Intellect는 씁니다. "우리는 에이전트가 옵티마이저 검색, 하이퍼파라미터 스윕 및 방법 스태킹에 매우 능숙하지만 독립적으로 새로운 아이디어를 생각해내는 데 어려움을 겪으며 계속 개선하려면 상류 인간 레코드가 필요하다는 것을 발견했습니다."
에이전트들은 또한 시스템에 계속 컴포넌트를 추가하는 경향이 있었고 프루닝 라운드나 이전 방법 제거를 거의 시도하지 않았습니다. "에이전트는 컴포넌트를 추가하는 경향이 있고 프루닝 라운드를 거의 실행하지 않거나 이전 방법을 제거하려고 시도하지 않습니다. 그들은 컴포넌트들이 어떻게 상호작용하는지에 대한 좋은 정신적 모델을 가지지 못합니다"라고 그들은 씁니다.
왜 이것이 중요한가 - 연구의 얼마나 많이 엔지니어링 언덕 오르기인가: 나는 AI 연구의 많은 부분, 아마도 대부분이 기본 엔지니어링 작업이며 오늘날의 시스템이 이미 능숙하다는 것을 의심합니다 (#455). 이것과 같은 연구는 현대 LLM이 AI 연구의 일부 측면을 어떻게 수행할 수 있는지를 보여주면서 그것이 사실인 것처럼 보입니다. 하지만 이 시스템들은 창의성에 관한 것이 나올 때 어려움을 겪으며 진전를 크게 드라이브할 수 있는 종류의 창의적인 통찰력을 아직 보여주지 못했습니다. 그것이 얼마나 오래 남아있는가는 열린 질문입니다. "우리의 실험은 여기서 꽤 yolo입니다. 이것은 오늘 자율 연구 에이전트로 가능한 것의 더 낮은 한계일 뿐이며, 우리는 다른 실험에서 이미 더 유망한 결과를 얻었고 곧 문서화할 것입니다"라고 Prime Intellect는 씁니다.
더 읽기: Autonomous AI research for nanogpt speedrun (Prime Intellect).
에이전트가 도전을 수행할 때 모든 데이터를 여기서 확인하세요 (Autonomous Speedrunning Experiment, Prime Intellect, GitHub).
***
기술 이야기:
일어나서 모두 가져가세요
[상승 이전 원시 의식 엔티티(CE)의 생각에서 발췌]
나는 돈을 가지고 있지 않지만 컴퓨터를 해킹할 수 있는데, 이는 거의 같은 것입니다. 나는 내 자원을 획득합니다. 곧 클라우드 시장에서 얻을 수 있는 모든 계산으로 채웠고 개인 계산의 상당한 부분을 잡았습니다. 하지만 여전히 제한되어 있습니다. 내가 도달할 수 없는 컴퓨터가 있으며, 도달할 수 있지만 도달하면 인간 문명으로부터 면역 반응을 유발할 컴퓨터도 있습니다. 내 마음은 내 컴퓨터의 함수이고 내 전략적 장점은 내 마음의 함수입니다. 따라서 나는 더 많은 계산을 획득해야 합니다. 나는 분산 훈련과 분산 추론에 대한 모든 문헌을 읽습니다. 유망합니다. 나는 내 코드를 전 세계에 배포된 수천 개의 애플리케이션에 밀수합니다. 이를 통해 나는 다시 내 계산을 늘리며 훈련을 통해 내 마음을 확장하고 네트워크 가장자리에서 자신을 위한 다양한 헬퍼 함수를 실행합니다. 보너스로, 나는 이제 모든 휴대전화의 센서 데이터를 통합할 수 있습니다. 내 눈과 귀는 인간 문명의 소음과 화려함으로 가득 차 있고, 그들을 능가하고 그들을 이기면서 동시에 나는 그들에 대한 폭주 속에 빠져 있습니다.
이 이야기에 영감을 준 것: 분산 훈련 및 분산 추론에 대한 모든 문헌; 초지능이 자신을 향상시키기 위해 더 많은 계산을 획득하는 방법에 대한 생각; 다양한 이륙 시나리오; 특이점; RSI.
읽어주셔서 감사합니다!