OlmoEarth v1.1: 더 효율적인 지구 관측 모델 제품군
🧠 모델:
https://huggingface.co/collections/allenai/olmoearth| 📄 기술 보고서:
https://allenai.org/papers/olmoearth_v1_1| 💻 코드:
https://github.com/allenai/olmoearth_pretrain저희는 2025년 11월에 OlmoEarth(v1)를 출시했습니다. 그 이후로 파트너들은 맹그로브 변화 추적부터 산림 손실 원인 분류, 수일 내에 국가 규모의 작물 유형 지도 생성에 이르기까지 광범위한 작업에 이를 적용했으며, 배포를 국가, 대륙 및 전 지구적 규모로 확장했습니다. 모든 릴리스는 저희의 사명인 사람과 우리의 행성을 보호하기 위해 노력하는 조직과 커뮤니티에 최첨단 AI를 제공하는 것에 더 가까워집니다.
OlmoEarth가 수만 개에서 수십만 제곱킬로미터 범위의 위성 이미지를 처리하여 예측을 할 때, 효율성이 가능성을 결정합니다. OlmoEarth의 전체 생명 주기(데이터 내보내기, 전처리, 추론 및 후처리)에서 계산 비용이 압도적으로 가장 높은 비용입니다. 더 효율적인 모델은 저희가 OlmoEarth Platform에서 더 많은 파트너를 지원할 수 있다는 의미이며, OlmoEarth를 독립적으로 실행하는 누구나 이 기술을 더 빠르게 그리고 더 낮은 비용으로 활용할 수 있다는 의미입니다.
이것이 저희가 OlmoEarth v1.1을 구축한 이유입니다. 계산 비용을 최대 3배 줄이면서 OlmoEarth v1의 성능을 연구 벤치마크와 저희가 파트너들과 함께 구성한 작업의 혼합에서 유지하는 새로운 모델 제품군입니다.
시퀀스 길이를 줄여 효율성 증대하기
OlmoEarth 모델은 transformer 기반 모델로, 오늘날 머신러닝의 지배적인 아키텍처 중 하나입니다. 원격 감지 데이터를 처리하기 위해 저희는 먼저 모델이 수용할 수 있는 토큰의 시퀀스로 변환합니다.
Transformer 기반 모델의 효율성을 제어하는 두 가지 중요한 요소는 모델 크기(저희가 모델 제품군을 출시하는 이유로, 사용자는 자신의 계산 예산에 맞는 크기를 선택할 수 있음)와 토큰 시퀀스 길이입니다. 계산 비용은 토큰 시퀀스 길이에 따라 이차적으로 확장되므로, 작은 감소도 모델 실행 비용을 의미 있게 줄일 수 있습니다.
MAC 또는 multiply-accumulate 연산은 하나의 모델 순전파에 필요한 계산을 추정합니다. 낮은 MAC는 일반적으로 더 저렴하고 빠른 추론을 의미합니다. y축이 반전된 이유는 낮은 평균 순위가 더 좋기 때문입니다. 레이블은 모델 제품군과 크기를 표시합니다. 모든 표시된 포인트는 붙여넣기된 MAC/순위 값을 사용합니다.
토큰 설계하기
이는 Transformer 기반 원격 감지 모델에 중요한 질문을 제기합니다: 토큰은 무엇을 나타내야 할까요?
저희가 처리하는 일반적인 양식인 Sentinel-2 이미지를 예로 들어보겠습니다. Sentinel-2 입력은 높이와 너비(H, W는 위도 및 경도 픽셀 나타냄), 시간 차원 T, 그리고 12개의 Sentinel-2 채널([H, W, T, D=12])이 있는 텐서입니다.
현재 저희는 데이터를 해상도 기반 패치로 분할합니다. 구체적으로, 이는 공간 패치 크기 p를 선택하고 전체 Sentinel-2 이미지를 크기 p x p의 패치로 분할한다는 의미입니다:
각 패치에 대해 해상도당 시간 단계당 하나의 토큰을 생성합니다. 따라서 2개의 시간 단계를 가진 Sentinel-2 입력은 패치당 6개의 토큰을 생성합니다(2개의 시간 단계 x 3개의 해상도, 10m, 20m, 60m).
총합적으로, [H, W, T, D=12] Sentinel-2 입력은 H/p x W/p x T x 3 토큰을 생성합니다.
Sentinel-2 데이터를 처리할 때 해상도당 고유 토큰을 사용하는 것은 일반적인 기법입니다. Galileo와 SatMAE 모두 이 접근 방식을 취하고 있으며, SatMAE는 이를 수행할 때 훨씬 더 나은 결과를 보여줍니다. 그러나 이것이 보편적이지는 않습니다. CROMA는 해상도와 관계없이 모든 대역에 대해 단일 토큰만 사용하는 모델입니다. 토큰 개수가 곱셈적으로 합산되기 때문에, 해상도를 단일 토큰으로 축소하면 3배 더 적은 토큰과 사전 학습, 미세 조정 및 추론 전반에 걸쳐 물질적 절감이 생깁니다.
단순하게 이런 방식으로 토큰을 결합하면 m-eurosat kNN에서 10 ppt 감소를 포함하여 성능이 크게 저하됩니다(원격 감지 모델의 일반적인 벤치마크 작업). 저희는 Sentinel-2 대역을 다른 토큰으로 분리하면 OlmoEarth가 중요한 교차 대역 관계를 모델링하기 더 쉬워진다고 가설을 세웁니다.
성능에 영향을 주지 않으면서 토큰을 병합하려면 저희의 사전 학습 체계를 수정해야 했습니다. 저희는 저희의 논문에서 이러한 변경 사항을 자세히 설명합니다.
개발자용
결과는 더 적은 것으로 더 많은 것을 하는 모델 제품군입니다. 모든 크기에서 OlmoEarth v1.1은 OlmoEarth v1보다 최대 3배 저렴하게 실행되어 OlmoEarth를 실행하는 모든 팀에서 빈번한 행성 규모의 지도 새로고침을 더 저렴하게 만듭니다. 원래 OlmoEarth 제품군의 모델을 사용하고 있다면 OlmoEarth v1.1을 시도해보세요. OlmoEarth v1과 유사한 성능을 제공하면서 계산의 1/3만 필요하지만 일부 회귀를 보았습니다(자세한 내용은 저희의 기술 보고서를 참조하세요). 작업에 맞다면 미세 조정 및 추론 중에 상당한 속도 향상을 볼 수 있습니다.
연구자용
사전 학습된 원격 감지 모델은 많은 자유도를 가지고 있어 연구하기 어렵습니다. 성능이 변할 때, 아키텍처 때문일까요, 데이터세트 때문일까요, 아니면 사전 학습 알고리즘 때문일까요?
저희는 OlmoEarth v1과 동일한 데이터세트에서 OlmoEarth v1.1을 학습합니다. 따라서 둘 사이의 모든 차이는 방법론적 변경의 효과를 분리합니다. 저희는 이것이 원격 감지 모델을 사전 학습할 때 과학적 원칙에 대한 이해를 진전시키기를 바랍니다.
시작하기
OlmoEarth v1.1 가중치와 훈련 코드를 확인하세요. 저희의 Base, Tiny 및 Nano 모델의 가중치도 포함됩니다.



