AI·News
뒤로

OlmoEarth v1.1: 더 효율적인 지구 관측 모델 시리즈

OlmoEarth v1.1: A more efficient family of Earth observation models

OlmoEarth v1.1: 더 효율적인 지구 관측 모델 제품군

🧠 모델:

https://huggingface.co/collections/allenai/olmoearth

| 📄 기술 보고서:

https://allenai.org/papers/olmoearth_v1_1

| 💻 코드:

https://github.com/allenai/olmoearth_pretrain

OlmoEarth v11 blog and social copy - Google Docs-image-1

저희는 2025년 11월에 OlmoEarth(v1)를 출시했습니다. 그 이후로 파트너들은 맹그로브 변화 추적부터 산림 손실 원인 분류, 수일 내에 국가 규모의 작물 유형 지도 생성에 이르기까지 광범위한 작업에 이를 적용했으며, 배포를 국가, 대륙 및 전 지구적 규모로 확장했습니다. 모든 릴리스는 저희의 사명인 사람과 우리의 행성을 보호하기 위해 노력하는 조직과 커뮤니티에 최첨단 AI를 제공하는 것에 더 가까워집니다.

OlmoEarth가 수만 개에서 수십만 제곱킬로미터 범위의 위성 이미지를 처리하여 예측을 할 때, 효율성이 가능성을 결정합니다. OlmoEarth의 전체 생명 주기(데이터 내보내기, 전처리, 추론 및 후처리)에서 계산 비용이 압도적으로 가장 높은 비용입니다. 더 효율적인 모델은 저희가 OlmoEarth Platform에서 더 많은 파트너를 지원할 수 있다는 의미이며, OlmoEarth를 독립적으로 실행하는 누구나 이 기술을 더 빠르게 그리고 더 낮은 비용으로 활용할 수 있다는 의미입니다.

이것이 저희가 OlmoEarth v1.1을 구축한 이유입니다. 계산 비용을 최대 3배 줄이면서 OlmoEarth v1의 성능을 연구 벤치마크와 저희가 파트너들과 함께 구성한 작업의 혼합에서 유지하는 새로운 모델 제품군입니다.

시퀀스 길이를 줄여 효율성 증대하기

OlmoEarth 모델은 transformer 기반 모델로, 오늘날 머신러닝의 지배적인 아키텍처 중 하나입니다. 원격 감지 데이터를 처리하기 위해 저희는 먼저 모델이 수용할 수 있는 토큰의 시퀀스로 변환합니다.

Transformer 기반 모델의 효율성을 제어하는 두 가지 중요한 요소는 모델 크기(저희가 모델 제품군을 출시하는 이유로, 사용자는 자신의 계산 예산에 맞는 크기를 선택할 수 있음)와 토큰 시퀀스 길이입니다. 계산 비용은 토큰 시퀀스 길이에 따라 이차적으로 확장되므로, 작은 감소도 모델 실행 비용을 의미 있게 줄일 수 있습니다.

bench-capture-2026-05-18T14-40-39

MAC 또는 multiply-accumulate 연산은 하나의 모델 순전파에 필요한 계산을 추정합니다. 낮은 MAC는 일반적으로 더 저렴하고 빠른 추론을 의미합니다. y축이 반전된 이유는 낮은 평균 순위가 더 좋기 때문입니다. 레이블은 모델 제품군과 크기를 표시합니다. 모든 표시된 포인트는 붙여넣기된 MAC/순위 값을 사용합니다.

토큰 설계하기

이는 Transformer 기반 원격 감지 모델에 중요한 질문을 제기합니다: 토큰은 무엇을 나타내야 할까요?

저희가 처리하는 일반적인 양식인 Sentinel-2 이미지를 예로 들어보겠습니다. Sentinel-2 입력은 높이와 너비(H, W는 위도 및 경도 픽셀 나타냄), 시간 차원 T, 그리고 12개의 Sentinel-2 채널([H, W, T, D=12])이 있는 텐서입니다.

OlmoEarth v11 blog copy - Google Docs-image-3

현재 저희는 데이터를 해상도 기반 패치로 분할합니다. 구체적으로, 이는 공간 패치 크기 p를 선택하고 전체 Sentinel-2 이미지를 크기 p x p의 패치로 분할한다는 의미입니다:

OlmoEarth v11 blog and social copy - Google Docs-image-4

각 패치에 대해 해상도당 시간 단계당 하나의 토큰을 생성합니다. 따라서 2개의 시간 단계를 가진 Sentinel-2 입력은 패치당 6개의 토큰을 생성합니다(2개의 시간 단계 x 3개의 해상도, 10m, 20m, 60m).

총합적으로, [H, W, T, D=12] Sentinel-2 입력은 H/p x W/p x T x 3 토큰을 생성합니다.

Sentinel-2 데이터를 처리할 때 해상도당 고유 토큰을 사용하는 것은 일반적인 기법입니다. GalileoSatMAE 모두 이 접근 방식을 취하고 있으며, SatMAE는 이를 수행할 때 훨씬 더 나은 결과를 보여줍니다. 그러나 이것이 보편적이지는 않습니다. CROMA는 해상도와 관계없이 모든 대역에 대해 단일 토큰만 사용하는 모델입니다. 토큰 개수가 곱셈적으로 합산되기 때문에, 해상도를 단일 토큰으로 축소하면 3배 더 적은 토큰과 사전 학습, 미세 조정 및 추론 전반에 걸쳐 물질적 절감이 생깁니다.

단순하게 이런 방식으로 토큰을 결합하면 m-eurosat kNN에서 10 ppt 감소를 포함하여 성능이 크게 저하됩니다(원격 감지 모델의 일반적인 벤치마크 작업). 저희는 Sentinel-2 대역을 다른 토큰으로 분리하면 OlmoEarth가 중요한 교차 대역 관계를 모델링하기 더 쉬워진다고 가설을 세웁니다.

성능에 영향을 주지 않으면서 토큰을 병합하려면 저희의 사전 학습 체계를 수정해야 했습니다. 저희는 저희의 논문에서 이러한 변경 사항을 자세히 설명합니다.

개발자용

결과는 더 적은 것으로 더 많은 것을 하는 모델 제품군입니다. 모든 크기에서 OlmoEarth v1.1은 OlmoEarth v1보다 최대 3배 저렴하게 실행되어 OlmoEarth를 실행하는 모든 팀에서 빈번한 행성 규모의 지도 새로고침을 더 저렴하게 만듭니다. 원래 OlmoEarth 제품군의 모델을 사용하고 있다면 OlmoEarth v1.1을 시도해보세요. OlmoEarth v1과 유사한 성능을 제공하면서 계산의 1/3만 필요하지만 일부 회귀를 보았습니다(자세한 내용은 저희의 기술 보고서를 참조하세요). 작업에 맞다면 미세 조정 및 추론 중에 상당한 속도 향상을 볼 수 있습니다.

연구자용

사전 학습된 원격 감지 모델은 많은 자유도를 가지고 있어 연구하기 어렵습니다. 성능이 변할 때, 아키텍처 때문일까요, 데이터세트 때문일까요, 아니면 사전 학습 알고리즘 때문일까요?

저희는 OlmoEarth v1과 동일한 데이터세트에서 OlmoEarth v1.1을 학습합니다. 따라서 둘 사이의 모든 차이는 방법론적 변경의 효과를 분리합니다. 저희는 이것이 원격 감지 모델을 사전 학습할 때 과학적 원칙에 대한 이해를 진전시키기를 바랍니다.

시작하기

OlmoEarth v1.1 가중치훈련 코드를 확인하세요. 저희의 Base, Tiny 및 Nano 모델의 가중치도 포함됩니다.

OlmoEarth v1.1: A more efficient family of Earth observation models

🧠 Models:

https://huggingface.co/collections/allenai/olmoearth

| 📄 Tech Report:

https://allenai.org/papers/olmoearth_v1_1

| 💻 Code:

https://github.com/allenai/olmoearth_pretrain

OlmoEarth v11 blog and social copy - Google Docs-image-1

We released OlmoEarth (v1) in November 2025. Since then, partners have applied it across a wide range of tasks, from tracking mangrove change to classifying drivers of forest loss to producing country-scale crop-type maps in days, scaling deployments to national, continental, and global areas. Every release moves us closer to our mission: bringing state-of-the-art AI to organizations and communities working to protect people and our planet.

When OlmoEarth processes satellite imagery to make predictions across tens to hundreds of thousands of square kilometers, efficiency shapes what’s possible. Over the full lifecycle of running OlmoEarth – data export, preprocessing, inference, and post-processing – compute is by far the highest cost. A more efficient model means we can support more partners on the OlmoEarth Platform, and that anyone running OlmoEarth on their own can leverage this technology faster and at lower expense.

That’s why we built OlmoEarth v1.1: a new family of models that cuts compute costs by up to 3x while maintaining OlmoEarth v1's performance on a mix of research benchmarks and tasks we’ve constructed with partners.

Increasing efficiency by decreasing sequence lengths

The OlmoEarth models are transformer-based models, one of the dominant architectures in machine learning today. To process remote sensing data, we first convert it into a sequence of tokens the model can ingest.

Two important levers control efficiency in transformer-based models: model size (this is why we release a family of models, so users can pick the size that fits their compute budget) and token sequence length. Compute costs scale quadratically with the token sequence length, so even small reductions can meaningfully cut the cost of running the model.

bench-capture-2026-05-18T14-40-39

MACs, or multiply-accumulate operations, estimate the computation needed for one model forward pass; lower MACs generally mean cheaper, faster inference. The y-axis is inverted because lower average rank is better. Labels show model family and size. All plotted points use the pasted MAC/rank values.

Designing the token

This raises an important question for transformer-based remote sensing models: what should a token represent?

Take Sentinel-2 imagery, a common modality we process. A Sentinel-2 input will be some tensor with a height and width (H, W representing the latitudinal and longitudinal pixels), a temporal dimension T, and 12 Sentinel-2 channels ([H, W, T, D=12]).

OlmoEarth v11 blog copy - Google Docs-image-3

Currently, we split the data into resolution-based patches. Concretely, this means that we will pick some spatial patch size p, and split our overall Sentinel-2 image into patches of size p x p:

OlmoEarth v11 blog and social copy - Google Docs-image-4

For each patch, we create a token per timestep per resolution. So a Sentinel-2 input with 2 timesteps yields 6 tokens per patch (2 timesteps x 3 resolutions, 10m, 20m, and 60m).

In total, a[H, W, T, D=12] Sentinel-2 input will yield H/p x W/p x T x 3 tokens.

Using a unique token per resolution is a common technique when processing Sentinel-2 data—Galileo and SatMAE both take this approach, and SatMAE shows significantly better results when doing it. However, it is not universal: CROMA is a model that only uses a single token for all bands, regardless of resolution. Because token counts compound multiplicatively, collapsing resolutions into a single token produces three times fewer tokens and material savings across pretraining, fine-tuning, and inference.

Naively combining the tokens in this way leads to significant performance drops, including a 10 ppt drop on m-eurosat kNN (a common benchmark task for remote sensing models). We hypothesize that separating Sentinel-2 bands into different tokens makes it easier for OlmoEarth to model important cross-band relationships.

Merging tokens without impacting performance required us to modify our pre-training regimen. We describe those changes in detail in our paper.

For developers

The result is a model family that does more with less. At every size, OlmoEarth v1.1 runs up to three times cheaper than OlmoEarth v1, making frequent, planet-scale map refreshes more affordable for every team running OlmoEarth. If you're using a model from the original OlmoEarth family, try OlmoEarth v1.1. It provides similar performance to OlmoEarth v1 while requiring one third of the compute, though we have seen some regressions (see our technical report for more details). If it works for your task, you should see a significant speedup during fine-tuning and inference.

For researchers

Pretrained remote sensing models have many degrees of freedom, which makes them hard to study. When performance shifts, is it the architecture, the dataset, or the pre-training algorithm?

We train OlmoEarth v1.1 on the same dataset as OlmoEarth v1, so any differences between the two isolate the effect of methodological changes. We hope this advances understanding of scientific principles when pretraining models for remote sensing.

Get started

Check out the OlmoEarth v1.1 weights and training code, including the weights for our Base, Tiny, and Nano models. 

원문 보기 https://huggingface.co/blog/allenai/olmoearth-v1-1