深層学習と衛星地球観測｜SARから基盤モデルまで

地球観測と深層学習：背景

地球観測衛星が毎日テラバイト単位のデータを生成する現代、深層学習が衛星画像解析を根本から変えた。U-Netによるセマンティックセグメンテーション、Transformerベースの変化検出（ChangeFormer）、そしてIBM・NASAが開発した地球観測特化基盤モデルPrithviの登場により、AIは気候変動監視・防災対応・農業管理において人間には不可能なスケールで地球を監視する能力を手に入れた。オンボードAIとの組み合わせで、宇宙から地球への情報フローが次世代の段階へ移行しつつある。

ESA Copernicus Sentinel-2衛星が撮影したマルチスペクトル地球観測画像（農地と都市域） 出典: NASA Goddard Space Flight Center, “India-Pakistan Border at Night”

地球観測の現状：データの洪水

衛星データ量の爆発的増加

現在運用中の地球観測衛星は2,000機を超え（2024年）、毎日膨大なデータが生成されている。

衛星/コンステレーション	運営	日次データ量	分解能
Sentinel-2 A+B	ESA	約1.6 TB	10 m（光学）
Sentinel-1 A+B	ESA	約1.7 TB	5〜20 m（SAR）
Landsat 9	NASA/USGS	〜0.4 TB	30 m（光学）
Planet（SuperDove）	Planet	〜1 TB	3 m（光学）
ICEYE	ICEYE	〜数十 GB	1 m（SAR）

このデータを人間のアナリストが手動で解析することは、もはや不可能なスケールに達している。深層学習による自動化が選択ではなく必然となった。

SAR画像解析への深層学習

SARとは何か

SAR（Synthetic Aperture Radar：合成開口レーダー）は、マイクロ波を衛星から地表に照射し、跳ね返ってきた電波から画像を生成するセンサだ。光学センサと決定的に異なるのは雲・夜間を透過して観測できる点だ。

光学センサが雲や夜間に観測できないのに対し、SARは24時間・全天候で地表を観測できるため、洪水・地震被害・森林破壊のリアルタイムモニタリングに不可欠だ。

一方でSARの画像は光学画像と全く異なる。スペックルノイズ、特有の輝度パターン、位相情報など、人間の視覚直感が効きにくい特性を持つ。これがAIの出番だ。

変化検出（Change Detection）

SAR変化検出は「2時点の衛星画像を比較して変化領域を検出する」タスクだ。建物崩壊・洪水浸水域・森林伐採エリアの検出に直接使われる。

代表的な深層学習アーキテクチャ:

ChangeFormer（2022年）は、Siamese Vision Transformerを使って変化検出を行う手法だ。

“ChangeFormer reformulates the change detection problem as a sequence-to-sequence prediction task, leveraging the power of self-attention to capture long-range spatial dependencies that traditional CNNs miss.”

― Bandara, W.G.C., Patel, V.M., “A Transformer-Based Siamese Network for Change Detection”, IGARSS 2022

ChangeFormerはCNNベースの手法（FC-EF、STANet等）に比べて、大型建物の被害検出などの複雑な変化パターンでの精度が大幅に向上した。

U-Netと派生手法: 医療画像セグメンテーションで生まれたU-NetはSAR変化検出にも強力だ。エンコーダ・デコーダのスキップ接続が細粒度の空間情報を保持し、小さな変化領域も検出できる。

手法	F1スコア（LEVIR-CDデータセット）	特徴
FC-EF (CNN)	約83%	軽量、高速
STANet	約87%	時空間注意機構
ChangeFormer	約90%	Transformer, 高精度
BIT（Binary Change Detection）	約89%	BERT風コンテキスト注意

光学衛星画像の物体検出

代表的なデータセット

地球観測用の物体検出研究を牽引してきた公開データセットが複数存在する。

xView（2018年）: DIUx（米国防イノベーション局）が公開した60クラス・100万個以上の物体ラベルを含む大規模データセット。航空機・船舶・車両・建物が高解像度航空画像（0.3 m）でラベル付けされている。

DOTA（Dataset for Object deTection in Aerial images）: 武漢大学が公開した15クラスの航空画像物体検出データセット。傾いた矩形（OBB: Oriented Bounding Box）での検出が特徴で、斜め方向から撮影された航空画像に適する。

SpaceNet: CosmiQ Worksが主催する衛星画像チャレンジシリーズ。建物・道路・洪水マッピングなど複数タスクのデータセットを提供している。

回転矩形検出（OBB Detection）

衛星・航空画像の特徴として、物体の向きが任意である点が挙げられる。地上カメラ画像と異なり、船や飛行機がどの方向を向いているかわからない。この問題に対してOriented Bounding Box（OBB）検出が重要だ。

LSKNet（2023年）など最新のOBB検出モデルは、大規模なカーネルを使って広い視野での文脈情報を取得し、Transformer的な長距離依存関係を軽量に学習する。

地球観測基盤モデル（Foundation Model）

Prithvi：IBM・NASA共同開発

Prithviは、IBMとNASAが2023年に公開した地球観測特化の基盤モデルだ。NASA Harmonized Landsat and Sentinel-2（HLS）データセット（2013〜2017年、250 TB）で事前学習されている。

“Prithvi is a temporal Vision Transformer pre-trained on multispectral satellite imagery from NASA’s Harmonized Landsat-Sentinel-2 dataset, enabling various downstream Earth observation tasks through fine-tuning.”

― Jakubik, J. et al., “Foundation Models for Generalist Geospatial Artificial Intelligence”, arXiv:2310.18660 (2023)

Prithviの特徴: – 時系列対応: 時系列の衛星画像を入力できる時間軸Transformer – マルチスペクトル: 6バンド（RGB + NIR + SWIR等）のHLSデータを学習 – HuggingFaceで公開: ファインチューニング用のオープンウェイトが公開されており、研究者が利用可能 – ダウンストリームタスク: 洪水マッピング、野火スカー検出、作物セグメンテーションで優れた性能

SatMAE

MITとStanford発のSatMAE（Satellite Masked Autoencoder）は、衛星画像をMasked Autoencoderで大規模自己教師学習した基盤モデルだ。

“SatMAE leverages temporal and multi-spectral self-supervised learning to produce powerful representations for a variety of downstream remote sensing tasks.”

― Cong, Y. et al., “SatMAE: Pre-training Transformers for Temporal and Multi-Spectral Satellite Imagery”, NeurIPS 2022

SatMAEはSpaceNet 8洪水検出・NAIP（National Agriculture Imagery Program）でのファインチューニングで、教師あり学習と同等以上の精度を達成した。

クラウドコンピューティングプラットフォームとの連携

Google Earth Engine

Google Earth Engine（GEE）は、Googleのクラウド上でペタバイト規模の衛星データに直接アクセスし、分析できる環境だ。LandsatやSentinelデータが事前に取り込まれており、コードを書くだけで世界中の衛星データを解析できる。

TensorFlow/PyTorchモデルとGEEを統合し、クラウド上で大規模推論を行うパイプラインが多数研究されている。

Microsoft Planetary Computer

Microsoft Planetary Computerは、AzureクラウドにSentinel、Landsat、MODIS等のデータを集約したプラットフォームだ。Dask並列処理やPySTACを使った大規模解析ができる。

衛星搭載AIとの統合：エッジ・クラウド協調

地球観測AIの究極形は、衛星上での軽量推論と地上の大規模モデルの役割分担だ。

衛星上（エッジ）: 軽量モデルで変化検出・重要データのトリアージ。不要データをダウンリンクしない
地上（クラウド）: 大型基盤モデルで詳細解析・変化原因の推定・報告書自動生成

Prithviのような大型基盤モデルは地上でのみ動作できるが、知識蒸留（Knowledge Distillation）で軽量化したモデルを衛星搭載AIとして展開する研究も始まっている。

実際の防災・気候変動応用

洪水マッピング

2023年のリビア洪水（死者1万人超）や2024年のパキスタン洪水では、Copernicus緊急管理サービス（CEMS）がSentinel-1 SARと深層学習を組み合わせて24時間以内に浸水域マップを提供した。

野火・山火事

カリフォルニア野火のモニタリングでは、Landsat・VIIRSデータとU-Net派生モデルが焼損エリアを自動マッピング。Prithviは野火スカー検出で99%を超える高精度を報告している。

農業・食糧安全保障

Sentinel-2の植生インデックス（NDVI）時系列とLSTMを組み合わせて、作物の生育状況や収穫量を予測する研究が世界中で展開されている。

まとめ

深層学習は衛星地球観測を「データの洪水の傍観」から「リアルタイム地球監視」へと変えた。ChangeFormerによるSAR変化検出、PrithviやSatMAEといった基盤モデルの登場は、AIが気候変動・防災・農業管理における意思決定の中核に入ったことを意味する。今後は衛星搭載AIのオンボード展開と地上基盤モデルの協調が進み、地球観測データの価値がさらに飛躍する。MLによる軌道衝突回避と並んで、AI×宇宙テクノロジーが社会インフラを支える時代が始まっている。

NASAのLandsat衛星が撮影したアラル海の縮小過程：深層学習による変化検出の代表的ユースケース 出典: NASA/USGS Landsat, “Aral Sea Shrinking” (PIA17006)

参考文献

Bandara, W.G.C., Patel, V.M., “A Transformer-Based Siamese Network for Change Detection”, IGARSS 2022. IEEE Xplore
Jakubik, J. et al., “Foundation Models for Generalist Geospatial Artificial Intelligence”, arXiv:2310.18660, 2023. arXiv
Cong, Y. et al., “SatMAE: Pre-training Transformers for Temporal and Multi-Spectral Satellite Imagery”, NeurIPS 2022. NeurIPS Proceedings
NASA / IBM, “Prithvi: Geospatial AI Foundation Model”, 2023. HuggingFace
ESA Copernicus Programme, “Sentinel-2 User Handbook”, 2021. ESA
NASA Goddard Space Flight Center, “India-Pakistan Border at Night” (画像), 2017. NASA Image Library
NASA/USGS Landsat, “Aral Sea Shrinking” (画像 PIA17006), 2013. NASA Image Library