強化学習によるロケット着陸制御

はじめに

強化学習（Reinforcement Learning: RL）は、エージェントが環境との試行錯誤を通じて最適な行動方策を獲得する機械学習の一分野である。近年のディープラーニングとの融合により、複雑な非線形ダイナミクスを持つ制御問題への適用が急速に拡がっている。ロケットの垂直着陸はまさにその理想的な応用先のひとつだ。

従来のロケット着陸誘導では、凸最適化やMPCによる数理最適化手法が主流であるが、強化学習はモデルの不確かさや大規模な外乱に対して頑健な方策を学習できる可能性を持つ。本記事ではRLの基礎からロケット着陸制御への適用、最新の研究動向、そして実用化に向けた課題を体系的に解説する。

強化学習の基礎

マルコフ決定過程（MDP）

強化学習問題はマルコフ決定過程（MDP）として定式化される。

要素	記号	ロケット着陸での対応
状態空間	S	位置、速度、姿勢、角速度、残推進剤量
行動空間	A	エンジンスロットル、ジンバル角、RCSコマンド
遷移確率	P(s’	s,a)
報酬関数	R(s,a)	着陸精度、燃料消費、姿勢安定性の重み付け
割引率	γ	0.99〜0.999（着陸時の最終精度を重視）

方策勾配法とActor-Critic

ロケット着陸のような連続行動空間の問題では、方策勾配法（Policy Gradient）系のアルゴリズムが適している。

REINFORCEは最も基本的な方策勾配法で、軌道全体のリターンを用いて方策パラメータを更新する。しかし分散が大きいため、実用的にはベースラインを導入したActor-Critic法が用いられる。

Actor-Criticでは、Actor（方策ネットワーク）が行動を決定し、Critic（価値ネットワーク）が状態価値を推定して方策の改善方向を指示する。この二重構造が分散を低減し学習を安定化させる。

主要アルゴリズム比較

アルゴリズム	方策	特徴	ロケット適性
PPO	On-policy	クリッピングによる安定学習、実装容易	◎（最も広く使われる）
SAC	Off-policy	エントロピー最大化で探索促進	○（探索効率が高い）
TD3	Off-policy	Twin Criticでoverestimation抑制	○（連続制御に強い）
DDPG	Off-policy	DPGの深層版、学習不安定になりやすい	△（PPO/TD3に劣る場合が多い）

ロケット着陸のRL定式化

状態空間の設計

6-DoFロケット着陸問題では、一般的に以下の13次元以上の状態ベクトルを用いる。

x = [r_x, r_y, r_z, v_x, v_y, v_z, q_0, q_1, q_2, q_3, ω_x, ω_y, ω_z, m_fuel]

ここで r は位置、v は速度、q は姿勢クォータニオン、ω は角速度、m_fuel は残推進剤質量である。

実用的には、さらに以下の情報を状態に含めることが有効だ。

Time-to-go（残飛行時間推定）：収束性を改善
目標相対ベクトル：位置のグローバル座標よりも汎化性が向上
風速推定値：外乱に対するフィードフォワード効果

行動空間の設計

行動変数	範囲	備考
スロットル	40%〜100%	ディープスロットルの下限制約
ジンバルY角	±6°	ピッチ軸制御
ジンバルZ角	±6°	ヨー軸制御
RCS指令	-1〜+1（3軸）	低推力域での姿勢制御

行動空間を連続値にするか離散化するかは設計上の重要な選択だ。連続行動はより滑らかな制御を可能にするが、学習の難易度が上がる。ロケット制御では連続行動空間が一般的だが、スロットルを数段階に離散化して学習効率を上げる手法も研究されている。

報酬関数の設計

報酬関数はRLエージェントの行動を直接的に形作る最も重要な設計要素である。ロケット着陸では以下のように多目的な報酬を重み付けして合成する。

R = w_1 × R_position + w_2 × R_velocity + w_3 × R_attitude + w_4 × R_fuel + R_terminal

各項の典型的な定義：

報酬項	定義	目的
R_position	-‖r – r_target‖	着陸地点精度
R_velocity	-‖v‖	ソフトランディング
R_attitude	-‖θ_tilt‖	姿勢安定性
R_fuel	-m_fuel_used / m_fuel_init	燃料効率
R_terminal	+1000（成功）/ -1000（失敗）	着陸成否の明確なシグナル

報酬シェーピングの設計は着陸成功率に劇的な影響を与える。特に疎な報酬（着陸成否のみ）では学習が極めて遅くなるため、中間状態での密な報酬（Dense Reward）が不可欠だ。ただし過度に密な報酬は局所最適解に陥るリスクがあり、カリキュラム学習との併用が有効である。

学習環境とシミュレーション

OpenAI GymベースのRocket Landing環境

研究コミュニティでは、OpenAI Gym（現Gymnasium）インターフェースに準拠したロケット着陸シミュレーション環境がいくつか公開されている。

Rocket-Landing-Gymは2D/3Dのロケット着陸を模擬する環境で、簡易的な力学モデルを用いてプロトタイピングに適している。より高忠実度な環境としては、JSBSimやGMATと連携した6-DoFシミュレーションフレームワークが研究に使用されている。

6-DoF高忠実度シミュレータ

実用レベルのRL学習には、以下の物理効果を含む高忠実度シミュレータが必要となる。

物理モデル	内容
6-DoF剛体動力学	並進3軸 + 回転3軸
重力モデル	J2摂動を含む非球形地球
大気モデル	密度・風速の高度依存性
エンジンモデル	スロットル応答遅れ、推力振動
空力モデル	姿勢依存の抗力・揚力
推進剤スロッシング	液面振動による外乱モーメント

ドメインランダマイゼーション

シミュレータと実機のギャップ（Sim-to-Real Gap）を埋めるために、ドメインランダマイゼーションが広く用いられている。学習中に以下のパラメータをランダムに変動させることで、モデル誤差に対して頑健な方策を獲得できる。

エンジン推力の±5%変動
空力係数の±20%変動
風外乱のランダムプロファイル（突風を含む）
初期状態の広い分布（位置・速度・姿勢）
質量特性（重心位置、慣性モーメント）の不確かさ
センサノイズとバイアス

この手法はSim-to-Real転移を大幅に改善し、OpenAIのロボティクス研究（Rubik’s Cubeの片手操作）で有効性が実証されている。ロケット制御への適用でも同様の効果が期待される。

PPOによるロケット着陸の学習

なぜPPOが好まれるか

PPO（Proximal Policy Optimization）はロケット着陸のRL研究で最も広く使われるアルゴリズムである。その理由は以下の通り。

安定した学習：クリッピングにより方策の急激な変化を防ぎ、発散しにくい
実装の容易さ：特殊なリプレイバッファやターゲットネットワークが不要
ハイパーパラメータの感度が低い：広い範囲で安定して動作
並列環境との親和性：多数のワーカーで並列データ収集が可能

学習プロセスの実際

PPOによるロケット着陸学習の典型的なプロセスは以下の段階を経る。

Phase 1：ランダム探索（0〜50万ステップ） 初期のランダム方策では、ロケットはほぼ確実に墜落する。疎な終端報酬だけでは学習シグナルがほとんど得られないため、密な中間報酬が極めて重要となる。

Phase 2：基本的な減速学習（50万〜200万ステップ） エージェントは下向きにエンジンを噴射して減速する基本戦略を学習する。この段階ではまだ着陸精度が低い。

Phase 3：誘導精度の向上（200万〜1000万ステップ） 軌道を修正しながら着陸地点に向かう技術を獲得する。横方向の誘導精度が徐々に改善される。

Phase 4：微調整と最適化（1000万〜5000万ステップ） 燃料効率と着陸精度のトレードオフを最適化する。最終段階では人間がデザインした古典的誘導アルゴリズムに匹敵する性能を達成する場合がある。

カリキュラム学習

難易度を段階的に上げるカリキュラム学習は、ロケット着陸のRL学習を大幅に加速する。

ステージ	初期条件	外乱	目的
1	着陸直上500m、低速	なし	基本的な減速・着陸
2	着陸直上2km、中速	微風	誘導精度の改善
3	斜め方向5km、高速	標準風	横方向誘導
4	実運用条件（高度30km、マッハ3+）	ランダム風	フルミッション

各ステージでの成功率が閾値（例えば90%）を超えたら次のステージに進む。この方法により、最初から困難な条件で学習する場合と比べて収束速度が10倍以上改善される報告がある。

手法	概要	ロケットへの適用
ドメインランダマイゼーション	パラメータを広くランダム化	空力・推力・風の不確かさ
システム同定+適応	実データでモデルを更新	飛行中のオンライン適応
Teacher-Student	Privilegedな教師から蒸留	教師は完全状態、生徒はセンサのみ
Diffusion Policy	拡散モデルで方策を表現	多様な着陸軌道の生成

古典制御との比較と実用化の壁

性能比較

指標	凸最適化	MPC	強化学習
着陸精度	◎（最適性保証）	◎	○〜◎（学習次第）
計算時間	○（数百ms）	△〜○	◎（推論は数ms）
外乱頑健性	△（モデル依存）	○	◎（ドメインランダマイゼーション）
制約保証	◎（ハード制約）	◎	△（ソフト制約的）
検証・認証	○	○	✕（ブラックボックス）
開発コスト	○	△	△（学習環境構築）

実用化に向けた4つの壁

1. 検証・認証の困難さ 航空宇宙の安全規格はシステムの動作を網羅的に検証することを要求する。ニューラルネットワークベースの方策はブラックボックスであり、すべての入力条件に対する動作保証が極めて困難だ。形式手法による検証や、RL方策の凸最適化への蒸留が解決策として研究されている。

2. 最悪ケース性能の保証 RLは平均的な性能は高いが、稀な極端条件での最悪ケース性能を保証しにくい。宇宙機のミッションでは「1000回中999回成功」では不十分で、「すべての条件で安全に動作する」ことが求められる。

3. 学習環境の忠実度 シミュレータのモデル化誤差がそのままSim-to-Realギャップとなる。特にエンジンの動特性、着陸脚接地時の衝撃、地表面効果（Ground Effect）など、正確なモデル化が困難な現象が存在する。

4. オンボード実装 飛行用コンピュータは放射線耐性を持つ宇宙品質プロセッサを使用するため、地上の GPU と比較して計算能力が数桁低い。ニューラルネットワークの推論を限られたリソースで実行するためのモデル圧縮・量子化技術が必要となる。

ハイブリッドアプローチ：RLと古典制御の融合

RL方策 + 安全フィルタ

最も現実的なアプローチの一つが、RLの学習方策に安全フィルタを重ねるハイブリッド手法だ。RL方策の出力を安全制約チェッカーに通し、制約に違反する場合のみ古典的な緊急回避ロジックで上書きする。

この「RLは性能、古典制御は安全性」という役割分担は、両手法の長所を活かしつつ短所を補完する。

残差強化学習

残差RL（Residual RL）は、ベースラインとなる古典制御器の出力に、RLが学習した修正量（残差）を加算する手法だ。

u_total = u_baseline(x) + u_RL(x)

ここで u_baseline は従来のPD制御やMPCによる制御入力、u_RL はRLが学習した修正入力である。ベースラインが概ね適切な制御を提供するため、RLは微調整のみを担当し、学習が容易になる。さらに学習が不十分な状況でもベースラインが安全な動作を保証する。

RL-Guided凸最適化

RLエージェントが凸最適化の初期推定値やパラメータをリアルタイムで調整するアプローチも提案されている。RLが飛行状況に応じて最適なウェイト配分やホライズン長を選択し、凸最適化ソルバーが厳密な制約付き最適解を生成する。この手法はRLの適応性と凸最適化の最適性保証を両立させる。

まとめ

強化学習はロケット着陸制御に革新的な可能性を拓く技術であり、特に外乱に対する頑健性と計算速度（推論時）で古典手法を上回る潜在力を持つ。しかし、検証・認証の困難さと最悪ケース性能の保証という実用上の壁は依然として高い。

短期的には、RLと古典制御を融合したハイブリッドアプローチが最も現実的な実用化パスとなるだろう。残差RL、安全フィルタ付きRL、RL-Guided最適化など、RLの適応能力と古典制御の信頼性を組み合わせた手法が活発に研究されている。

長期的には、ニューラルネットワークの形式検証技術の進歩や、解釈可能なAIの発展により、RL方策の航空宇宙認証への道が開かれると期待される。強化学習が「使えるかもしれない」段階から「安全に使える」段階に移行する過程を、今まさに見ているのだ。