VLA（Vision-Language-Action）モデル ― ロボットの「脳」はこう進化している【2026年版】

株式会社renue

2026/4/13 公開

AI導入・DXの悩みをプロに相談してみませんか？

AIやDXに関する悩みがありましたら、お気軽にrenueの無料相談をご利用ください。 renueのAI支援実績、コンサルティングの方針や進め方をご紹介します。

VLAモデルとは？ ― LLMがロボットの「体」を動かす仕組み

ChatGPTのようなLLM（大規模言語モデル）は「言葉」を生成します。画像生成AIは「画像」を生成します。では、ロボットの「行動」を生成するAIは何でしょうか？

その答えがVLA（Vision-Language-Action）モデルです。カメラ映像（Vision）と言語指示（Language）を同時に処理し、ロボットの具体的な動作（Action）——関節の角度、手の力加減、移動方向——を直接出力する統合AIモデルです。

ICLR 2026（機械学習のトップ国際会議）では164本ものVLA関連論文が集中し、研究が爆発的に加速しています（Moritz Reuss）。本記事では、VLAモデルの仕組み、主要モデルの比較、そしてなぜVLAが「汎用ロボット」実現の鍵なのかを解説します。

LLM → VLM → VLA ― AIモデルの進化系譜

VLAモデルは、AI技術の進化の延長線上にあります。

モデル	入力	出力	代表例
LLM（大規模言語モデル）	テキスト	テキスト	GPT-4、Claude、Gemini
VLM（視覚言語モデル）	テキスト + 画像	テキスト	GPT-4o、Gemini 2.0、Claude Vision
VLA（視覚言語行動モデル）	テキスト + 画像/動画	ロボットの行動	GR00T N1、Helix、Alpamayo

LLMは「言葉を理解して言葉を返す」、VLMは「画像も理解して言葉で説明する」、VLAは「見て、言葉を理解して、動く」——これがロボットの「脳」に求められる能力です（iCOM技研）。

なぜVLAが必要なのか

従来のロボット制御は「認識 → 計画 → 制御」というパイプライン方式でした。カメラで認識した結果をプランナーに渡し、プランナーが動作を計画し、コントローラーが関節を動かす。各段階が別々のシステムで動くため、遅延が発生し、エラーが伝播しやすいという問題がありました。

VLAモデルは、この3段階を1つのニューラルネットワークで一気通貫（エンドツーエンド）に処理します。映像と言語指示を入力すると、直接ロボットの関節角度や手の動きが出力される。これにより、より速く、より柔軟に、より汎用的なロボット制御が可能になります（The Robot Report）。

主要VLAモデル4選 ― 2026年最前線

1. GR00T N1 / N1.7 / N2（NVIDIA）

NVIDIAのGR00T（Generalist Robot 00 Technology）は、ヒューマノイド向けのオープン基盤VLAモデルです。

バージョン	パラメータ	特徴
GR00T N1	20億	デュアルシステム設計。Omniverse + Cosmosの合成データで学習
GR00T N1.7	—	商用展開可能レベル。実環境での推論VLAモデル
GR00T N2（プレビュー）	—	DreamZero研究ベース。World Action Model。従来VLAの2倍以上の成功率

GR00T N1のアーキテクチャはデュアルシステムです（NVIDIA Newsroom）：

System 2（VLM）：物理世界を視覚と言語で解釈し、行動計画を推論する「遅い脳」
System 1（Diffusion Transformer）：System 2の指示に従い、120Hzで精密なモータ制御を出力する「速い脳」

オープンモデルであるため、さまざまなヒューマノイド・ロボットプラットフォームで利用可能。GR00T N2は「World Action Model」という新アーキテクチャで、新しいタスク・新しい環境での成功率が従来VLAの2倍以上に向上しています。

2. Helix（Figure AI）

Figure AIが自社開発したHelixも、GR00T N1と同じデュアルシステム設計を採用しています。

System 2（70億パラメータ）：高レベルの推論とタスク理解を担当
System 1（8,000万パラメータ）：200Hzでリアルタイム制御を実行

500時間のテレオペレーションデータで学習され、上半身全体（腕・手・胴体・指）を自律制御します。BMW工場でのFigure 02の1,250時間超の稼働実績から得られたデータが、Helixの学習に活用されています。

Helix 02（2026年1月リリース）では歩行・バランスを含む全身制御に拡張されました。

3. Alpamayo（NVIDIA / 自動運転向け）

AlpamayoはNVIDIAがDRIVEプラットフォーム向けに開発した自動運転向けVLAです（TechCrunch）。

10億パラメータの推論（Chain-of-Thought）型VLA
「なぜその判断をしたか」を説明できる推論プロセス
信号故障時の交差点対応など、複雑なエッジケースを未経験でも処理
Alpamayo 1.5ではマルチカメラ対応・ナビゲーションガイダンスを追加

ヒューマノイド向けのGR00Tとは異なり、Alpamayoは車載実装を想定した10Bパラメータという制約の中で動作します。自動運転とヒューマノイドは異なるドメインですが、VLAという共通アーキテクチャで統合されつつあります。

4. ACoT-VLA（AgiBot / CVPR 2026）

中国AgiBotがCVPR 2026で発表したACoT-VLA（Action Chain-of-Thought VLA）は、推論プロセスに「行動の連鎖思考」を組み込んだモデルです。単純に「次の動作」を予測するだけでなく、「なぜその動作が必要か」を段階的に推論してから行動を生成します。

WholeBodyVLAという研究では、エゴセントリック（一人称視点）動画からラテント行動を学習し、ヒューマノイドの全身移動操作でGR00Tを21.3%上回る成績を達成しています。

ICLR 2026 ― 164本のVLA論文が示す研究爆発

ICLR 2026では164本のVLA関連論文が投稿・採録され、VLAが「ニッチな研究テーマ」から「機械学習のメインストリーム」に移行したことが明確になりました（Moritz Reuss分析）。

2026年のVLA研究トレンド

トレンド	内容	代表的な論文/モデル
Discrete Diffusion VLA	拡散モデルで行動を生成。連続値ではなく離散化した行動空間を使う	DiffusionVLA
Reasoning VLA	行動前に推論プロセスを挟む。「なぜその行動か」を説明可能	ACoT-VLA、Vlaser
WholeBody VLA	上半身だけでなく全身の移動と操作を統合制御	WholeBodyVLA
VLM Backbone選択	VLMの一般ベンチマーク性能とVLA性能に相関がないことを発見	VLM4VLA
Self-Improving VLA	残差強化学習でデータを自動生成し、自己改善するVLA	Self-Improving VLA

特に重要な発見として、VLMの一般ベンチマーク性能がVLAの性能と相関しないことがVLM4VLAの研究で示されました。つまり「良いVLM ≠ 良いVLA」であり、ロボット向けのモデル設計には独自のアプローチが必要です。

なぜVLAが「汎用ロボット」実現の鍵なのか

従来のロボット：タスクごとにプログラミング

従来のロボットは、新しいタスクを実行するたびに個別のプログラミングが必要でした。「箱を掴む」「ネジを締める」「物を運ぶ」——それぞれ別のプログラムを開発し、テストし、導入する。タスクが変わればまたゼロから。

VLAモデル：言語指示だけで新しいタスクを実行

VLAモデルでは、自然言語で指示するだけで新しいタスクを実行できます。「赤い箱を右の棚に移動して」——カメラで環境を理解し、言語指示を解釈し、適切な動作を自律的に生成します。

これは、ChatGPTが「新しい質問にもプログラミングなしで答えられる」のと同じ原理です。VLAモデルは、ロボットに「汎用性」——つまり未知のタスクにも対応できる能力——を与えるブレークスルーです。

模倣学習からの進化

従来の模倣学習は「お手本をコピーする」段階でした。VLAは「言葉と状況を手がかりに新しい行動を組み立てる」段階へ進化しています。GR00T N2の実験では、新しいタスク・新しい環境での成功率が従来VLAの2倍以上に向上しており、「汎用化」への道が着実に開かれています。

renueの見解

VLAモデルは、renueの技術スタンスである「汎用LLMの進化を追うことが最優先」を最も直接的に裏付ける技術です。VLAはLLMの延長線上にあり、NVIDIAのGR00TやOpenAIの技術がロボットの「脳」として展開されています。

企業にとって重要なのは、VLAモデルはオープン化が進んでいる点です。GR00T N1はオープンモデルであり、特定のハードウェアメーカーに縛られません。最先端のVLAモデルにいち早くキャッチアップし、自社の現場データで微調整（ファインチューニング）する能力を磨くことが、ロボット導入の競争力になります。

よくある質問（FAQ）

Q. VLAモデルは今すぐ使えますか？

NVIDIA GR00T N1.7は2026年時点で商用展開可能レベルに達しています。Isaac Simでのシミュレーション環境も整備されており、開発者は今すぐ試すことができます。ただし、実環境での安定稼働にはまだ調整が必要です。

Q. VLAモデルの学習にはどんなデータが必要ですか？

テレオペレーション（遠隔操作）で収集した映像＋行動データが主な学習源です。Figure AIのHelixは500時間の遠隔操作データで学習されました。NVIDIAはOmniverse・Cosmosによる合成データと実データの組み合わせを推奨しています。

Q. LLMの知識があればVLAも理解できますか？

VLAはLLM/VLMの拡張であるため、Transformerアーキテクチャの理解があれば基本概念は掴めます。ただし、ロボット制御特有の要素（リアルタイム性、120-200Hzの推論速度、物理制約）は追加で学習が必要です。

まとめ

VLA（Vision-Language-Action）モデルは、LLM → VLM → VLAというAI進化の最先端に位置し、ロボットに「見て、理解して、動く」能力を与えるブレークスルーです。

NVIDIAのGR00T N1/N2、Figure AIのHelix、自動運転向けのAlpamayo、AgiBotのACoT-VLAと、2026年は主要VLAモデルが一気に実用レベルに近づきました。ICLR 2026の164本の論文が示すように、VLA研究は「爆発期」に入っています。

VLAこそが「汎用ロボット」を実現する鍵であり、この技術の進化を追い続けることが、フィジカルAI時代に備える最善の戦略です。

参考情報

あわせて読みたい

AI活用のご相談はrenueへ

renueは553のAIツールを自社運用するAIコンサルティングファームです。VLAモデルを含む最先端AI技術の活用から、貴社のAI戦略まで支援します。

→ 詳細を見る