

ロボット工学のブレイクアウトの瞬間
私たちは今、ロボティクスの新しい時代を迎えようとしています。基盤モデルやトランスフォーマーベースのAIの進歩、そしてハードウェアのコスト低下と性能が劇的に向上したことにより、この分野はこれまでの領域が狭く、タスクに特化した自動化から、より野心的な「汎用的なロボット知能」へと進化を遂げています。 市場もこの動きに注目しています。 ロボット企業への投資額は2024年に70億ドルを超え、Figure(シリーズBで6億7500万ドル)、Physical Intelligence(シリーズAで4億ドル)、Skild(シリーズAで3億ドル)といった大型の資金調達が目立っています。 世界のロボット市場は、ロボットが汎用的な能力を獲得し、産業界からサービス部門、そして一般家庭へと拡大するにつれて、今後5年間で飛躍的に成長すると予測されています。 その成長の内訳は以下のとおりです。 汎用ロボットシステムは、複数のユースケースや業種に適用できるロボットの登場を可能にすることで、これらのカテゴリーの境界線を曖昧にし、市場をさらに拡大する可能性があります。 私たちは、ロボティクスエコシステムが発展すると予想しており、ロボット基盤モデル(Robotics foundation models, RFM)、フルスタックのハードウェア/ソフトウェアソリューション、およびロボティクスツール(例:ロボット学習データプロバイダー、シミュレーションプラットフォーム)を開発するチームに投資することで、この成長を支援できることを嬉しく思います。 私たちは過去7ヶ月間、ロボティクス市場を深く掘り下げ、この分野で働く最も優秀なイノベーターや専門家数十人と話をしてきました。これらの対話を通じて、私たちはロボティクスへの投資のためのフレームワークを開発しました。それは、この分野がこれまでどうであったか、そしてどこに向かっているかに基づいています。 私たちは分析を2つの部分に分けました。この記事では、汎用的なロボット知能の実現に向けて産業を前進させている技術に焦点を当て、今こそロボティクスにとって絶好のタイミングである理由を説明します。今後出される二つ目の記事では、この新興市場で「本物」を「ノイズ」から見分け、世界を変える可能性を秘めていると私たちが信じるロボット企業を特定する方法を説明します。 私たちの関心とこの分野の理解に貢献したロボティクスに関する公開コンテンツ、特にCoatue、Colossus、SemiAnalysis、Salesforceからの洞察記事に敬意を表します。 それでは、早速掘り下げていきましょう。 現在の状況 歴史的に見て、ロボティクスの進歩は遅々としていました。その理由は単純で、解決するのが非常に難しい問題だからです。しかし今日、私たちは汎用ロボティクスに向けた数十年におよぶ旅路における転換点を迎えています。現在開発されている技術は、産業製造業や物流におけるロボットのより広範な導入を促進し、ロボティクスが小売、医療、ホスピタリティなどの新しい分野に拡大するのを助け、そしてロボットを消費者の家庭に持ち込むでしょう。これこそ、ロボット工学革命における最後のフロンティアであると私たちは考えています。 生成AIのイノベーションのペースが、ロボティクスのブレークスルーに対する楽観的な見方を新たにしている一方で、ロボットの商業化は依然として非常に複雑な課題です。成功には、ハードウェア設計と製造、サプライチェーンロジスティクス、そして堅牢で汎用的なロボット基盤モデルの開発など、複数の分野にわたる卓越性が求められます。ロボティクスチームは、これらの主要な分野すべてにおいて、早期に、そして多くの場合、高いリスクを伴う戦略的な決断を下す必要があります。企業が特定のハードウェアやモデルアーキテクチャにコミットすると、方向転換するにはコストがかかり、困難になります。 では、なぜ今が過去のロボティクスへの熱狂の波と異なるのでしょうか? 以前の取り組みが脆弱なソフトウェアと高価で柔軟性のないハードウェアによって制約されていたのに対し、今日のシステムは大幅に改善された基盤から生まれています。私たちの見解では、3つの主要な分野がこの変化を推進しています。 各分野で最近大きな進歩が見られました。タイミングが正しい理由を理解するために、何が変わったのかを探ってみましょう。まずは、真にインテリジェントな現実世界のロボットを構築するための基盤となるデータから始めます。 1) データ 今日のロボティクスにおける最も差し迫ったボトルネックの一つはデータです。大規模言語モデル(LLM)は、すぐに利用できる膨大な量のインターネット上のテキストデータで学習されましたが、ロボットを学習させるための同等のデータソースは存在しません。今日、ロボティクス研究者や開発者は、いくつかの学習データソースに依存しています。シミュレーションデータ、遠隔操作データ、人間のビデオデータ、そして導入されたロボットからの実世界データです。これらのデータタイプは、アクセスの容易さ、スケーラビリティ、および有用性の点で異なります。人間のビデオデータとシミュレーションデータは、スケーリングやアクセスが容易ですが、ロボット学習の特定の側面にしか役立たない可能性があります。一方、遠隔操作データや導入されたロボットからの実世界データは、スケーリングやアクセスが困難ですが、より価値があります。以下は、私たちが話を聞いたロボティクス専門家が各学習データソースをどのように見ているかの内訳です。 シミュレーションデータ ロボティクスにおける従来の考え方は、シミュレーションデータはロボットに移動タスクの実行方法を教えるのに優れていますが、物理的な相互作用を伴う「操作」を教えるのは難しいというものでした。これは「sim-to-real gap」があるためです。シミュレーション環境と現実の環境との間に本質的なずれがあり、シミュレーションで学習したポリシーが現実世界で最適に機能しない原因となります。 このギャップは、これらのタスクが本質的に複雑であるため、器用な操作で最も顕著です。器用さには、視覚レンダリングの忠実度が高く、摩擦や変形といった物理的な微妙な違いをシミュレートするのがより困難です。 遠隔操作データ(テレオペレーションデータ) 遠隔操作データは、人間のオペレーターによるロボットのリモートコントロール中に収集されたデータであり、操作機能を解き放つ鍵として一般的に見なされています。ただし、リソースと運用に多くの労力がかかるため、スケーリングは困難です。 遠隔操作データは、人間のオペレーターがロボット企業が実際に導入で使用しているものとまったく同じ種類のハードウェアを使用してデータを収集している場合に特に役立ちます。これにより、収集されたデータをロボットの物理的な構造(形態)により正確にマッピングできるからです。同様の種類ではあるが厳密には同じではないハードウェアが使用されている場合、そのデータは「オフエンボディメント」と見なされます。これは依然として価値があり、遠隔操作データを補完するのに適しています。遠隔操作データは、カスタムハードウェアの製造が必要になる場合があるため、リソース集約型です。LLMと同様に、ロボットを学習させるにはデータの多様性が必要です。つまり、遠隔操作プロジェクトでは、データの多様性を実現するために、さまざまなセットアップ、背景、照明などが必要となります。対照的に、シミュレーション環境では、すべての物理的要素を調整およびシミュレートできます。 人間のビデオデータ 人間のビデオデータは、ロボットを学習させるための分かりやすい方法のように思えます。インターネット上には膨大な量の既存のビデオデータがあり、人間のビデオデータを作成するのは簡単です。さらに、ロボットは形態学的に人間に似ているように設計されています。ただし、すべての人間のビデオデータがロボット学習用に等しく作られているわけではありません。一人称視点で記録されたビデオ(「撮影者の視点から記録されたビデオデータ」)が最適です。このデータは、カメラを搭載したロボットが「見る」ものに似ています。また、手とオブジェクトの相互作用や人間の意図を理解するのにも役立ちます。 さらに、人間の環境には多様性が豊富にあるため(例:環境、照明、障害物など)、人間のビデオは多様性の問題に役立ちます。ただし、人間の手と腕はほとんどのロボットアーム/マニピュレーターとまったく同じではなく、これらのビデオにはアクションラベルがないことが多いため、一人称視点のビデオは遠隔操作データよりも価値が低いと見なされることがよくあります。 _ 上記の要約となりますが、ロボット工学データ会社xdof.aiの創設者は、さまざまなタイプのロボットトレーニングデータを階層に配置する優れたフレームワークを共有しました。 データ収集における最近の進歩 データを使用してモデルを学習またはファインチューニングしている多くのスタートアップと話をして、ロボティクスは非常に多様で論点の多い分野であることに気づきました。データに関して何がうまくいくかについてさまざまなチームが異なる見解を持っており、さまざまなアプローチを試しています。これは、ほとんどのロボティクス専門家が同様の手法に依存していた以前のトレンドサイクルと、今回のロボティクスイノベーションの波との間の重要な違いの一つです。さらに、欠点に対処するために前述の各データアプローチで継続的な研究が行われており、スケーラビリティに関する継続的なブレークスルーにつながり、以前の概念に疑問を投げかけています。 Skild AIは、汎用的なロボティクス基盤モデルを構築するという大胆な野心を持っています。創業者のDeepak PathakとAbhinav Guptaは、「あらゆるロボット、あらゆるタスク、1つの脳」という共通のビジョンを共有しています。彼らは、すべてのタイプのデータを活用する汎用モデル「Skild Brain」を学習させることによって、この目標にアプローチしています。DeepakとAbhinavはどちらも、AIとロボティクスで数十年の経験があり、今日ロボティクスの標準となっているいくつかの主要なアイデアのパイオニアです。彼らは、sim2realに関する最初の主要な受賞論文、ビデオから学習する最初の論文シリーズ(例:VideoDex、およびこちら)、およびいくつかの最大のテレオペレーションデータプロジェクト(MIME、RT-X)に関与してきました。Skild Brainは、シミュレーションと人間のビデオを使用して、移動から操作まで、可能な限り多くの機能とパフォーマンスを実現し、必要に応じて、学習後の遠隔操作で補完しています。 一方、Physical Intelligenceは、ロボティクスにおける器用な操作が要される問題を単独で解決することに焦点を当てています(例:針に糸を通すなど、きめ細かい方法でオブジェクトを操作できること)。最終的な目標は、完全に汎用的なモデル(つまり、タスク全体、ハードウェア全体)を実現することです。彼らはデータアプローチの組み合わせを使用しており、チームは、ロボティクス基盤モデルが効果的に汎用化するためには実世界データが不可欠であると考えています。しかし、現実的であることも重要であり、代替データ(シミュレーションデータ、人間のビデオデータなど)を「代用品」としてではなく「補完」として使用しています(LLMにおける無関係だが有用な事前学習データと同様)。PIは、これにより、過度なエンジニアリング対応を回避し、モデルが代替ソースを、正確なタスク指示ではなく幅広い知識として使用できるようになると考えています。その結果、チームは実世界データの活用に大きく依拠しており、大規模な遠隔操作ラボを運営しています。 Dyna Roboticsも遠隔操作データに焦点を当てていますが、限られた量のデータで製品レベルのパフォーマンスを実現するために、強化学習(Reinforcement learning, RL)アプローチを考案しました。彼らのアプローチの詳細については、次のセクションで説明します。 前述のxdof.aiのような企業は、特殊なハードウェアと汎用ハードウェアを使用して実世界データを収集する大規模な遠隔操作プロジェクトを構築しており、このタイプのデータに対する大きな需要があることを認識しています。Standard Botsは、AIネイティブで垂直統合されたロボットを構築しており、ロボットデータ収集用の独自のハードウェアを開発しました。これにより、顧客は自分でデータを収集し、ロボットにさまざまなタスクを実行するように学習させることができます。 NVIDIAは、データのスケーリングにシミュレーションを活用することを推進しており、シミュレーションをインターネットのビデオデータ、人間のデモンストレーションデータ、および遠隔操作データで補完しています。これは、ヒューマノイド向けのNVIDIA Isaac Groot基盤モデルの基礎となっています。NVIDIAは、ロボティクスにおけるRL用に設計された高性能シミュレーション環境であるNVIDIA
