ヘルスケアロボティクスAIに革命!NVIDIA主導の物理AIモデルとオープンデータセットが医療の未来を拓く

-

医療現場におけるAIの活用は、診断支援や画像解析といった知覚ベースの領域で大きな進歩を遂げてきました。しかし、手術や処置といった「行動」を伴う医療行為においては、ロボットが自律的に複雑なタスクを実行するためのAI技術はまだ発展途上にあります。この現状を打破すべく、NVIDIAをはじめとする35の国際機関が協力し、ヘルスケアロボティクス分野に特化した初のオープンデータセット「Open-H-Embodiment」と、それに基づく革新的な物理AIモデル「GR00T-H」および「Cosmos-H-Surgical-Simulator」を発表しました。これらの技術は、従来のAIの限界を超え、医療ロボットがより高度な自律性を持ち、実際の医療現場で活躍するための基盤を築くものです。

ヘルスケアAIの新たな地平:物理AIへの転換

これまでのヘルスケアAIは、主に画像や生体信号の解釈、病理や解剖学的構造の分類・セグメンテーションといった知覚ベースのモデルが中心でした。しかし、医療行為の本質は「実行」にあります。例えば、手術ロボットが患者の体内で正確に縫合したり、超音波プローブを適切な位置に動かしたりするには、単なる知覚だけでなく、ロボットの「身体性(Embodiment)」、物理的な接触ダイナミクス、そして閉ループ制御が不可欠です。

従来の静的な知覚データセットでは、これらの要素が欠如しており、ロボットが現実世界で自律的に行動するためのAIを訓練するには不十分でした。この課題を克服するためには、標準化されたロボットボディ、同期された視覚・力覚・運動学データ、シミュレーションと実世界のペアリング、そして異なるロボット間での性能評価ベンチマークといった、物理AIの基盤を構築するための要素が求められています。

世界初のオープンデータセット「Open-H-Embodiment」の全貌

「Open-H-Embodiment」は、手術ロボティクスや超音波診断におけるAIの自律性、そしてワールドファウンデーションモデル(WFM)の訓練と評価に必要なオープンで共有可能な基盤を構築するために、コミュニティ主導で立ち上げられたデータセットイニシアチブです。ジョンズ・ホプキンス大学のアクセル・クリーガー教授、ミュンヘン工科大学のナシール・ナバブ教授、NVIDIAのマハディ・アジジアン博士を含む運営委員会によって開始され、現在では世界中の35の組織がこの取り組みに参加しています。

Open-H-Embodimentデータセットのサンプルデータを示す画像

このデータセットは、778時間にも及ぶCC-BY-4.0ライセンスのヘルスケアロボティクス訓練データで構成されており、その大部分は手術ロボティクスに関するものですが、超音波や大腸内視鏡の自律性データも含まれています。データは、シミュレーション環境、ベンチトップでの演習(例:縫合)、そして実際の臨床手順にわたって収集されています。使用されているロボットも多岐にわたり、CMR Surgical、Rob Surgical、Tuodaoといった商用ロボットから、dVRK、Franka、Kukaといった研究用ロボットまで、様々なプラットフォームを網羅しています。このデータセットの公開と同時に、このデータで後訓練された2つの新しいオープンソースモデルもリリースされました。

手術ロボットに「行動」をもたらす「GR00T-H」モデル

「GR00T-H」は、NVIDIAのIsaac GR00T Nシリーズのビジョン言語アクション(VLA)モデルをベースにした派生モデルです。Open-H-Embodimentデータセットの約600時間分のデータで訓練されており、手術ロボティクスにおけるタスク実行のための初のポリシーモデルとなります。NVIDIAのオープンソースエコシステムを基盤とし、Cosmos Reason 2 2BをVLM(Vision-Language Model)バックボーンとして活用しています。

GR00T-Hモデルが手術ロボットで縫合タスクを実行している様子

手術ロボティクスは極めて高い精度を要求しますが、ケーブル駆動システムのような特殊なハードウェアは、模倣学習(IL)を困難にします。GR00T-Hは、この課題に対処するために以下の4つの主要な設計選択を採用しています。

  • ユニークなEmbodiment Projectors: 各ロボット固有の運動学を共有の正規化されたアクション空間にマッピングする、学習可能なMLP(多層パーセプトロン)を使用。
  • State Dropout (100%): 推論時に自己受容感覚入力を完全にドロップすることで、各システムに対する学習されたバイアス項を生成し、より良い実世界の結果をもたらします。
  • 相対的なEEFアクション: 運動学的な不整合を克服するため、訓練には共通の相対的なエンドエフェクター(EEF)アクション空間を使用。
  • タスクプロンプト内のメタデータ: 器具名と制御インデックスマッピングをVLMタスクプロンプトに直接注入。

GR00T-Hのプロトタイプは、SutureBotベンチマークにおいて、完全なエンドツーエンドの縫合を実行する能力を実証しており、その堅牢な長期的器用さを際立たせています。

現実と見紛うシミュレーションを実現「Cosmos-H-Surgical-Simulator」

「Cosmos-H-Surgical-Simulator」は、アクション条件付き手術ロボティクス向けのワールドファウンデーションモデル(WFM)です。従来のシミュレーターは、軟組織の変形、光の反射、血液や煙といった実世界の複雑な要素を正確に再現することが難しく、シミュレーションと実世界のギャップ(Sim-to-Real Gap)が大きな課題でした。

Cosmos-H-Surgical-Simulatorによる手術シミュレーションの動画

キーとなる機能

  • Sim-to-Realギャップの克服: NVIDIA Cosmos Predict 2.5 2Bをファインチューニングしており、運動学的なアクションから物理的に妥当な手術動画を直接生成します。これにより、現実世界に近いシミュレーションが可能になります。
  • 効率性の向上: 600回のロールアウト(シミュレーション実行)に、シミュレーションではわずか40分しかかからなかったのに対し、実際のベンチトップ手法では2日を要しました。これは、開発とテストのサイクルを劇的に短縮できることを意味します。
  • 物理シミュレーターとしてのWFM: データから組織の変形やツールとの相互作用を暗黙的に学習します。
  • 合成データ生成: 過小評価されているデータセットを補強するために、現実的な合成動画とアクションのペアを生成できます。

このモデルは、Open-H-Embodimentデータセット(9種類のロボット身体性、32のデータセット)を用いて、64基のA100 GPUで約10,000 GPU時間をかけてファインチューニングされました。統一された44次元のアクション空間を利用しています。

医療現場と患者に何をもたらすか?物理AIが拓く未来

今回の発表は、医療現場と患者に多大なメリットをもたらす可能性を秘めています。物理AIの進化は、手術の精度向上、医師の負担軽減、そして高度医療の普及に貢献するでしょう。

手術の精度と安全性の向上

GR00T-Hのようなモデルが手術ロボットに高度な自律性をもたらすことで、人間の手では難しい微細な動きや、長時間の集中を要する複雑な手術において、ロボットがより正確かつ安定した操作を行えるようになります。これにより、手術中の合併症リスクが低減し、患者の安全性が向上することが期待されます。

医師の負担軽減と高度医療の普及

自律性の高い手術ロボットは、医師の肉体的・精神的負担を軽減します。特に、熟練した外科医の不足が深刻な地域や、遠隔医療の分野において、AIを搭載したロボットが高度な医療サービスを提供できるようになる可能性も開かれます。Cosmos-H-Surgical-Simulatorのようなツールは、外科医のトレーニングをより効率的かつ安全に行うための強力なプラットフォームとなり、若手医師のスキルアップを加速させるでしょう。

課題と倫理的考察

一方で、物理AIの医療現場への導入には、いくつかの課題も伴います。高額な導入コスト、AIの判断ミスに対する責任の所在、そして医師のスキル維持への影響などが挙げられます。これらの課題に対しては、技術開発と並行して、倫理的・法的枠組みの整備や、医療従事者への適切な教育が不可欠です。

こんな人におすすめ

今回の発表は、医療従事者、医療機器開発者、AI研究者、そして未来の医療に関心のあるすべての人にとって、非常に重要な意味を持ちます。特に、手術ロボットの進化や医療AIの最前線を知りたい方、あるいは自身の研究や開発にオープンデータセットを活用したいと考えている方には、必見の情報となるでしょう。

未来の医療AI:推論能力を持つ自律手術ロボットへ

手術ロボットが複雑なタスクを実行する未来のイメージ動画

Open-H-Embodimentプロジェクトの次の目標は、知覚制御の域を超え、推論能力を持つ自律性へと移行することです。これは、まるで「手術ロボット版ChatGPT」のように、システムが複雑な手順全体にわたって説明し、計画を立て、適応できる能力を持つことを意味します。この目標を達成するためには、Open-H-Embodimentを、意図、結果、失敗モードをキャプチャする注釈付きタスクトレースを含む「推論対応データ」へと拡張する必要があります。

この壮大なビジョンの実現には、さらなるコミュニティの協力が不可欠です。NVIDIAは、Open-H Githubリポジトリへの参加を呼びかけており、ヘルスケアロボティクスの未来を共に形作ることを求めています。今回の発表は、医療AIが新たなフェーズに入ったことを明確に示しており、今後の発展から目が離せません。

情報元:huggingface.co

合わせて読みたい  現代社会の「孤独パンデミック」に挑む!友情アプリが拓く新たな出会いとコミュニティ

カテゴリー

Related Stories