生成AI最前線:1200万トークンLLM『SubQ』と自律研究AI『Aris』を徹底解説

-

近年の生成AI技術の進化は目覚ましく、その応用範囲は日々拡大しています。特に注目を集めているのは、大規模言語モデル(LLM)の長文処理能力の飛躍的な向上と、AIが自律的に研究活動を行う革新的なツールの登場です。今回は、一度に1200万トークンもの情報を処理できる新LLM「SubQ」と、異なるAIモデルが互いに批判し合いながら研究を進めるオープンソースツール「Aris」を中心に、最新の生成AI技術動向を深掘りします。これらの技術が、今後のAI開発と私たちの社会にどのような影響をもたらすのか、その可能性と課題を詳細に解説していきます。

驚異の長文理解を実現する新LLM「SubQ」

AIスタートアップのSubquadraticが発表した大規模言語モデル「SubQ」は、その圧倒的な長文処理能力で注目を集めています。最初のプレビュー版である「SubQ 1M-Preview」は、最大1200万トークンという驚異的な量の情報を一度に処理できると報じられています。この能力は、Pythonの標準ライブラリ全体(約510万トークン)や、Reactリポジトリの過去半年分のプルリクエスト約1050件分(約750万トークン)を一度に読み込み、解析できるレベルに相当します。従来のLLMが抱えていた長文処理の課題を根本から解決する可能性を秘めています。

1200万トークン処理の衝撃と線形アーキテクチャ

従来の多くのLLMは、文章が長くなるにつれて計算量が指数関数的に増加するという構造的な弱点がありました。これは、文章中のすべての単語やトークン間の関係性を計算する必要があるため、文章の長さが10倍になると計算量が約100倍に膨れ上がるという問題を引き起こしていました。この非効率性は、特に大規模なコードベースの解析、長大な法務文書のレビュー、膨大な学術論文の要約といったタスクにおいて、AIの活用を制限する大きな要因となっていました。

しかし、「SubQ」はこの課題に対し、根本的なアーキテクチャの見直しを行いました。同モデルは、文章が長くなっても計算量の増加がその長さに比例する、線形に近いアーキテクチャを採用しています。これにより、長文を処理する際の計算コストを劇的に削減し、これまでのLLMでは現実的でなかった超長文コンテキストの処理を可能にしました。開発者は、もはやトークン数の制限に悩まされることなく、リポジトリ全体や大量のドキュメントを一度にAIに読み込ませて、より高度な分析や生成を行うことができるようになります。

主要LLMを凌駕するベンチマーク結果

「SubQ 1M-Preview」の性能は、複数のベンチマークテストで既存の主要LLMと比較され、その優位性が示されています。

  • RULER(長文からの特定情報検索): 95.0%の精度を記録し、Claude Opus 4.6(94.8%)をわずかに上回りました。これは、膨大な情報の中から必要なデータポイントを正確に抽出する能力が高いことを示しています。
  • MRCR v2(長文中の複数情報関連付け): 65.9%を達成し、Claude Opus 4.7(32.2%)、GPT-5.4(36.6%)、Gemini 3.1 Pro(26.3%)を大きく上回る結果となりました。複数の異なる情報を結びつけ、複雑な推論を行う能力において、SubQが際立った性能を発揮していることが分かります。ただし、Claude Opus 4.6(78.3%)とGPT-5.5(74.0%)には及ばない結果でした。
  • SWE-Bench(プログラミング能力): 81.8%を記録し、Opus 4.6(80.8%)やGemini 3.1 Pro(80.6%)を超えましたが、Opus 4.7(87.6%)には届きませんでした。コードの理解、生成、デバッグといったプログラミングタスクにおいても高い能力を持つことが示されています。

これらの結果は、「SubQ」が単に長文を扱えるだけでなく、その内容を深く理解し、複雑なタスクを高い精度でこなす能力を備えていることを示唆しています。特に、複数の情報を関連付ける能力は、高度な意思決定支援や複雑な問題解決において、AIの新たな可能性を切り開くものとして期待されます。

開発者向け提供形態とコスト効率

Subquadraticは、「SubQ」を以下の3つの形態で提供する予定です。いずれも現在プライベートベータとして利用可能です。

  1. API: 開発者が自身のアプリケーションやサービスに「SubQ」の長文処理能力を組み込むための標準的なインターフェース。
  2. SubQ Code: リポジトリ全体を一つのコンテキストとして丸ごと読み込める、コーディングエージェント。大規模なソフトウェア開発プロジェクトにおいて、コードの分析、リファクタリング、バグ修正などを効率化する可能性があります。
  3. SubQ Search: 長文の中から特定の情報を効率的に検索するためのツール。法務、医療、研究分野など、大量のテキストデータから迅速に情報を引き出す必要がある場面での活用が期待されます。

同社は、これらのサービスを既存の主要LLMと比較して約5分の1程度の料金で提供できる見込みであると発表しており、コストパフォーマンスの高さも大きな魅力となるでしょう。Subquadraticはこれまでに2900万ドルのシード資金を調達しており、今後の開発と市場投入に向けた基盤を固めています。

AIが自律的に研究を進める「Aris」の革新性

機械学習の研究プロセスを自動化するためのオープンソースツール「Aris」(Auto-claude-code-research-in-sleep)は、AIが自律的にアイデア出しから論文執筆、さらには査読への返答までを一気通貫で支援するという、これまでにないアプローチを提案しています。このツールは、研究の効率と質を劇的に向上させる可能性を秘めています。

複数AIによる協調と批判的検証

「Aris」の最大の特長は、異なる役割を持つAIモデルを組み合わせた協調システムにあります。具体的には、実行役として「Claude」のような生成能力に優れたモデルを、評価役として「GPT-5.4」のような厳格なレビュー能力を持つモデルを配置します。単一のAIモデルが自己評価を行う場合、自身の盲点や偏見に気づきにくいという問題が生じがちですが、「Aris」では別のAIが客観的かつ批判的な視点で成果物を検証することで、この問題を克服します。

この「対立的(Adversarial)」なコラボレーションは、研究のアイデアの質を高め、実験設計の欠陥を早期に発見し、最終的な論文の論理的整合性と正確性を保証するために不可欠です。まるで熟練した研究者と厳格な査読者が議論を交わすかのように、AI同士が互いの弱点を補完し合い、より質の高い研究成果へと導きます。

研究プロセスを自動化するワークフロー

「Aris」は、機械学習研究の複雑なプロセス全体を自動化する包括的なワークフローを提供します。その機能は多岐にわたります。

  • アイデアの発見: 既存の文献調査に基づき、新たな研究テーマやアプローチを自動で提案します。
  • 実験コードの実装とデプロイ: 提案されたアイデアに基づき、実験用のコードを生成し、GPU環境へのデプロイまでを自動で行います。
  • AIによる自動レビューとコード改善: 実行された実験結果や生成されたコードを、評価役のAIがレビューし、改善点を指摘。これにより、反復的な改善サイクルが自動で回ります。
  • 論文執筆とPDF生成: 実験結果と分析に基づき、LaTeX形式で論文を自動生成し、PDFとして出力します。
  • 査読への反論作成: 論文が査読された後、指摘事項に対する反論や修正案を自動で作成し、研究者が査読プロセスをスムーズに進める手助けをします。

さらに、「Aris」は過去の実験結果や失敗したアイデアを継続的に蓄積し、それを次の研究ステップに活かす学習機能を備えています。単なる自動化に留まらず、実験データと論文の主張に矛盾や誇張がないかを3段階で監査する仕組みも導入されており、研究の信頼性と透明性を高める工夫が凝らされています。

ロボットの実用化を加速する「MolmoAct2」

汎用ロボットの開発は急速に進んでいますが、現実世界での実用化には依然として多くの課題が存在します。そうした中、オープンソースのロボット制御用AIモデル「MolmoAct2」は、物理環境での推論に特化することで、このギャップを埋めることを目指しています。

現実世界に特化した視覚言語モデル

「MolmoAct2」は、物理環境での推論に特化した視覚言語モデル「Molmo 2-ER」を基盤としています。このモデルは、空間認識などの各種ベンチマークにおいて、Googleの「Gemini Robotics ER-1.5」や、未発表ながら高性能が期待される「GPT-5」といった最先端モデルを上回る成果を報告しています。これは、ロボットが単に物体を認識するだけでなく、その位置関係、物理的な特性、そしてそれらが環境内でどのように相互作用するかを深く理解する能力に優れていることを示しています。

現実世界は予測不可能な要素に満ちており、ロボットが多様な環境に適応し、安全かつ効率的に作業を行うためには、高度な空間認識能力と状況判断能力が不可欠です。「MolmoAct2」は、この点において大きな進歩を遂げており、ロボットの自律性を高める重要な一歩となります。

複雑な作業を可能にする学習データと効率化技術

「MolmoAct2」の高性能は、720時間以上にも及ぶ双腕ロボット用データセット「MolmoAct 2-Bimanual YAM」で学習されたことに起因します。この膨大なデータセットには、衣類を畳むといった複雑な両手作業を含む多様なタスクが含まれており、ロボットが繊細かつ協調的な動作を学習することを可能にしました。これにより、産業用途だけでなく、家庭内での支援など、より複雑な日常タスクへの応用が期待されます。

さらに、計算の遅延を抑えつつ高い精度を維持するために、状況が変化した部分の奥行き情報だけを適応的に再計算するモデル「MolmoAct 2-Think」も開発されています。ロボットがリアルタイムで環境の変化に対応し、迅速かつ正確な動作を継続するためには、このような効率的な情報処理技術が不可欠です。これにより、ロボットは動的な環境下でも安定した性能を発揮できるようになります。

実機での高い成功率

「MolmoAct2」は、実機でのゼロショット評価(事前に学習していないタスクに対する評価)において、その実用性の高さを示しました。リンゴを皿に乗せる、ピペットをトレイに入れるといった多様なタスクで平均87.1%という高い成功率を達成し、競合モデルであるπ0.5の45.2%を大きく上回りました。この結果は、「MolmoAct2」が実験室レベルの性能に留まらず、実際の物理環境においても信頼性の高い動作を実現できることを証明しています。

このような高い実用性は、製造業における精密な組み立て作業、物流倉庫での複雑なピッキング、医療現場での補助作業など、多岐にわたる分野でのロボット導入を加速させるでしょう。MolmoAct2は、汎用ロボットが私たちの日常生活や産業現場に溶け込む未来を、より現実的なものにしています。

AMD製AIアクセラレーターで学習された小型高性能AI「ZAYA1-8B」

米Zyphraから発表された「ZAYA1-8B」は、軽量でありながら高い推論能力を持つMoE(Mixture of Experts)モデルです。特筆すべきは、事前学習からファインチューニングまでの全工程がAMD Instinct MI300環境上で実施された点であり、AMDのAIアクセラレーターの性能を実証する事例としても注目されます。

軽量MoEモデルの効率性

「ZAYA1-8B」は、全体で80億のパラメータを持つモデルですが、推論時に実際に稼働するパラメータ数はわずか7億という効率的な設計が特徴です。MoEアーキテクチャは、特定のタスクに対して最適な「エキスパート」(専門家)を動的に選択することで、限られた計算リソースで大規模モデルに匹敵する性能を発揮することを可能にします。この効率性により、ZAYA1-8Bは数学やプログラミングといった複雑なタスクにおいて、数十倍のサイズを持つ巨大モデルに肉薄する性能を実現しています。

このような小型で高性能なAIモデルは、エッジデバイスや限られた計算リソースしか持たない環境でのAI活用を大きく広げる可能性を秘めています。スマートフォン、IoTデバイス、組み込みシステムなど、クラウド接続が困難な場所やリアルタイム処理が求められる場面でのAI導入が、より現実的なものとなるでしょう。

独自技術「Markovian RSA」による性能向上

「ZAYA1-8B」の性能向上を支えているのが、「Markovian RSA」と呼ばれるZyphra独自の技術です。この手法は、モデルが複数の思考プロセスを並行して生成し、それらを効率的に集約しながら正答を導き出すというものです。従来のAIモデルが単一の思考パスを辿ることが多かったのに対し、Markovian RSAは複数の視点から問題を検討し、最適な解を導き出すことで、より複雑で難解な問題にも対応できるようになります。

この技術を活用することで、「ZAYA1-8B」は難関数学コンテストのベンチマークにおいて、Googleの「Gemini-2.5 Pro」やDeepSeekの「DeepSeek-V3.2」、さらには「GPT-5-High」といった大規模な最先端モデルに肉薄する驚異的なスコアを記録しました。これは、小規模モデルでも適切なアーキテクチャと学習手法を組み合わせることで、巨大モデルに匹敵する知的能力を獲得できることを示しており、AI開発における新たな方向性を示唆しています。

生成AIクローズアップ:「Sulphur 2」の登場

生成AI技術の進化は、テキストや画像だけでなく、動画生成の分野にも大きな影響を与えています。2026年5月にHugging Face上で公開された「Sulphur 2」は、無検閲(Uncensored)オープンソース動画生成モデルとして注目を集めています。このモデルは、ユーザーの創造性を制限することなく、多様なコンテンツの動画生成を可能にすると報じられています。オープンソースであるため、研究者や開発者が自由にアクセスし、改良や応用を進めることができる点も特筆すべきです。

最新生成AI技術がもたらす未来への影響

今回紹介した「SubQ」「Aris」「MolmoAct2」「ZAYA1-8B」といった最新の生成AI技術は、それぞれ異なる側面からAIの可能性を広げ、未来の社会に多大な影響を与えることが予想されます。

専門分野におけるAI活用の深化

「SubQ」の長文処理能力は、特に専門性の高い分野でのAI活用を劇的に深化させるでしょう。例えば、法律事務所では数百万ページに及ぶ判例や契約書をAIが一瞬で分析し、関連情報を抽出することが可能になります。製薬会社では、膨大な数の研究論文や特許情報を解析し、新薬開発のヒントを効率的に見つけ出すことができるかもしれません。ソフトウェア開発においては、巨大なコードベース全体をAIが理解し、脆弱性の特定やリファクタリングの提案を自動で行うことで、開発効率と品質が飛躍的に向上する可能性があります。

科学研究の加速と新たな発見の創出

「Aris」のようなAIによる自律研究ツールは、科学研究のプロセスそのものを変革する可能性を秘めています。AIがアイデア出しから実験、論文執筆までを一貫して行うことで、研究者は反復的な作業から解放され、より創造的で高レベルな思考に集中できるようになります。異なるAIモデルが互いに批判し合うことで、人間の研究者が陥りがちなバイアスを排除し、より客観的で質の高い研究成果を生み出すことが期待されます。これにより、新素材の開発、病気のメカニズム解明、宇宙の謎の探求など、これまで想像もできなかったような新たな発見が加速するかもしれません。

ロボットと人間の協調の進化

「MolmoAct2」のような現実世界に特化したロボット制御AIは、産業現場だけでなく、私たちの日常生活にもロボットがより深く浸透する道を開きます。製造業では、より複雑で精密な作業をロボットが自律的に行い、生産効率と品質を向上させるでしょう。介護や医療の現場では、高齢者や患者の日常生活を支援するロボットが、より自然で人間らしいインタラクションを実現するようになるかもしれません。災害救助や危険な作業環境においても、ロボットが人間の代わりにリスクを負い、より多くの命を救うことが可能になります。人間とロボットが協調し、互いの強みを活かし合う社会の実現が近づいています。

AIの普及と民主化

「ZAYA1-8B」のような小型で高性能なAIモデルは、AI技術の普及と民主化を大きく推進します。限られた計算リソースしか持たないエッジデバイス上でも高度なAI処理が可能になることで、AIはクラウド環境に依存することなく、より多くの場所で、より多くの人々に利用されるようになるでしょう。これにより、AI技術の恩恵が一部の大企業や研究機関だけでなく、中小企業や個人開発者、さらには発展途上国のユーザーにも広く行き渡る可能性があります。AIのコストパフォーマンスが向上することで、新たなビジネスモデルやサービスが生まれ、社会全体のイノベーションが加速することが期待されます。

まとめ

今回取り上げた「SubQ」の長文処理能力、「Aris」の自律研究、「MolmoAct2」の現実世界対応、「ZAYA1-8B」の小型高性能化といった生成AI技術の進展は、それぞれがAIの新たな地平を切り開くものです。これらの技術は、個別に進化するだけでなく、相互に連携し、補完し合うことで、AIが解決できる問題の範囲を飛躍的に拡大させ、私たちの生活、産業、そして科学研究のあり方を根本から変える可能性を秘めています。

生成AIの進化は、単なる技術的な進歩に留まらず、倫理的、社会的、経済的な側面にも大きな影響を及ぼします。これらの技術がもたらす恩恵を最大限に引き出しつつ、潜在的なリスクを適切に管理していくことが、今後のAI開発における重要な課題となるでしょう。テクノロジーの最前線で何が起きているのかを理解し、その影響を考察し続けることが、私たちにとって不可欠です。

情報元:テクノエッジ TechnoEdge

合わせて読みたい  AIエージェントを狙う「プロンプトインジェクション攻撃」が急増中!Googleが警告する新たなサイバー脅威

著者

カテゴリー

Related Stories