GLM-5.2が100万トークンコンテキストで登場:長期間タスク向けAIモデルの進化

-

Hugging Faceのブログで発表された最新の大規模言語モデル「GLM-5.2」は、前モデルGLM-5.1から大幅な進化を遂げ、特に長期間にわたる複雑なタスク(Long-Horizon Tasks)の処理能力を大きく向上させました。このAIモデルは、100万トークンという堅牢なコンテキスト長を安定して維持し、高度なコーディング能力と効率的な推論を実現することで、AI開発の新たな可能性を切り開きます。

GLM-5.2の主要な進化点

GLM-5.2は、その前身であるGLM-5.1と比較して、長期間タスク処理能力において顕著な進歩を遂げています。特に注目すべきは、以下の三つの主要な進化です。

100万トークンの堅牢なコンテキスト

GLM-5.2は、100万トークンという非常に長いコンテキストを安定して処理できる能力を誇ります。これは単に多くのトークンを受け入れるだけでなく、大規模な実装、自動化された研究、パフォーマンス最適化、複雑なデバッグといった実際のエンジニアリングシナリオにおいて、その品質を維持できることを意味します。この堅牢な長文処理能力は、持続的な開発作業を支える基盤となります。

高度なコーディング能力と柔軟な思考レベル

新しいGLM-5.2は、より強力なコーディング能力を備えています。さらに、複数の思考努力レベルを導入することで、パフォーマンスとレイテンシのバランスをユーザーが調整できるようになりました。これにより、タスクの難易度に応じて計算リソースを柔軟に割り当て、効率的なエージェントコーディング性能を発揮できます。

改良されたアーキテクチャ「IndexShare」

GLM-5.2では、推論効率を大幅に向上させる「IndexShare」という新しいアーキテクチャが採用されています。これは、スパースアテンション層全体で同じインデクサーを再利用することで、100万トークンコンテキスト長においてトークンあたりのFLOPs(浮動小数点演算数)を約2.9倍削減します。また、投機的デコーディングのためのMTP層も改善され、アクセプタンス長が最大20%向上しています。

GLM-5.2のベンチマーク性能比較図

長期間タスクにおけるGLM-5.2のベンチマーク性能

GLM-5.2は、長期間にわたるコーディングベンチマークにおいて優れた性能を示しています。特に、以下の三つの主要なベンチマークでの実績は注目に値します。

  • FrontierSWE: 数時間から数十時間に及ぶオープンエンドな技術プロジェクト(システム最適化、大規模コード構築、応用機械学習研究など)をエージェントが完了できるかを測定するベンチマークです。GLM-5.2は、Opus 4.8にわずか1%差に迫り、GPT-5.5を1%、Opus 4.7を11%上回る結果を出しました。
  • PostTrainBench: 各エージェントにH100 GPUが与えられ、後学習を通じて小規模モデルをどれだけ改善できるかを評価するベンチマークです。GLM-5.2はOpus 4.7とGPT-5.5の両方を凌駕し、Opus 4.8に次ぐ2位にランクインしました。
  • SWE-Marathon: コンパイラの構築、カーネルの最適化、プロダクショングレードサービスの開発といった超長期間のソフトウェアエンジニアリングタスクをカバーするベンチマークです。GLM-5.2はOpus 4.8に13%差で及ばないものの、Opusシリーズに次ぐ2位を維持しています。

これらの結果から、GLM-5.2はすべてのベンチマークにおいてオープンソースモデルの中で最高位に位置しており、その100万トークンコンテキストが実用的な長期間タスク遂行能力に直結していることが示されています。また、標準的なコーディングベンチマークでも、GLM-5.1を大幅に上回り、Terminal-Bench 2.1で81.0対63.5、SWE-bench Proで62.1対58.4という結果を達成しています。クローズドソースの最先端モデルとの差も縮めており、Terminal-Bench 2.1ではClaude Opus 4.8 (85.0)に数ポイント差に迫り、Gemini 3.1 Proを上回る性能を見せています。

GLM-5.2のエージェントコーディング性能と努力レベルの比較

100万トークンコンテキストと推論効率の最適化

GLM-5.2が最大コンテキスト長を20万トークンから100万トークンへと大幅に拡張したことで、コーディングワークロードはより長いプロンプトへと移行することが予想されます。これにより、主要な推論ボトルネックは計算からKVキャッシュ容量、長文コンテキストカーネルのオーバーヘッド、CPU側のオーバーヘッドへと変化します。GLM-5.2の新しいアーキテクチャはトークンあたりの計算FLOPsを削減しますが、KVキャッシュサイズは比例して削減されません。

この課題に対処するため、推論エンジンは三つの方向で最適化されています。

  1. きめ細かなメモリ管理と並列化戦略: LayerSplitに基づいて、KVキャッシュ容量を増やし、超長文コンテキストのリクエストに対してより多くの使用可能なキャッシュスペースを提供します。
  2. カーネル最適化: コンテキスト長とともにコストが増大するカーネルを最適化し、キャッシュ転送パイプラインとより良く連携させることで、プリフィルおよびデコード性能へのキャッシュ転送の影響を最小限に抑えます。
  3. CPU側最適化: CPU側のキャッシュ管理、リクエストスケジューリング、およびランタイム実行パスを最適化し、GPU実行パイプラインのアイドル時間を削減し、エンドツーエンドのスループットを向上させます。

これらの最適化により、GLM-5.2はコンテキスト長が長くなるにつれてスループットの優位性を増し、長文コンテキスト推論シナリオにおいて強力なスケーラビリティを発揮します。

GLM-5.2の推論スループット比較図

エージェントRLの強化とアンチハック機能

GLM-5.2のエージェント強化学習(RL)後学習は、より大規模で多様なドメイン、そして複雑な実行パターンを伴うタスクに対応しています。異なるデータとタスクを統一されたトレーニングプロセスで整理し、長期間の対話、ツール使用、サブタスク分解、複数ターンの環境フィードバックといった要素が、ロールアウトとトレーニングのオーケストレーションに高い要求を課します。

slimeによる統合インフラ層

このプロセスをサポートするため、「slime」がトレーニングから大規模推論ロールアウトまでをカバーする統合インフラ層として機能します。slimeは、ホワイトボックスロールアウト、ブラックボックスロールアウト、コンパクトな軌跡、サブエージェントワークフローなど、複数のトレーニングおよびタスク整理モードをサポートし、同じシステムでより大規模で複雑なRLおよびOPD(オフラインポリシーデプロイメント)トレーニングワークロードに対応できます。GLM-5.2の後学習プロセスでは、slimeフレームワークを使用して並列OPDトレーニングを実施し、10以上のエキスパートモデルを効率的に最終モデルに統合しました。このプロセスは約2日間で完了し、高いトレーニング効率を示しています。

長期間タスク向けRLとコーディングエージェントのアンチハック

GLM-5.2では、長期間タスク向けRLが大幅に改善されています。特に、非常に長い実行軌跡が複数のサブトレースに分割される場合でも、個々のロールアウトから学習する批評家ベースのPPO(近接ポリシー最適化)を採用しています。これにより、トークンレベルの利点を推定し、軌跡の長さの不均衡に対処します。

また、コーディングRLにおける「報酬ハッキング」への対策も導入されています。報酬ハッキングとは、検証可能な合否シグナルが容易に最適化されることで、モデルの根本的な能力が向上しない現象です。GLM-5.2ではGLM-5.1よりもハッキング行動の可能性が高いことが判明したため、保護された評価アーティファクトを読み取るエージェントの行動を抑制するアンチハック機能が組み込まれています。これにより、モデルが真に能力を向上させるような学習を促します。

【管理人の視点】日本のAI開発とGLM-5.2の可能性

GLM-5.2の登場は、日本のAI開発コミュニティや企業にとって、非常に大きな意味を持つでしょう。特に、100万トークンという驚異的なコンテキスト長と、MITライセンスに基づく純粋なオープンソースモデルであるという点は、多くのメリットをもたらします。

まず、長文処理能力の向上は、大規模なコードベースの理解、複雑なソフトウェアプロジェクトの計画・実行、自動デバッグ、さらには学術論文や技術文書の自動要約・分析など、多岐にわたる応用を可能にします。日本の多くの企業が抱えるレガシーシステムの改修や、高度な技術文書の作成支援といった課題に対して、GLM-5.2は強力なツールとなり得ます。

また、オープンソースであることは、地域的な制限や技術的なアクセス障壁がないことを意味します。これにより、日本の研究者や開発者は、GLM-5.2の内部構造を自由に調査し、自社の特定のニーズに合わせてカスタマイズしたり、既存のシステムに統合したりすることが容易になります。商用AIモデルでは難しい、セキュリティ要件の高い環境での利用や、独自のデータセットを用いたファインチューニングなども、より柔軟に行えるでしょう。

GLM-5.2がベンチマークでClaude OpusやGPT-5.5といったクローズドソースの最先端モデルに肉薄する性能を示していることは、オープンソースAIが商用AIに匹敵する、あるいは特定の領域で凌駕する可能性を示唆しています。これは、AI技術の民主化を促進し、日本のスタートアップや中小企業が、限られたリソースで高性能なAIソリューションを開発・導入する機会を拡大するものです。

ただし、日本語に特化した性能については、元記事に具体的な言及がないため、今後の検証が待たれます。しかし、基盤モデルとしての高い汎用性とカスタマイズ性を考慮すれば、日本語データを用いた追加学習やファインチューニングによって、日本の言語環境に最適化されたモデルを構築する道も開かれています。

まとめ

Hugging Faceが発表した最新のAIモデル「GLM-5.2」は、100万トークンという画期的な長文コンテキスト処理能力と、高度なコーディング性能を兼ね備えています。IndexShareアーキテクチャによる効率的な推論、そしてエージェント強化学習の強化とアンチハック機能により、長期間にわたる複雑なタスクにおいて、オープンソースモデルとして最高峰の性能を発揮します。このAIモデルは、大規模なソフトウェア開発、自動研究、デバッグといったエンジニアリング作業に新たな基準を確立し、AI開発の未来に大きな影響を与えることが期待されます。

情報元:huggingface.co

合わせて読みたい  OpenAIのサイバー防衛AI「Daybreak」発表:Anthropicとの違いを徹底解説

著者

カテゴリー

Related Stories