わずか165ドルで25種のmRNA言語モデルを構築!OpenMedが明かす驚異のタンパク質AIパイプライン

-

わずか165ドルという驚異的なコストで、25種もの生物種に対応するmRNA言語モデルを構築したというニュースが、バイオテクノロジー界に衝撃を与えています。OpenMedが開発したこの画期的なAIパイプラインは、タンパク質の構造予測から配列設計、そして最終的なコドン最適化までを一貫して行い、治療用タンパク質やワクチンの開発プロセスを劇的に加速させる可能性を秘めています。

この技術は、新薬開発の期間短縮やコスト削減に直結し、個別化医療の実現にも大きく貢献すると期待されています。本記事では、OpenMedがどのようにしてこの偉業を達成したのか、その詳細な技術的アプローチと、それがもたらす未来について深掘りします。

OpenMedが構築した革新的なタンパク質AIパイプライン

OpenMedが目指したのは、治療用タンパク質のコンセプトから、実際に細胞内で効率よく発現するコドン最適化されたDNA配列を生成するまでの全工程を、AIによって自動化するエンドツーエンドのパイプラインです。このパイプラインは、タンパク質工学における以下の3つの主要な段階を網羅しています。

  1. 構造予測(Protein Folding): タンパク質がどのような3D構造をとるかを予測します。
  2. 配列設計(Sequence Design): 特定の3D構造を形成するアミノ酸配列を設計します。
  3. mRNA最適化(mRNA Optimization): 設計されたアミノ酸配列を、目的の生物種で最も効率よく発現させるDNAコドン配列に最適化します。

構造予測にはMetaのESMFold、配列設計にはBaker LabのProteinMPNNといった既存の強力なツールを活用しつつ、最も注力されたのが「mRNA最適化」の部分です。OpenMedは、このコドン最適化のために独自の新しいモデルとトレーニングインフラを開発しました。

OpenMedのタンパク質AIパイプラインの概要図

コドン最適化の重要性とモデルアーキテクチャの探求

タンパク質はアミノ酸の鎖であり、そのアミノ酸はDNAの3つの塩基(コドン)によってコードされます。しかし、遺伝子コードには「縮重性」があり、多くのアミノ酸は複数の異なるコドンによって指定されます。例えば、ロイシンは6種類のコドンでコードされます。このため、同じアミノ酸配列を持つタンパク質でも、それをコードするDNA配列は天文学的な数の組み合わせが存在します。

このコドンの選択が、細胞内でのタンパク質発現効率に大きく影響します。特定の生物種では、特定のコドンが他のコドンよりもはるかに効率よく利用される傾向があり、これを「コドン使用頻度の偏り」と呼びます。例えば、ファイザー・BioNTechのCOVID-19ワクチンは、ヒト細胞での発現効率を最大化するためにコドン最適化が施されました。この最適化によって、タンパク質の発現効率が100倍も向上するケースも珍しくありません。

OpenMedは、このコドン最適化をより正確に行うための言語モデルを開発するため、様々なトランスフォーマーアーキテクチャを比較検討しました。候補となったのは、BERTの派生モデルである「ModernBERT」と、MetaのESMタンパク質言語モデルの基盤となっている「RoBERTa」の派生モデルです。

コドン配列は、自然言語やアミノ酸配列とは異なる統計的特性を持ちます。64種類のコドンという小さなアルファベットからなる3塩基の単位であり、強い位置依存性と生物種特異的な使用バイアスが存在します。この特性に最適なアーキテクチャを見つけることが、OpenMedの主要な課題でした。

ESMFoldのアーキテクチャ図

CodonRoBERTaの驚異的な性能と学習の教訓

OpenMedの広範な実験の結果、RoBERTaベースのモデルがModernBERTを圧倒的に凌駕することが明らかになりました。特に「CodonRoBERTa-large-v2」は、パープレキシティ(モデルの予測能力を示す指標)で4.10、コドン適応指数(CAI)相関で0.40という優れた結果を叩き出し、他のモデルを大きく引き離しました。

この結果は、ModernBERTが持つ最新の効率的なアーキテクチャやRoPE埋め込み、Flash Attentionといった技術革新にもかかわらず、古典的なRoBERTa設計がコドン配列のモデリングにおいて根本的に優れていることを示しています。この背景には、いくつかの重要な教訓があります。

1. NLP事前学習済み重みは生物学に転用できない

ModernBERTは、英語のテキストで事前学習されたチェックポイントから初期化されました。OpenMedは、これにより学習された注意パターンがコドン配列の学習に役立つと期待しましたが、結果は逆でした。英語テキストで培われた誘導バイアス(サブワード頻度分布、位置的注意パターンなど)が、コドン統計の学習を妨げたと考えられます。一方、RoBERTaはランダムに初期化され、純粋に生物学的データのみで学習されたため、このような「荷物」を持たず、より効率的にコドンパターンを学習できました。これは、ESM-2やProtTransといった他の主要な生物学的言語モデルが、NLPのチェックポイントからファインチューニングするのではなく、生物学的データからゼロから学習しているという業界の傾向とも一致します。

2. ハイパーパラメータチューニングが生物学的関連性を解き放つ

最も驚くべき発見の一つは、ハイパーパラメータの微調整がモデルの生物学的関連性に劇的な影響を与えたことです。CodonRoBERTa-largeのv1とv2は、同じアーキテクチャ、同じデータ、同じパラメータ数にもかかわらず、学習率を半分にし、ウォームアップ期間を長くする(1,000ステップから2,000ステップへ)というわずかな変更だけで、CAI相関が0.025から0.404へと16倍も向上しました。パープレキシティ自体はわずかに悪化しましたが、生物学的に意味のあるコドンを予測する能力は飛躍的に向上したのです。

このことは、MLM(Masked Language Modeling)損失だけでは生物学的関連性を完全に測ることはできず、コドン適応指数(CAI)相関のようなドメイン固有の指標が、真に有用なモデルを開発する上で不可欠であることを示しています。

3. ベースモデルの驚くべき効率性

CodonRoBERTa-base(92Mパラメータ)は、大規模モデル(312Mパラメータ)とほぼ同等のパープレキシティ(4.01対4.10)を達成しつつ、パラメータ数は3.4分の1、トレーニング時間も比例して短縮されました。CAI相関は大規模モデルのv2には及ばないものの、ベースラインやModernBERTを大きく上回っています。これは、マルチGPUクラスターにアクセスできない研究チームにとって、コストを抑えつつ高いコドンモデリング性能を得るための実用的な選択肢となることを意味します。

CodonRoBERTaの性能比較表

25種へのスケーリングとユニバーサルモデルの可能性

OpenMedのプロジェクトのもう一つの画期的な成果は、開発したコドン最適化モデルを25種もの生物種にスケーリングしたことです。これは、データエンジニアリングの課題とトークン化の革新によって実現されました。

彼らは、各コドンを単一のトークンとして扱う最小限のトークナイザーを開発しました。これにより、自然言語処理で用いられるBPE(Byte Pair Encoding)トークナイザーのように統計的にサブワード境界を学習するのではなく、コドン境界という生物学的に定義された単位を尊重しています。このアプローチにより、コドン使用頻度の偏りや種特異的なパターンを効率的に学習することが可能になりました。

OpenMedは、まずユニバーサルなベースモデルを訓練し、その後、各生物種に特化したファインチューニングを行うことで、わずか55GPU時間で4つの本番モデルを構築しました。この「種条件付きシステム」は、他のオープンソースプロジェクトでは類を見ないものであり、様々な生物種におけるタンパク質発現の最適化を可能にします。

この技術がもたらす未来:治療薬開発の加速とコスト削減

OpenMedが開発したmRNA言語モデルとAIパイプラインは、バイオテクノロジーと医療分野に計り知れない影響を与える可能性を秘めています。この技術は、特に以下のようなメリットをユーザーにもたらします。

  • 新薬開発期間の劇的な短縮: 治療用タンパク質のコンセプトから、実際に機能するDNA配列の設計までを数日で完了できるようになり、従来の数ヶ月から数年かかるプロセスを大幅に短縮します。
  • 開発コストの削減: 実験室での試行錯誤を減らし、計算による最適化を推進することで、研究開発にかかる費用を大幅に削減できます。
  • 個別化医療の推進: 患者個々の遺伝的背景や病態に合わせて、最適なタンパク質やmRNA治療薬を迅速に設計・最適化する道を開きます。
  • mRNAワクチンの迅速な開発: 新たな病原体が出現した際に、その抗原タンパク質を効率よく発現させるmRNAワクチンを迅速に設計し、パンデミックへの対応力を高めます。

この技術は、製薬企業の研究者、バイオテックスタートアップのエンジニア、遺伝子治療の研究者、そして基礎生物学の研究者にとって、強力なツールとなるでしょう。特に、mRNA医薬品開発の効率化や、組換えタンパク質の生産性向上を目指す企業にとって、CodonRoBERTaのようなコドン最適化AIの活用は不可欠な要素となり得ます。

まとめ

OpenMedがわずか165ドルという低コストで25種の生物種に対応するmRNA言語モデルを構築したことは、タンパク質AI分野における大きな進歩です。彼らのエンドツーエンドのパイプラインは、タンパク質構造予測、配列設計、そして特にコドン最適化において、既存の課題を克服する画期的なアプローチを示しました。CodonRoBERTaの優れた性能と、ハイパーパラメータチューニングが生物学的関連性に与える影響に関する知見は、今後の生物学的言語モデル開発における重要な指針となるでしょう。

OpenMedは現在、CodonJEPAの開発を進めるなど、さらなる進化を目指しています。この技術が、新薬開発の加速、医療コストの削減、そして個別化医療の実現にどのように貢献していくのか、今後の動向に注目が集まります。

情報元:huggingface.co

合わせて読みたい  最新研究で判明!大西洋子午面循環(AMOC)崩壊リスクが「これまで以上に高い」壊滅的影響を徹底解説

カテゴリー

Related Stories