AIブラウザのセキュリティ、永遠の課題?
OpenAIは、同社のAIブラウザ「ChatGPT Atlas」をサイバー攻撃から保護するための努力を続けていますが、プロンプトインジェクション攻撃、つまりウェブページやメールに隠された悪意のある指示でAIエージェントを操作する攻撃は、今後もリスクとして残り続けると認めています。これは、AIエージェントがオープンウェブ上でどれだけ安全に動作できるかという疑問を投げかけています。
「プロンプトインジェクションは、ウェブ上の詐欺やソーシャルエンジニアリングと同様に、完全に『解決』されることはないでしょう」とOpenAIはブログ記事で述べています。同社は、Atlasの防御を強化する方法について説明し、「エージェントモード」がセキュリティ上の脅威を拡大させる可能性があることを認めています。
ChatGPT Atlasは昨年10月にリリースされましたが、リリース直後からセキュリティ研究者たちは、Googleドキュメントに数行のテキストを書き込むだけで、ブラウザの動作を変更できることをデモで示していました。この問題は、BraveブラウザもAI搭載ブラウザにとって体系的な課題であると指摘しており、PerplexityのCometなどもその対象となっています。
プロンプトインジェクション、なくならない脅威
OpenAIだけでなく、イギリスの国家サイバーセキュリティセンターも、生成AIアプリケーションに対するプロンプトインジェクション攻撃は「決して完全に緩和されることはないかもしれない」と警告しており、ウェブサイトがデータ侵害の被害に遭うリスクがあると注意を促しています。同センターは、攻撃を「阻止する」と考えるのではなく、リスクと影響を軽減するようサイバー担当者にアドバイスしています。
OpenAI自身も、「プロンプトインジェクションは長期的なAIセキュリティの課題と捉えており、継続的に防御を強化していく必要がある」と述べています。
この終わりのない戦いに、同社はどのように立ち向かっているのでしょうか?それは、社内で新しい攻撃戦略を発見し、それが「実世界」で悪用される前に迅速に対応する、という「プロアクティブで迅速な対応サイクル」です。
これは、AnthropicやGoogleといった競合他社が述べていることと、それほど変わりません。プロンプトベースの攻撃という永続的なリスクに対抗するには、防御策を多層化し、継続的にテストする必要があるとのことです。例えば、Googleの最近の取り組みでは、エージェントシステムのためのアーキテクチャとポリシーレベルの制御に重点が置かれています。
OpenAI独自の「AI攻撃者」
しかし、OpenAIが独自のアプローチとして採用しているのが、「LLMベースの自動攻撃者」です。これは、OpenAIが強化学習を用いてトレーニングしたボットで、AIエージェントに悪意のある指示を送り込もうとするハッカーの役割を担います。
このボットは、シミュレーションで攻撃をテストしてから実際に応用することができ、シミュレーターはターゲットAIがどのように考え、攻撃に遭遇した場合にどのような行動をとるかを示します。ボットは、その応答を研究し、攻撃を調整して、何度も試すことができます。ターゲットAIの内部的な推論へのこのような洞察は、外部からはアクセスできないため、理論上はOpenAIのボットは、現実世界の攻撃者よりも早く脆弱性を発見できるはずです。
AIの安全性テストでは、エッジケースを発見し、シミュレーションで迅速にテストするためにエージェントを構築するという、一般的な戦術です。
OpenAIは、「我々の(強化学習でトレーニングされた)攻撃者は、エージェントを、数十(あるいは数百)ステップにわたる複雑で長期間の有害なワークフローを実行するように誘導できる」と述べています。「人間のレッドチーミングキャンペーンや外部レポートには現れなかった、新しい攻撃戦略も確認されました。」
デモでは、自動攻撃者がユーザーの受信トレイに悪意のあるメールを忍び込ませる方法が示されました。AIエージェントが後で受信トレイをスキャンした際、メールに隠された指示に従い、不在通知を作成する代わりに辞任メッセージを送信してしまいました。しかし、セキュリティアップデートの後、会社によると「エージェントモード」はプロンプトインジェクションの試みを検出し、ユーザーにフラグを立てることができたとのことです。
OpenAIは、プロンプトインジェクションを完全に防ぐことは難しいとしつつも、大規模なテストと迅速なパッチサイクルに頼って、現実世界での攻撃が発生する前にシステムを強化していると述べています。
OpenAIの担当者は、Atlasのセキュリティアップデートが、成功したインジェクションの測定可能な削減につながったかどうかについて共有を拒否しましたが、同社は公開前から第三者と協力してAtlasをプロンプトインジェクションに対して強化してきたと述べています。
リスクと利便性のバランス
サイバーセキュリティ企業Wizの主任セキュリティ研究者であるラミ・マッカーシー氏は、強化学習が攻撃者の行動に継続的に適応するための1つの方法であるとしつつも、それは全体像の一部に過ぎないと指摘しています。
「AIシステムのリスクを理解する上で役立つのは、自律性とアクセスの掛け算です」とマッカーシー氏はTechCrunchに語りました。
「エージェント型ブラウザは、そのスペースの難しい部分、つまり中程度の自律性と非常に高いアクセスを兼ね備えています」とマッカーシー氏は述べています。「多くの現在の推奨事項は、そのトレードオフを反映しています。ログインアクセスを制限することは、主に露出を減らし、確認要求のレビューを要求することは、自律性を制限します。」
これらは、ユーザーが自身のリスクを軽減するためにOpenAIが推奨する2つの方法です。また、Atlasはメッセージを送信したり支払いを行ったりする前に、ユーザーに確認を求めるようにトレーニングされていると担当者は述べています。OpenAIはまた、ユーザーに、受信トレイへのアクセスを提供して「必要なあらゆるアクションを実行する」ように指示するのではなく、エージェントに具体的な指示を与えることを推奨しています。
「広範な裁量権は、セーフガードが配置されていても、隠された、あるいは悪意のあるコンテンツがエージェントに影響を与えやすくします」とOpenAIは述べています。
OpenAIはAtlasユーザーをプロンプトインジェクションから保護することを最優先事項としていますが、マッカーシー氏はリスクの高いブラウザへの投資対効果について懐疑的な見方を示しています。
「ほとんどの日常的なユースケースでは、エージェント型ブラウザは、現在のリスクプロファイルを正当化するほどの価値をまだ提供していません」とマッカーシー氏はTechCrunchに語りました。「電子メールや支払い情報などの機密データへのアクセスがあるため、リスクは高いですが、そのアクセスが強力さの源でもあります。このバランスは進化するでしょうが、今日のトレードオフは依然として非常に現実的です。」

