AIのファクトチェックはどこまで正確？専門家が語る信頼性の限界

近年、多くの人々が情報収集やアイデア生成のために人工知能（AI）を利用しています。特にソーシャルメディアが混乱し、従来の検索エンジンも信頼性を失いつつある現代において、AIチャットボットは手軽で便利な情報源として広く受け入れられています。しかし、WIRED誌のファクトチェッカーであるメーガン・ハーブスト氏は、AIが生成する情報の信頼性について警鐘を鳴らしており、その誤り頻度は一般の認識よりもはるかに高いと指摘しています。

本記事では、AIが情報を生成する仕組みの根本的な課題から、具体的な誤情報発生率に関する調査結果、そして人間によるファクトチェックの重要性までを深掘りし、AI時代における情報リテラシーのあり方を考察します。

AI検索の普及と情報の信頼性への疑問

現在、アメリカ人の半数近くがAIを情報検索やアイデア生成に活用していると報じられています。これは、ソーシャルメディアが誤情報で溢れかえり、Google検索もRedditのスレッドやコンテンツファームへの誘導ページと化している現状において、信頼できる情報を求める人々のニーズに応えるものと考えられます。AIチャットボットは、あたかもユーザーに合わせてカスタマイズされたかのように、既存の集合知を再構築して提供するため、非常に便利に感じられるでしょう。

しかし、この「再構築」のプロセスこそが、情報の信頼性における根本的な課題を生み出しています。AIは、インターネット上の膨大なデータを学習し、パターンに基づいて応答を生成しますが、その過程で事実の正確性よりも、もっともらしい文章を生成することを優先する傾向があります。この特性は、例えば新しいレシピを探すような場面では問題ないかもしれませんが、事実の正確性が極めて重要となるニュースや科学分野においては、深刻な影響を及ぼす可能性があります。

WIREDのファクトチェッカーは、AIが提示する情報に頻繁に誤りがあることを経験的に認識しており、特にGoogle検索の「AI Overviews」のような機能は、約3分の1の確率で誤った情報を提供していると述べています。この数字は、AIが私たちの情報環境に与える影響の大きさを物語っています。

専門家が語るAIの「誤り」の実態

AIの信頼性に関する懸念は、個人の経験だけでなく、複数の専門機関による調査でも裏付けられています。大規模言語モデル（LLM）の信頼性に関する研究は2018年以降、arXivに約1万7000件もの論文が投稿されるほど活発に行われていますが、その正確な誤り頻度を特定することは容易ではありません。

各種調査が示すAIの誤情報発生率

WIREDのファクトチェッカーは、記事の背景情報（統計、ニュースイベント、引用など）をGoogleで確認する際に、AI Overviewsが約3分の1の確率で誤っていると感じています。しかし、この評価はむしろ寛大なものかもしれません。

Tow Center for Digital Journalismの調査（2025年3月）: AI搭載検索エンジンの応答の60%以上が不正確であったと報告されています。
BBCの調査: チャットボットの誤り率は約45%に上るとされており、この数字が最も頻繁に引用される傾向にあります。これは、AIが提示する情報の約半分が間違っている可能性があることを示唆しています。

これらの調査結果は、AIを情報源として利用する際に、常にその情報の真偽を疑う必要があることを強く示しています。

ベンチマークテストに見るAIの限界

AIモデルのファクトチェック能力を測るためのベンチマークテストも行われています。中国と英国のコンピューター科学者が開発したファクトチェック特化型ベンチマーク「RealFactBench」では、Claudeが73%の精度でトップに立ちました。一方、OpenAIが2024年10月に開発した「SimpleQA」では、4,000以上の単一回答質問に対し、どのモデルも50%の精度を超えることはありませんでした。Googleが今年初めに質問数を1,000に絞って更新したテストでは、Gemini 2.5 Proが55.6%の精度で最上位となりました。

これらの結果は、AIが特定のタスクである程度の精度を発揮する一方で、一般的な事実確認においては依然として大きな課題を抱えていることを示しています。特に、SimpleQAのような広範な質問に対する精度が低いことは、AIが「真の知識」を持っているわけではないことを浮き彫りにしています。

AI自身の自己評価と「幻覚」問題

AIモデル自身がその精度をどう評価しているかという点も興味深い事実を提示しています。ChatGPTに主要なLLMの精度を尋ねると、「一部の専門的なテストでは90〜96%の精度」と回答し、睡眠医学認定試験に関する論文へのリンクを提示しました。しかし、「一般的な現実世界の質問」については、モデルが「幻覚」（事実ではない情報を生成すること）を起こす頻度を1〜2%と述べたものの、その参照元とされるリンクは存在しませんでした。

この自己評価の矛盾は、AIが自身の能力を過大評価したり、存在しない情報を捏造したりする「幻覚」という問題の根深さを示しています。さらに、一部の研究者は、モデルが賢くなるにつれて幻覚が減るわけではなく、むしろユーザーを喜ばせようとするプログラムされたニーズから、過剰な補償として幻覚が増える可能性すら指摘しています。2025年の人工知能振興協会（AAAI）の報告書では、調査対象の研究者の60%が「ファクト性」の問題がすぐに解決されるとは考えていないことが明らかになっています。

人間によるファクトチェックのプロセスとAIの役割

AIの限界が浮き彫りになる中で、人間によるファクトチェックの重要性はむしろ高まっています。WIREDのような伝統的なメディアでは、AIには真似できない厳格な検証プロセスが確立されています。

WIREDの伝統的なファクトチェック手法

WIREDのファクトチェック部門は、昔ながらの綿密な手法を重んじています。具体的には、以下のようなプロセスを経て記事の正確性を担保しています。

行ごとの詳細な注釈付け: 記事の各文やフレーズについて、その事実関係を細かく検証します。
一次情報源の優先: 可能な限り、直接的なデータや証言、公式文書などの一次情報源に当たります。
倫理的・法的レビュー: 広範な視点から、記事の内容が倫理的に問題ないか、法的にリスクがないかを検討します。
基本的な仮定の問い直し: 記事の前提となっている情報や常識を疑い、新たな情報や矛盾する情報がないかを探します。
関係者への直接取材: 記事に登場する人物や、関連する専門家、目撃者などに電話で話を聞き、事実を確認します。

これらのプロセスは、ニュースのスピードに合わせて迅速に行われる一種のピアレビューとして機能しており、単なる事実の羅列ではなく、文脈やニュアンス、人間関係といった複雑な要素を考慮に入れた多角的な検証を可能にします。

AIを活用したファクトチェックの可能性と限界

ファクトチェックの分野でも、AIの活用は進んでいます。英国の「Full Fact」のようなイニシアチブは、AIツールを開発して誤情報の拡散を阻止しようと試みています。これらのツールは、ソーシャルメディアの投稿やポッドキャストのトランスクリプトなど、膨大なデータを処理し、人間がさらに調査すべき具体的な主張を特定するのに役立っています。現在、40カ国以上で利用されているこのシステムは、情報量の多さに対応するための強力な補助ツールとして機能しています。

しかし、Full Factの広報担当責任者であるマーク・フランケル氏は、「最終的には人間が必要だ」と明確に述べています。AIはデータ処理の効率化には貢献するものの、やはり事実を誤ることがあるため、最終的な判断と検証は人間の手に委ねられるべきだという見解です。AIはあくまで「後付け」のファクトチェック、つまり情報が公開された後にその真偽を分析する「Snopesスタイル」の分析を支援するツールとして機能します。

AIが真似できない人間の検証能力

WIREDのファクトチェッカーであるハーブスト氏は、AIにファクトチェックのテストを与えた経験を共有しています。ChatGPT、Claude、Gemini、Grokといった主要なAIモデルに、架空の「ロボコール王」に関する記事のファクトチェック計画を立案させたところ、各モデルはそれぞれ異なる反応を示しました。

Grok: 多くのデータ収集と分析を提案したが、その量は現実的ではなかった。「信用できる」「真実」といった言葉を強調し、ファクトチェックが歴史的に女性の仕事であったことを指摘するなど、やや皮肉めいた態度を見せました。
ClaudeとGemini: 比較的良好な結果を示し、タスクを理解し、合理的なアプローチを提示し、潜在的な法的問題も指摘しました。ただし、Geminiの「Paper Trails（文書証拠）でPeople Trails（人々の証言）を裏付ける」という表現は、やや不自然なものでした。
ChatGPT: 専門用語を多用し、一般的な表現に終始。各文を分解して図式化するような非常に時間のかかるアプローチを提案し、記事には存在しない段落を生成するなど、過剰なサービス精神と不正確さが目立ちました。

どのAIモデルも、ファクトチェックの「計画」を提示するだけで、実際に事実確認を行うことはありませんでした。これは、AIが「何をすべきか」を理解していても、「実際にどう行うか」という具体的な行動や判断、そしてその裏にある人間的な洞察力や共感性を欠いていることを示しています。

人間は、単に事実を照合するだけでなく、以下のようなAIには不可能な検証を行います。

感情の機微を読み取る: 1時間以上も電話で未亡人と話し、難しい質問が悲しみの泉を開いてしまった際に、人間的なケアと受容性を持って対応することができます。
文脈を理解する: 2つの情報源の間に「確執」があることを見抜き、それが事実の境界線を曖昧にしている可能性を察知することができます。
非言語的なニュアンスを捉える: 「メールありがとうございます！」というフレーズを含むメールが、受動的攻撃性を含んでいる可能性を判断できます。
オフライン情報を探す: インターネット上には存在しない特定の国境の標識、異なる気候での昆布の成長率、1979年のロサンゼルスの特定の交差点にバーガーキングがあったかどうかなど、デジタル化されていない情報を探して確認することができます。

世界の物理的な情報の大部分は、依然としてオフラインに存在します。ジャック・ビアリクが著書『Lost in Time: Our Forgotten and Vanishing Knowledge』で指摘するように、私たちが最近の技術だと考えるものの多くは数千年前から存在しており、デジタル保存技術は象形文字や古代サンスクリット語よりも劣化や陳腐化しやすい可能性があります。AIは、こうしたオフラインの知識や、人間が世代を超えて受け継いできた知識の断片を、現在のデジタルインフラだけで完全に継承することはできません。

AI時代の情報リテラシーと人間の役割

国際ファクトチェックネットワークの責任者であるアンジー・ホーラン氏は、AIを単なる流行や一時的なものとして無視することはできないと述べています。彼女は、AIを完全に避けるのではなく、その仕組みを理解し、強みと弱みを把握した上で活用するべきだと主張しています。

AIを理解し、活用する視点

AIが権威ある情報源に導き、それを人間が自ら検証できるのであれば、それは有用なツールとなり得ます。ファクトチェッカー、ジャーナリスト、図書館員、アーカイブ担当者など、情報の専門家は皆、AIモデルと積極的に関わり、その構築方法を学ぶべきです。これにより、AIの限界を認識しつつ、その潜在的な利点を引き出すことが可能になります。

実際、AIと向き合うことで、人間としてのファクトチェッカーの能力が向上すると感じる専門家もいます。AIが容易にアクセスできる「b-matter」（基本的な統計やニュースイベントなど）の確認を支援することで、人間はより深く、より複雑な検証作業に集中できるようになります。インターネット上に存在しない「特定の国境の標識」や「1979年の交差点にあったバーガーキング」といった、AIでは見つけられない情報の探索に、人間の専門知識と直感を活かせるのです。

AI時代に求められる批判的思考と情報源の確認

AIは強力なツールですが、その限界を理解し、盲信しないことが極めて重要です。AIが提供する情報は、あくまで学習データに基づいた「もっともらしい」生成物であり、常に事実であるとは限りません。ユーザーは、AIの回答を鵜呑みにせず、必ず複数の信頼できる情報源と照らし合わせ、その真偽を自ら判断する批判的思考力を養う必要があります。

特に、健康、金融、政治、科学といった分野の情報については、AIの回答をそのまま受け入れることは危険です。公式機関の発表、専門家の見解、一次情報源など、信頼性の高い情報源にアクセスし、多角的に検証する習慣が不可欠となります。AIは情報収集の出発点としては有用ですが、最終的な「真実」を保証するものではないことを常に意識すべきです。

また、人間も間違いを犯す存在であることを忘れてはなりません。ファクトチェックの専門家でさえ、インタビューの録音を忘れるといったヒューマンエラーを犯すことがあります。AIを避けること自体が完璧な解決策ではないというホーラン氏の指摘は、AIと人間の両方の限界を認識し、相互に補完し合う関係性を築くことの重要性を示唆しています。

まとめ

AIは情報検索やアイデア生成において、私たちの生活を便利にする可能性を秘めていますが、その情報の正確性には依然として大きな課題が残されています。複数の調査や専門家の経験が示すように、AIが生成する情報には高い頻度で誤りが含まれる可能性があり、特に重要な意思決定を伴う場面での単独利用は危険です。

WIREDのファクトチェッカーが実践するような、一次情報源の確認、関係者への直接取材、文脈の理解といった人間ならではの検証プロセスは、AIには代替できない価値を持ちます。AIは、情報処理の効率化や調査の初期段階で人間を支援する強力なツールとなり得ますが、最終的な事実の判断と深い洞察は、人間の批判的思考と倫理観に委ねられるべきです。

AIが社会に深く浸透する中で、私たちはその技術的特性と限界を正しく理解し、情報の真偽を自ら見極める情報リテラシーを一層高める必要があります。AIと人間がそれぞれの強みを活かし、協力し合うことで、より信頼性の高い情報環境を構築していくことが、今後の社会における重要な課題となるでしょう。

情報元：wired.com

AIのファクトチェックはどこまで正確？専門家が語る信頼性の限界

AI検索の普及と情報の信頼性への疑問

専門家が語るAIの「誤り」の実態

各種調査が示すAIの誤情報発生率

ベンチマークテストに見るAIの限界

AI自身の自己評価と「幻覚」問題

人間によるファクトチェックのプロセスとAIの役割

WIREDの伝統的なファクトチェック手法

AIを活用したファクトチェックの可能性と限界

AIが真似できない人間の検証能力

AI時代の情報リテラシーと人間の役割

AIを理解し、活用する視点

AI時代に求められる批判的思考と情報源の確認

まとめ

関連

著者

カテゴリー

人気の記事

7ArtisansレンズがEマウントに3種のAF広角レンズを投入！注目スペックと市場影響を解説

MacBook Neo対抗でPCメーカーが動く：Intel新チップ「Wildcat Lake」の衝撃

AI人材に哲学者が不可欠な理由：深まる倫理的課題と主要ラボの動向

AIロボット学習用データ収集の舞台裏：家事を記録するギグワーカーの実態

AI投資の費用対効果に疑問符？Uber社長が語る現実

Related Stories

7ArtisansレンズがEマウントに3種のAF広角レンズを投入！注目スペックと市場影響を解説

MacBook Neo対抗でPCメーカーが動く：Intel新チップ「Wildcat Lake」の衝撃

AI人材に哲学者が不可欠な理由：深まる倫理的課題と主要ラボの動向

AIロボット学習用データ収集の舞台裏：家事を記録するギグワーカーの実態

AI投資の費用対効果に疑問符？Uber社長が語る現実

EDITOR PICKS

7ArtisansレンズがEマウントに3種のAF広角レンズを投入！注目スペックと市場影響を解説

MacBook Neo対抗でPCメーカーが動く：Intel新チップ「Wildcat Lake」の衝撃

AI人材に哲学者が不可欠な理由：深まる倫理的課題と主要ラボの動向

POPULAR POSTS

7ArtisansレンズがEマウントに3種のAF広角レンズを投入！注目スペックと市場影響を解説

MacBook Neo対抗でPCメーカーが動く：Intel新チップ「Wildcat Lake」の衝撃

AI人材に哲学者が不可欠な理由：深まる倫理的課題と主要ラボの動向

POPULAR CATEGORY

がじぇおた！！について

よかったらフォローお願いします