Appleは、App Storeの検索結果を改善するため、人工知能(AI)を活用した大規模なテストを実施したことを発表しました。このテストでは、大規模言語モデル(LLM)によって生成された「関連性ラベル」が、アプリの検索ランキングとダウンロード数にどのような影響を与えるかが検証されました。
AIによる検索関連性評価の課題解決
研究者たちは、ユーザーが目的のアプリを見つける上で「関連性」が極めて重要であると指摘しています。App Storeの検索ランキングシステムは、主に以下の2つのシグナルに基づいてアプリを評価します。
- 行動的関連性:ユーザーが検索結果をタップしたり、アプリをダウンロードしたりといった行動履歴。
- テキスト的関連性:アプリのメタデータ(名称、説明、キーワードなど)がユーザーの検索クエリとどれだけ意味的に一致しているか。
行動的関連性に関するデータは豊富に存在する一方で、テキスト的関連性の評価は、人間による判断が必要なため、その生成にはコストと時間がかかるとされていました。このスケーラビリティの課題が、ランキングシステムのテキスト的関連性評価を十分に活用できないボトルネックとなっていたのです。
LLMを活用したテストの詳細
この課題を解決するため、Appleの研究者たちは、既存の人間による評価データを用いて30億パラメータのLLMをファインチューニングしました。これにより、LLMはユーザーの検索クエリとアプリのメタデータに基づいて、アプリの関連性ラベルを自動的に割り当てる方法を学習しました。
次に、このLLMによって数百万もの新しい関連性ラベルが生成され、これらのAI生成ラベルと従来のデータが組み合わされてApp Storeのランキングシステムが再訓練されました。
最終的に、このLLM強化モデルは、実際のApp Storeトラフィックを用いた世界規模のA/Bテストで評価されました。
わずかながらも「著しい改善」
テストの結果、LLMで強化されたモデルは、主要な評価指標である「コンバージョン率」(検索セッション中に少なくとも1つのアプリがダウンロードされた割合)において、統計的に有意な0.24%の増加を示しました。この数値は一見すると小さいように思えますが、Appleの研究者たちは、成熟した産業用ランキングシステムにおいては「著しい改善」であると評価しています。
世界のApp Storeダウンロード数が年間約380億件と推定されることを考慮すると、このわずかな改善でも、実際には数千万件もの追加ダウンロードにつながる可能性があります。これは、アプリ開発者にとっても大きな恩恵となるでしょう。
公式情報:Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments
Appleは、今後もAI技術を積極的に活用し、ユーザー体験の向上に努めていくものと見られます。

