Netflixは長期的にユーザーの満足度を高めるため、どのような推薦アルゴリズムを適用し、どう工夫しているのか、公式ブログで解説した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Netflixは2024年8月29日(米国時間)、Netflixの価値を高め、ユーザーの満足度を最大化させるための取り組みの一環として、コンテンツ推薦アルゴリズムをどのように適用し、工夫しているのか、公式ブログで解説した。
Netflixでは、コンテンツ推薦を「Contextual Bandit(コンテキストバンディット)問題」と捉えているという。
ユーザーがNetflixにアクセスすると、その瞬間がシステムにとってのコンテキストとなり、コンテキストに基づいてシステムが推薦内容を選択する。ユーザーは推薦されたコンテンツにさまざまなフィードバック(報酬)を返す。これには、すぐに得られるもの(スキップ、再生、いいね/嫌い、プレイリストへの追加)や後から得られるもの(視聴の完了、サブスクリプションの更新)もある。Netflixでは、推薦の良しあしを評価する報酬関数を定義し、より優れた推薦のためのポリシーを学習させ、ユーザーの満足度を最大化させることを目指しているという。
Netflixは、この取り組みにおいて長期的にサービス満足度を最大化するためにどう工夫しているのか、解説した。
長期的にサービス満足度を最大化することを考慮する際、会員継続率(リテンション)を報酬として最適化する戦略には課題があると、Netflixは指摘する。
「満足しているユーザーはサービスを継続するため、会員継続率を最適化する戦略を立てるのは当然かもしれない。だが、季節のトレンドやマーケティングキャンペーン、個人的な事情、過去の不満足な推薦による解約などさまざまな要因があるため、会員継続率を最適化することは非現実的だ」(Netflix)
そこでNetflixは「代理報酬関数」を定義し、報酬エンジニアリングの取り組みを通じて、長期的にユーザーの満足度を最大化させようと取り組んでいるという。
代理報酬関数とは、長期的なユーザー満足度につながりそうな短期的なユーザーのフィードバックを代わりの報酬として活用する取り組みだ。例えば、システムがあるコンテンツを推薦し、ユーザーがコンテンツを視聴してから完了して「いいね」を付けた場合、単純な代理報酬関数を以下のように定義できる。
この代理報酬関数を長期的な満足度と結び付けるためには、以下のようなあらゆる種類のユーザーアクションを考慮する必要がある。
報酬エンジニアリングでは、仮説形成、新しい代理報酬関数の定義、新しいポリシーのトレーニング、A/Bテストの4つの段階があるという。
報酬エンジニアリングの取り組みにおいては、ユーザーのフィードバックが遅かったり得られなかったりする「遅延フィードバック」が課題になるという。例えば、ユーザーが数週間かけてコンテンツを視聴完了した場合、フィードバックは推薦されたタイミングから数週間遅れることになる。「いいね」や「嫌い」のフィードバックは確実に得られるかも分からない。
フィードバックを待つ時間が長過ぎると、推薦ポリシーを更新する機会を逃し、ユーザー体験を低下させるリスクがある。そこでNetflixでは、このフィードバックを機械学習モデルで予測する取り組みも行っているという。
「従来の推奨システムはクリック数やエンゲージメントなどの短期的な指標を最適化することが多く、ユーザーの長期的な満足度を十分に把握できないことがある。Netflixはユーザーが長期にわたって満足してもらえるコンテンツを推奨できるよう、代理報酬関数の定義や報酬エンジニアリングに取り組んでいる」と、Netflixは述べている。
Copyright © ITmedia, Inc. All Rights Reserved.