もう悩まない! Web担当者/グロースハッカーがABテストの結果を素早く正しく判断するための6箇条:ABテストによるUX改善のコツ大解剖(2)
ABテストを利用したサイト改善の限界にぶつかっている人たちに向けて、リクルートグループ内で実践している改善ノウハウをお伝えする連載。今回は、ABテストをWebサービスの改善サイクルの中で取り入れていく際によくある課題と、その解決策をお伝えする。
ABテストを利用したサイト改善の限界にぶつかっている人たちに向けて、リクルートグループ内で実践している改善ノウハウをお伝えする本連載。前回の「リクルートの有名サイト事例に見る、シナリオベースABテストの基本的な考え方と改善プロセス、チーム体制」では、筆者たちが取り組んでいる「シナリオベースABテスト」を紹介した。問い合わせ機能の文言やボタンの色といった単一の要素についてデザインやUIを変えてテストする「一般的なABテスト」とは異なり、「より大きな成果を出すために、異なるユーザー体験をテストする」という考え方でWebサービスの改善を実施している。
今回は、ABテストをWebサービスの改善サイクルの中で取り入れていく際によくある課題と、その解決策をお伝えする。特にWebサービスの改善・グロースハックを担当されている人が、ABテストを実践していく現場で持たれている悩みを解消する一助になれば幸いである。
ABテストに取り組むときによくある課題
まずは、実際に現場でABテストを行って、より多くのテストパターンを試す中でよく生じる課題を挙げてみよう。
「カーセンサー」(リクルートマーケティングパートナーズ提供)では、平均して2週間で3〜5案件程度のテストを実施し続けている。その中で以下のような六つの課題に対して「テストの結果を素早く、正しく判断するにはどうしたらよいか」が常に大きな悩みになってきた。
以上、六つ課題に対して、筆者たちが採っている対応策を紹介する。
【1】誤差の範囲かどうか――検定して確かめよう
一つ目の課題は、「パターンの間に存在する差は誤差の範囲なのか、十分大きな差なのか?」である。
例えば、ABテストを開始してから次の日にCVR値の初速を見てみると、Aパターンは1.5%、Bパターンは2.0%、とBパターンの方が良い結果になっていたとする。しかし、もし母数となるクリック数が200だった場合、AパターンとBパターンで実際に生まれたアクションは3件と4件と、少ない量になってしまう。この差は次の日にはまた逆転してしまうかもしれないので、「誤差の範囲」と言えるだろう。
「ABテストの結果の差が十分に開いているかどうか」の判断は人によって基準が異なり、結果としてテストに時間がかかってしまうことがある。そこで筆者たちのチームでは、「統計的に意味のある差がついているかどうか」を「カイ二乗検定」という統計手法を使って判断することをルールにし、図1のようなツールを作成して誰でも利用できるように共有している。
細かい数式については本稿では触れないので、具体的な定義について知りたい方は書籍などを参考にしてほしい。
【2】安定的に結果に差がついているか――累積での推移を確認しよう
二つ目の課題は「ABテストの結果が安定しているかどうか」だ。指標としては下記の三つの項目を見ることで、「常に勝ち続けているのかどうか」の差がわずかであることが分かる。
- 日ごとの勝ち負け回数
- 日ごとの結果の有意差
- 累積での勝ち負け回数(その日までの合計値の比較)
特に累積での比較は安定性を確かめる上では効果的である。図2のグラフを見てもらうと分かりやすい。
「有意差が出ていない場合も、同様に継続することで有意差が現れる傾向があるかどうか」は上記指標の安定性を見ることで判断できる。また、「開いているレートの差が継続していく」と仮定しシミュレーションを行うことで、「いつ有意な差がつくか」を見立てることも可能だ。
【3】パターン間でユーザーに偏りはないか――ユーザーを分けて見よう
【2】では累積でモニタリングする有効性を示したが、累積で見ても結果が安定しない可能性もある。
例えば、「訪問が初回でないユーザーは、ABテストを開始する前にWebサービスを利用したことがあり、その時の使い勝手が良かったとすると、ABテストの開始によって悪影響を及ぼしてしまっている」といったケースだ。ABテストの開始時点から、時間が経過していく過程で、初回訪問ユーザーの比率がもし偏っていた場合、その影響で結果が徐々に変わっていくかもしれない。
この問題は、対象のABテスト期間中に初回訪問が含まれるユーザーのみに絞ることで解消できる(Google Analyticsでは、デフォルトで「新規ユーザー」というセグメント機能が用意されているが、実質は「新規セッション」の意味であり、上記のセグメント定義をするためには「最初のセッションの日付」という機能を利用しなければならないので注意)。
厳密に言うと、初回に訪れたユーザーをランダムに均等になるように振り分けることはできるが、再来訪するユーザーの数はコントロールできないため、このような問題に直面する。仮説を立てるとともにユーザーを分割し、分割したユーザーそれぞれで結果を見ることで、ユーザー行動の変化や「ABテストの影響をどのように受けているのか」が見えてくるはずだ。
【4】パターンの母集団の数をそろえているか――配信比率の調整で均等にしよう
制約条件が特になければ、来訪している母集団の数はABテストの配信比率を調整する際に、均等にしておいた方がよい。
例えば、ABテストで新しいパターンを試す際に、全体の効果に悪影響が出るリスクを考えて、少ない比率、例えば10%のみの配信比率を用いてテストパターンを表示させるケースがあるだろう。その際に、オリジナルパターンの90%の数字を用いるのではなく、同様に10%オリジナルパターンを配信用に設定して比較するべきだ。
一般的に母集団が増えた場合、CVRは一定にならないからである。勝ち負けの理由を正しく判断するために、母集団の数をそろえてテストすることをお勧めする。
【5】対象画面の他機能への影響はないか――画面全体のクリック分布変化をチェックしよう
ABテストで画面内にある一つの要素を変更した場合、その要素の性能の比較だけではなく、同時に画面内の他の機能、他のパーツへの影響も見る必要がある。
例えば図6のような画面要素の追加のABテストを行った際には、追加したパーツ経由で新たにクリックが生まれるだろう。
しかし、他の機能に対してどのような影響が及んだかについても答えを出せるようにしたい。例えば、「他にもっとCVRの高いリンク先のクリックを奪ってしまっていないかどうか」などが把握できていることが望ましい。
このためには、下準備として「画面内の、どのパーツが押されているのか」を計測できるようにしておきたい。一点注意しておきたいのは、上記のモニタリングができると思って次画面への遷移量を見てみたら、他にも導線があって、どちらのボタンが押されたのか分からなくなってしまうことがある。
これを避けるために、画面タイトルやURLによる画面遷移のモニタリング以外に(特にクリック数分布の大きな割合を占めるファーストルックにおいては)、主要なリンクやボタンについては個別にパラメーターを付与することで計測できるようにしておくことを強くお勧めする。
【6】同時に別の画面でABテストを実施するのはOKか――独立していると考えよう
例えば、TOP画面でABテストをやっているのと同時に並行して、一覧画面や詳細画面でもABテストを実施したい場合、それぞれのテスト間での影響はあるのだろうか?
これについて筆者たちは、それぞれの画面で十分多くのトラフィック数があれば、統計的に独立したABテストとして考えてよい、としている(この問題についてはリクルートテクノロジーズメンバーズブログでも触れられています)。
もちろん、トラフィック数が少ない場合は影響がないとはいえないが、【3】の観点で述べた通り、別の画面でもユーザーを分けてモニタリングをすることで解決が可能である。
次回は、「最適化の限界」に対して、どのように取り組んでいるか
以上、今回は、ABテストを「素早く、正しく」行うための課題と、その解決策の一例を紹介した。次回はシナリオベースABテストを積み重ねていった結果現れた「最適化の限界」という課題に対して、どのように取り組んでいるかをお伝えしたい。
筆者紹介
松村草也
2010年4月新卒入社。2012年のホールディングス体制へのガバナンス変更により誕生したリクルートテクノロジーズのUXデザインGに所属。リクルートグループ横断でUI/UXの改善施策の推進やCRM施策の実施、DSPを利用した商品開発など、デジタルマーケティング領域を担当。現在は株式会社リクルートマーケティングパートナーズが提供する「カーセンサー」の「アダプティブUX」デザインを推進。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- UXとは何ぞや? UXを高める武器を手に入れよう! ― 開発者は、いかにユーザー・エクスペリエンス(UX)と付き合うべきか ―
開発者はいかにUXと付き合うべきか? いまUXを学ぶ理由、その概念と定義、メリット、大手各社のUXガイドラインを紹介。 - Facebook、モバイルアプリのA/Bテストツール「Airlock」を紹介
米Facebookが、社内で開発したモバイルアプリ用のA/Bテストフレームワーク「Airlock」の効果について紹介している。 - できるエンジニアは、絶えず上司にABテストを仕掛ける
上司の言うことが昨日と今日で違うのも、もちろんABテストによるものです。 - 24時間途切れないサービスで有効なImmutable Infrastructureの運用方法
大規模プッシュ通知基盤について、「Pusna-RS」の実装事例を基にアーキテクチャや運用を解説する連載。今回は、Pusna-RSの運用面や発生した課題について、使用している技術やツール「AWS Elastic Beanstalk」「Jenkins」「Amazon CloudWatch」「GrowthForecast」「fluentd」「Elasticsearch」「Kibana」などの説明を交えながら紹介します。 - アクセス解析結果を生かす術(4):あなたのWebサイトが売れない理由は「なぜ?」
アクセス解析ツールの集計結果を生かして“売れる”Webサイトにするためには、分析やテスト、そしてシナリオに基づく最適化が重要だ