Criteoの研究者が語る、CTR予測とCVR予測 その仕組みと論文の紹介 | インターネット広告代理店で働くデータサイエンティストのブログ
はじめまして! 内定者アルバイトの小笠原(@YAMITZKY)と申します。

初めてなので、簡単に自己紹介を。今は大学の4年生で、機械学習の手法を使って「Webサイトに自動でタグ付けを行う」というのを実現するような研究をしていました。
最近は「MLaPP」という機械学習の本を読んでいるので、輪読の機会があったら呼んでいただけると嬉しいです!

----------------

本日の話題は、CriteoのCTR予測、CVR予測についてです。

Criteoは世界中でリターゲティング広告を提供している企業で、日本でもレコメンドバナー市場を牽引しています。 第三者配信計測などでCriteo広告の分析をしてみると、ユーザーの購買行動の最後の一撃を与える役割(刈取り型広告としての役割)を担っていることがわかります。 また、CTR(クリック率)が高いため、高いCPM(入札単価)でもCPC(クリック単価)を抑えられる(つまりCPAを抑えられる)など、優れた特徴が多数あります。

そして、先週の月曜日から開かれているデータマイニングのカンファレンス「WSDM 2014」で、 Criteoの主席リサーチサイエンティストのOlivier Chapelleさんが「ディスプレイ広告の反応予測」というタイトルで、講演をしています。

こちらの資料は公開されていないようなのですが、Chapelleさんによって同じテーマの論文[1]が発表されているので、「ディスプレイ広告の反応予測にどんなメリットがあるのか」に触れながら、こちらの論文の簡単な紹介や、CTR予測の仕組みの紹介をしたいと思います!

CTR予測とCVR予測について

この論文で解決している課題は、「ディスプレイ広告のCTR(クリック率)CVR(コンバージョン率)を予測したい」というものです。特に「ある広告を、ある媒体(ページ)で、あるユーザーに見せると、どれくらいクリックされ、どれくらいコンバージョンに結びつくか?」というのを予測します。
(話が長くなってしまうので、ここからはCTRの予測に絞って話をしますが、CVRについても同じことが言えます)

CTR予測


CTR予測が有用になるような事例として論文中で紹介されているのが、クリック単価(CPC; cost-per-click)に基づくような広告です。このような広告の場合、アドプラットフォーム事業者は「入札額をいくらまで出して良いか?」というのをうまく予測して利益を出さなければなりません。

例えば、
CTRを高めに見積もると:実際にはあまりユーザーがクリックしてくれず、入札額に見合うクリック報酬が貰えない
CTRを低めに見積もると:入札額に見合うクリック報酬は貰えるが、本当はもっと高い入札ができることになる(高い金額の方が入札に勝てる)

となるので、「クリック報酬に見合うような、なるべく高い入札額」を決定するために、CTRやCVRの予測が必要になるのです。

広告主にとってのメリット

先ほどの場合は、Criteoなどのアドプラットフォームにとってのメリットですが、広告主にとっても、CTR予測のメリットがあります

先ほど説明したようにCTR予測は、「ある広告・あるWebページ・あるユーザー」という組み合わせが、「どれくらいのCTRになりそうか?」というのを予測します。
これを広告の運用者の視点から見てみると、CTR予測ができれば、「この広告でCTRを高くするには、どのようなユーザー・媒体に配信すればいいか?」とか 「あるユーザー・媒体に配信するときには、どんな広告がCTRが高くなりそうか?」といったことを予測できるということになります。 このような情報がわかると、意図した広告クリエイティブに対してヒットしそうなユーザーのセグメンテーションの基準にしたり、 意図したユーザーセグメントに対してCTRの高そうな広告クリエイティブを作成をすることができ、より効率的な広告運用ができる可能性があります。

また、後者については、2012年にYahoo! Labsの研究者らによって、CTRが高くなるようなクリエイティブの研究が行われています(例えば、クリエイティブに写っている顔の数が増えるほど、CTRが低くなってしまう傾向があるという結果が出ています)[2]

CTRの分析・予測


ここからは、論文の紹介に移ります。

CTR予測のモデル:ロジスティック回帰

この論文でCTR予測に使っているモデルは、ロジスティック回帰です。このモデルは、CTRのような確率を予測するようなときに使われます。

基本となっているのは、このブログでも何度か出てきた回帰モデルです。「広告サイズ」「広告主」「媒体」「ユーザーの性別」「ユーザーの年齢」などといった様々な特徴が、どのようにCTRに影響するのかというのを評価し、CTR予測を行います。

ロジスティック回帰

様々な特徴の中で、どの特徴がCTRに効くのかも、論文中に示されています(p19)。特に効くものとしては、「ページ上の広告枠の位置」「どのクリエイティブか(クリエイティブID)」「どのメディアか」などが挙げられています。また、組み合わせると効く特徴としては「広告主と広告枠の位置」「クリエイティブIDと広告枠の位置」「クリエイティブIDと媒体主」などが挙げられています。ただし、年齢や性別などの「ユーザーの属性」がCTRに効かないということではありません。

また、この論文では扱われていませんが、先ほどのYahoo! Labsの研究のようにクリエイティブそのものの特徴(例えばクリエイティブにある顔の数や、目立つ色の割合など、CTRに影響しそうな要素)をロジスティック回帰に組み込むことも可能です。

この論文のすごいところ

Conclusionにも記されていますが、この論文は、CTR予測・CVR予測という高度なタスクに対して、高い精度を叩き出しながら、「1日に100億impression」「1億 ユニークユーザー」という桁違いなデータ量でも動く手法を提案しています(ビッグデータと言っていい量ではないでしょうか・・・!)。

しかも、モデル自体が最先端というわけではありません。使われているモデルは、先述したロジスティック回帰です。また、手法に組み込まれているfeature hashing、L2 regularization、Laplace smoothingなども、比較的使われてきた手段だと思います(もちろん、かなり新しい手法も組み込まれてます)。これらの最先端ではない手法を、使うべき場面で適切に組み込み、高い精度を出すことができるというのは非常に興味深いです。Criteoの研究者の尋常でないレベルの高さが伺えます。

参考文献

  • [1] O. Chapelle, E. Manavoglu, and R. Rosales. Simple and scalable response prediction for display advertising. Transactions on Intelligent Systems and Technology, 2013. to appear.
  • [2] Cheng, H., Zwol, R. V., Azimi, J., Manavoglu, E., Zhang, R., Zhou, Y., & Navalpakkam, V. (2012, August). Multimedia features for click prediction of new ads in display advertising. In Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 777-785). ACM.