毎週木曜日に配信している「データサイン・ランチタイムトーク」の模様をレポートします。

当記事で取り上げるのは以下の配信です。

  • 配信日:2021年10月14日
  • タイトル: Criteo社によるFLoCオリジントライアル結果報告 第3回
  • 発表者:データサイン代表取締役社長 太田祐一

トライアルの評価は「やや辛口」?

W3Cで標準化が進められているプライバシーサンドボックスの機能の1つ、FLoC(Federated Learning of Cohorts)。そのトライアル結果に関する記事を、グローバルに事業展開する大手広告配信業者クリテオ社がMediumブログに連載しています。今回はその連載3回目(FLoC Origin Trial: Understand FLoC Cohorts)の内容について気になる点をデータサイン代表取締役社長 太田祐一が解説しました。

クリテオがFLoCを検証するトライアルを行なった期間は2021年6月1日から7月13日のおよそ1カ月半です。同社のクライアントでサードパーティーCookieを用いてブラウザの閲覧履歴を取得できる広告主およびパブリッシャーのウェブサイトから集めたデータを分析しています。閲覧したユーザーのブラウザがどのクラスターに属しているかの情報(floc_id、以下コホートID)、そのID(番号)を算出するために使用されたアルゴリズムを示すラベル(floc_version)を調査しています。

「公開されたレポートは同社が収集・解析した適切なデータに基づいて執筆されているものとして、得られた評価や結論はどちらかというと辛口な印象です。クリテオ社が、サードパーティーCookieによるターゲティング広告を代替するプライバシーサンドボックスに諸手を挙げて賛成しているわけではないのかな、というふうに思いました」(太田)

訪問したドメインで閲覧パターンを特徴づけるのはムリなの?

FLoCでは、あるウェブサイトを閲覧するとブラウザに自動保存される7日間の履歴ドメインのリスト(例えばhttps://datasign.jpを閲覧すると履歴ドメインリストの中に「datasign.jp」が含まれます)と、グーグルが事前にリストアップしたコホートIDが付与されたドメインリストを照合します。グーグルは2つのリストを比較することで類似したドメインリストのコホートIDを、ユーザーのブラウザに割り振ります。グーグルが提供するドメインリストはグーグルがユーザーの関心・興味に基づいて事前定義した複数のドメインで構成されています。ただし、各コホートIDが付されたドメインリストの中身、またそこから伺えるユーザー像の特徴は何か、については開示されていません。

クリテオ社のレポートによれば、FLoCの情報を確認できる100人以上のユーザーが訪れているサイトを対象に調査したところ、調査期間中に当該サイトを訪れたフロックIDの数はユーザー数の増加とともに増えていました。

「ユーザーの閲覧習慣は時間とともに変化すると考えられるため、履歴ドメインリストの中身(データセット)もそれとともに変化し、同時にブラウザに付与されるコホートIDも変わります」(太田)

レポートを見るとユーザー数は時間に比例して増加していますが、コホートIDの数も同じようなペースで増えています。もしFLoCの仕様どおりにコホートIDが、類似する行動履歴を持つユーザーのブラウザのグループに対して付与されているならば、コホートID数はユーザー数に比較して少なくなるはずです。ところがクリテオの調査結果ではその仮定に反するようにコホートIDも一緒に増えていました。したがってコホートIDが付与されたクラスターが訪問したドメインを見るだけでは、ユーザーの一般的な閲覧パターンを特徴づけるには不十分、と指摘しています。

「しかし、よく見るとユーザー数の伸び率に対してコホートIDの伸び率はやや鈍化しています。この開きはユーザー数が多くなるとともに大きくなりそうです。そうならば多くのユーザーがFLoCに対応するブラウザを利用してサイトを閲覧した場合、コホートIDによってブラウザをカテゴライズすることはそれなりに可能なのではないか、と読み取ることもできそうです」(太田)

コサイン類似度は安定的に推移。ただしFLoCコホート全体の8%

さらに、クリテオではトピックカテゴリーに分けて調査しました。ここで用いたのはコサイン類似度です。コサイン類似度は対象を2つのベクトル(複数の要素で表現される数の組み)に置き換えて、正規化された内積を計算し、そのベクトルの間の角度の大きさを調べます。

「10年ほど前立ち上げたDMP(Data Management Platform)の会社で、同様の手法でユーザー同士の類似度を算出していました。懐かしいです」(太田)

クリテオはドメインを40程度のカテゴリーに分類しました。すると少なくとも100人のChromeユーザーにフラグを立てたコホート(FLoCコホート全体の8%に相当)のみを対象とした場合、コサイン類似度は0.75で安定的に推移することがわかりました。

「DMPの会社で仕事をしていた時には類似度0.8以上であれば同じセグメントに分類する場合もありました。その点で類似度0.75は指標として悪くないと思います」(太田)

ただ、ユーザー数が100未満となる少ない場合の類似度は0.5程度。類似するともしない、とも言い切れません。そのためクリテオは、この方法は一般的には利用できないものと評価しています。

「注意したいのは、たとえ類似度0.5でもユーザー数が増えると収束する傾向があること。またコンテンツのカテゴリーの仕分けがきちんとできているウェブサイト(ドメイン)は訪れるユーザーの興味・関心が絞り込みやすいので当該コホートIDがどのような興味・関心の傾向を持つのか分析し、広告に活用できる可能性が高いかもしれません」(太田)