毎週木曜日に配信している「データサイン・ランチタイムトーク」の模様をレポートします。当記事で取り上げるのは以下の配信です。

  • 配信日:2020年11月12日 
  • タイトル: 匿名メンバシップ推定コンテスト参戦記
  • 発表者:株式会社データサイン プロダクトマネージャー 坂本一仁

データ活用を円滑にするプライバシー保護技術の研究開発

2020年10月下旬にオンラインで実施された「PWS Cup 2020」(主催:情報処理学会コンピュータセキュリティ研究会PWS組織委員会)において「匿名メンバシップコンテスト」が開催されました。コンテストに参加した、データサインのプロダクトマネージャー 坂本一仁が、個人情報保護法における匿名加工情報を踏まえながらワークショップの持つ意義に触れました。

PWS Cupは2015年に始まり、今回は6回目を数えるコンテスト。PWSとは「Privacy Workshop」のことで目的は「プライバシー保護技術の研究開発を進める学術機関とデータ活用の現場で活躍する技術者・専門家との間での議論や交流を活発にし、日本におけるプライバシー保護技術の研究開発を活性化していく」と公式サイトにあります。

その一環で、日本最大級の国内学会であるコンピュータセキュリティシンポジウム (CSS) と併催して毎年、データ活用を円滑にするためのプライバシー保護技術に焦点を当てた企画およびセッションが行なわれています。2020年は「匿名メンバシップ推定コンテスト」(AMIC:”Anonymity against Membership Inference” Contest)が実施されました

匿名化とその攻撃の技術を競う

匿名メンバシップ推定コンテストに参加するチームには、2つのタスクが課せられます。1つが、与えられたデータを攻撃されないように匿名化するタスクです。もう1つが、他の参加チームが匿名化したデータを攻撃するタスクです。

「ここでの『攻撃』とは、様々な推定アルゴリズムをを組み合わせるなどして加工されたデータを読み解き、元のデータのどの個人が加工されたデータのどこに含まれているかを推定することです」(坂本)

2015年9月に改正され、2017年5月に施行された個人情報保護法では、匿名加工情報の条項が新たに加わりました。匿名加工情報は個人データと異なり、本人同意不要で第三者へのデータ提供が可能です。

「パーソナルデータの適切な匿名化は、プライバシーに配慮しつつ、さまざまなデータセットの分析を可能にするほか、機械学習のトレーニング(訓練用)データに用いるなど、研究やビジネス活用の道を開きます」(坂本)

一例を挙げると、個人の氏名と年齢が含まれるレコード(データの集合)については、氏名を削除してランダムな数字を並べたIDに置き換える、年齢は10歳区分に置き換えたり、「116歳」といった出現頻度の低い数値は個人が特定されるリスクが高いために「80歳以上」という上限値を設けたり(トップコーディング)して匿名化します。

統計情報の場合、ヒストグラムの階級の幅(度数を集計する区間の大きさ)が、あらかじめある大きさに決められているなど、必ずしも分析や機械学習で求める粒度、仕様になっていないケースもあります。一方、匿名加工情報ではレコード単位でデータセットを入手できるため、より緻密な分析や学習精度の向上が期待されます。

「とはいえ、個人情報保護法や個人情報保護委員会規則では『適切な措置を講ずること』とあるのみで匿名化の実装方法は具体的に触れられていません。競技を通じてそれを探る意義が、コンテストにあると認識しています」(坂本)

攻撃耐性に優れた匿名化手法とは

今回のコンテストでは、出題者(運営側)は、オープンデータ化されている「Census Income Data Set」(調査対象者の年齢、性別、職種、学歴、労働時間、所得が年収5万ドルより多いかそれ以下か、など15項目の属性および、それぞれの属性値=実データが含まれるレコードの集合体すなわちデータセット)を用いて、10万人分の「擬似データ」を生成します。そして擬似データから10%(1万人分)をランダムに抽出した「サンプリングデータ」を参加チームごとに生成し、配布します。

各参加チームの加工者は、レコード削除(k-匿名化)、トップ(ボトム)コーディング、データ交換(スワップ)、擬似データ生成、ダミーレコード追加、ランダム化などさまざまな方法を駆使して、配布されたサンプリングデータを加工(匿名化)します。

一方、各参加チームの攻撃者は、他チームから加工した匿名化データを、出題者からそれぞれの加工前の擬似データを受け取り、2つのデータセットを手掛かりに各チームが持つ匿名化前のサンプリングデータを推定します。

「ただ、匿名化データが、有用性と安全性の両指標を満たしていない場合は失格です。有用性とは、統計や機械学習のトレーニングデータとして『使えるデータ』でなくてはいけないということ。デタラメなデータはNGです。元のサンプリングデータと統計的な誤差が小さいことが有用性の基準の1つです。しかし、同時に当てられにくく加工しなければならない。そのバランスを取り方が難しいところです」(坂本)

もう1つの指標である安全性とは、攻撃に対する耐性を定量的に評価したもの。過去のコンテストでは安全性指標として、レコードリンケージ(Record Linkage)という再識別攻撃を用いていましたが、2020年はメンバシップ推定攻撃を指標として競うことになりました。

「メンバシップ推定とは機械学習システムの動作から学習データを推論する攻撃手法として近年知られ、データ提供者に不利益をもたらす可能性からプライバシー上の脅威となっています」(坂本)

コンテストでは期間中、加工者として最も攻撃に耐えた匿名化データを作り、また攻撃者として最も多くメンバシップ推定に成功したチームに総合優勝の称号が贈られます。

今回、総合優勝したのは、日鉄ソリューションズ株式会社のチームでした。

「上位成績のチームは、配布されたサンプリングデータをすぐ加工せずに、それと統計的性質の類似したデータセットをうまく作成して匿名化データとしていました。こうすると、『匿名化データと類似するレコードを、元の擬似データから探す』という攻略が難しくなります。ただ、所望する性質を備えたデータセットの再作成には複雑な処理を伴うため、そこでいかに効率的なアルゴリズムを作れるかと現実的な時間で処理を終わらせられるかが勝敗の分かれ目になったと考えています」と坂本は振り返りました。

なお、個人情報保護法では、受領した匿名加工情報を、本人を識別するために他の情報と照合するなどの識別行為は禁止されています。仮に故意でなくても法律に抵触する可能性がありますので、くれぐれもご注意ください。

関連情報