毎週木曜日に配信している「データサイン・ランチタイムトーク」の模様をレポートします。当記事で取り上げるのは以下の配信です。

  • 配信日:2025年4月17日 
  • タイトル:Apple Intelligenceで用いられるプライバシー保護技術
  • スピーカー:DataSign(データサイン) 代表取締役社長 太田祐一
  • MC:ビジネスディベロッパー 宮崎洋史

ユーザーのプライバシーを守りつつサービスを改善

アップルは2025年3月31日、iPhone、iPad、Macの新しいバージョンのOSをリリースしました。ユーザーにとって有用で関連性の高いコンテンツ作成のサポート機能を提供するApple Intelligenceが強化されました。対応するのはiOS 18.4、iPadOS 18.4、macOS Sequoia 15.4を搭載したデバイスです。

Apple Intelligenceを強化するにあたりアップルは、ユーザーの基本的人権と位置付けるプライバシーの保護に向けた取り組みを強調しています。公式ブログ(Machine Learning Research)には、サービスを改善する一環でデバイスの使用状況を調べる場合にアップルはユーザーのデータを収集しない仕組みを導入しているとあります。

例として、ジェン文字(Genmoji)というカスタム絵文字を作成する機能と、要約文やメールなどの文章を生成するツールの精度向上において、差分プライバシー(differential privacy)と合成データ(synthetic data)と呼ばれる技術が利用されています。

データの有用性を損なわずに安全性を高める技術

ジェン文字は、デバイス上に生成できる独自の絵文字です。たとえば「虹色のサボテン」「カウボーイハットを被った恐竜」といったキーワード(プロンプト)を入力するとApple Intelligenceがそれに基づく画像を自動生成してくれます。アップルではジェン文字の改善のために、ユーザーがどんな内容のプロンプトを入力したのか、どの生成画像が選択されたのかといった使用傾向を把握しています。しかし、それらのデータとユーザーが紐づかないように、差分プライバシーという手法を用いてデータを加工し、アップルからも識別を困難にしています。

差分プライバシーとは一般的にユーザーのプライバシーを保護するために、当該ユーザーに関連するデータを別のもので置き換えたデータベースを作成し、集計や分析に用いる技術です。ねらいは特定ユーザーの識別困難性を高めることと、データベースとしての有用性を維持・向上させることの両立ですが、その実装のメカニズムは複数存在しています。ランチタイムトークではごく簡単な例を、デモを交えて説明しました。

他方、合成データとは要約文などを生成する際のネタになる言語モデルの精度を高めるため、トレーニングとテストで用いる文章を擬似的に作成する技術です。アップル公式ブログにはここでも差分プライバシーを用いて、プライバシーに配慮しつつ同意を得たユーザーのデータを合成データの精度改善に利用していることが述べられています。

識別不可能にするとデータベースとしての価値がない?

差分プライバシーは2016年に開催されたアップルの年次イベント(Apple WWDC)においてiOS 10での採用が表明されるなど、データ活用のメリットとプライバシー保護のバランスをとるアプローチとして注目されてきました。

とはいえ、データの識別困難性を高めればデータベース自体の有用性を損なう可能性が増し、逆にすると今度は安全性が犠牲になります。どの程度まで安全性を高めればよいか、または有用性の低下が認められるかはデータの利用目的やシステムに対する要求によって一概にこうだとは決められません。ただし、有用性を損なわないためには100%識別不可能にはできない、というトレードオフの関係が一般に存在します。

「差分プライバシーは、アップル以外の企業が提供するサービスでも近年多く利用されています。しかし、差分プライバシーを使っているからといって『プライバシーは安心だ』と考えたり、データの提供に安易に同意したりしないほうがよさそうです」(データサイン 代表取締役社長 太田祐一)

テクノロジーの利便性を享受する際にも、リターンと表裏一体のリスクにはご注意ください。