こんにちは、LayerXのPrivacyTech事業部で事業開発を担当している野畑(@isseinohata)です。
本ブログではPrivacyTech事業部(https://www.anonify.layerx.co.jp/ )が研究開発を進めている、差分プライバシーという技術についてご紹介します。
パーソナルデータ利活用におけるプライバシー保護の難しさ
昨今、国内でもデータ利活用の民主化、高度化が進み、自社の持つデータを新たなビジネス創出やコスト削減、外部企業との連携、価値共創に活用する取組みが加速しています。
一方で、プライバシー保護に関する法規制により大手IT企業に巨額の制裁金が科されたり、直近米国では、データブローカーによるスマートフォンの位置情報の売買が広く問題視されるなど、世界的にプライバシーに関する社会や消費者の関心が高まっています。
このような背景から、プライバシー保護とデータ利活用の両立がますます求められていますが、その実現は簡単ではありません。特にプライバシー保護のための適切なデータ加工は難易度が高く、不適切な加工を適用した場合には、個人の再識別や特定によるプライバシー侵害が発生するリスクがあります。
このように、プライバシー保護とデータ利活用の両立という難しい問題に対する解決策として昨今注目を浴びているのが「差分プライバシー」と呼ばれるプライバシー保護手法です。
本ブログでは、LayerXのPrivacyTech事業部が研究開発を推進している「差分プライバシー」の仕組みと、海外を中心に広がる実用化の事例、そしてなぜ差分プライバシーが必要とされているのかの背景について、ご紹介します。
差分プライバシーとは
差分プライバシーの事例
事例①: Googleマップの混雑状況
事例②: Appleのデバイス解析
事例③: Meta(旧Facebook)の社会科学研究用途データセット公開
事例④: Uberの内部データ分析
事例⑤:Googleのコミュニティモビリティレポート
事例⑥:アメリカの国勢調査
差分プライバシーの動向
なぜ差分プライバシーが必要なのか
攻撃事例①: Netflixにおける識別・特定
攻撃事例②: マサチューセッツ州における特定・連結
攻撃事例③: 統計情報の組み合わせによるレコードの復元
攻撃事例④: 柔軟な統計分析に潜むリスク: 再構築攻撃
差分プライバシーとは
差分プライバシーは、当時Microsoft Researchに在籍していたDworkら(2006)によって考案された、プライバシー保護度合いの汎用的・数学的な定義です。
データに対するクエリの出力に適切なノイズを付与することによって、統計的な有用性を維持したまま、数学的に証明可能なプライバシー保証を提供します。
平たく言えば、ノイズを付与することで、ある特定の個人がデータセットに含まれていてもいなくても、同じような統計量を出力する(区別がつかないことを保証する)ことで、出力から元のデータセットに含まれる個人を推測困難にするメカニズムです。
結果にノイズを加えることで、分析精度に対する影響はありますが、そもそも統計的な分析で必要なのは全体の傾向や特徴です。そのため、「特定の一人が元のデータに含まれていてもいなくても同じような結果になるようにする」という差分プライバシーのアプローチは、統計分析の目的と相反するものではなく、適切に扱えば、プライバシーを保護したまま統計的な結論を出すことができます。
従来、プライバシーリスクを抑えてパーソナルデータを外部提供するには、大まかな傾向を掴む統計量として加工するのが一般的でしたが、差分プライバシーを用いることで、これまでプライバシー保護との両立が難しかった柔軟な統計分析や高度な統計モデル、機械学習なども、プライバシーを保護したまま実現できます。
差分プライバシーでは、ただランダムにノイズを加えるわけではなく、数学的にプライバシー要件を定義した上で、要件を満たすことが厳密に証明されたアルゴリズムに基づいてノイズを付与します。これにより、プライバシー保護について主観的・水掛論的な議論を繰り返すことなく、客観的にプライバシーリスクを定量化できる、画期的な理論です。
差分プライバシーの活用事例
差分プライバシーの実用化は、特に大規模なユーザーのデータを取り扱うGoogleやApple、FacebookといったグローバルIT企業などを中心に、急速に進んでいます。
そもそもプライバシーリスクにはどのようなものがあり、なぜ差分プライバシーが必要なのかについては後半でご紹介しますが、ここではまず実際に差分プライバシーが活用されている事例をご紹介しつつ、そのユースケースについて、理解を深めていきます。
事例①: Googleマップの混雑状況
出典:https://japan.googleblog.com/2020/10/google.html
Googleが提供するGoogleマップには、特定の場所の混雑度を表示する機能があり、同じ曜日の同じ時間帯に比べての混雑度と比較して「通常は混んでいます」「通常はやや混んでいます」「通常はそれほど混んでいません」のように表示されます。
リアルタイムに混雑状況を把握できる便利な機能ですが、裏側ではユーザーのロケーション履歴データを用いており、プライバシー保護が必要です。Googleマップではこの保護に差分プライバシーを用いており、ロケーション履歴データセットに人為的にノイズを追加して、個人を特定することなく混雑度を提供しています。
事例②: Appleのデバイス解析
出典:https://www.apple.com/jp/privacy/control/
iPhoneやiPad、Apple WatchなどのApple製品のデバイスのデータは、Appleのサーバに送信され、ユーザ体験の向上に役立てられています。送信されるデータにはデバイスのクラッシュレポートを始め、デバイスの使用方法、ヘルスケアデータ、Eメールのテキストの一部が含まれており、プライバシー保護が必要です。Appleはここに差分プライバシーを活用しており、QuickTypeや絵文字の提案、メモアプリの検索のヒントなどの利便性をユーザに提供しています。
事例③: Meta(旧Facebook)の社会科学研究用途データセット公開
Meta(旧Facebook)ではハーバード大学の学術組織Social Science Oneと社会科学研究用途データセットを公開しています。データセットが初めて公開されたのは2020年2月で、Metaで共有された3800万のURLに関する情報のデータセットとなっています。データの件数は10兆件以上で、データ総量は約1エクサバイト(テラバイトの約100万倍)にも上ります。データには閲覧、クリック、共有、コメント、いいねなどといったユーザーのアクションに関するレコードが含まれており、このプライバシー保護に差分プライバシーが用いられています。
事例④: Uberの内部データ分析
出典:https://medium.com/uber-security-privacy/differential-privacy-open-source-7892c82c42b6
Uberでは自社のデータ分析によって詐欺の防止、サービスの効率化、乗客とドライバーの安全を確保する改善に取り組んでいます。社内のデータにアクセスできる社員を制限するアクセス制御を行うに留まらず、許可された社員であってもデータの使用方法を管理できるよう追加の保護として差分プライバシーを採用しています。
事例⑤:Googleのコミュニティモビリティレポート
GoogleもMeta(旧Facebook)同様に、新型コロナウイルス感染症における疫学研究や政策の影響把握等を目的とし、差分プライバシーを適用した人流レポートを公開しています。
レポートでは、人々が訪れる場所をいくつかのカテゴリ(小売店と娯楽施設、食料品店と薬局、公園、公共交通機関、職場、住居など)に分類し、人々の移動状況を時間の経過とともに図示しています。
事例⑥:アメリカの国勢調査
アメリカの国勢調査は、政策決定や学術研究目的で大量の統計情報を公開しています。
人種や収入、学歴など、特にセンシティブな情報が公開されるため、従来から様々なプライバシー保護技術が取り入れられてきました。しかし、2010年度の国勢調査に対して、再構築攻撃(詳細は後述)と呼ばれる、統計情報から元のレコードデータを復元する手法が適用可能だったことが明らかになりました。
このため、国勢調査局は差分プライバシーを活用して、人口統計や大卒者の収入と雇用に関する統計情報を公開しています。
差分プライバシーの動向
このように、実用化が進む差分プライバシーですが、前述の例以外にも国内外で様々な研究やサービス提供が進み、差分プライバシーに関する注目や期待の高さが表れています。
特に2016年にAppleがWWDCで言及した際には、大きな注目を集めました。
さらに、2017年にはコンピュータサイエンス分野の最高峰「ゲーデル賞」を受賞し、2021年10月にはGartnerのハイプサイクルでは黎明期の技術として紹介されています。
さらに2021年12月には欧州委員会と欧州議会が合意した「データガバナンス法案(2023年施行)」において、匿名化・一般化・抑制などと並ぶプライバシー保護方法として、差分プライバシーが挙げられ、また、それ以前にも 欧州データ保護指令第29条作業部会がまとめたオピニオンの中で差分プライバシーが紹介される(このオピニオンの当該箇所は、2017年の個人情報保護委員会の事務局レポートでも引用されている)など、プライバシー保護規制においても、プライバシー保護とデータ利活用を両立する技術として注目を浴びています。
なぜ差分プライバシーが必要なのか
前半でご紹介したように、差分プライバシーはプライバシー保護とデータ利活用の両立を目指す企業や政府によって、急速に実用化が進められています。
しかしなぜ、差分プライバシーがここまで注目を浴びているのでしょうか。
ここでは差分プライバシーが必要とされる背景について、解説していきます。
差分プライバシーが注目を浴びている背景は様々ありますが、主な理由の1つとして、「データ利活用の高度化が進むことで、より柔軟なデータ分析や豊富な情報が活用されるようになってきており、これまでは問題視されることが少なかったプライバシーに関するリスクが顕在化してきている」ことが挙げられます。
従来より、プライバシー保護においては、氏名などの直接個人の識別が可能な情報の削除に加え、少数グループの削除、値の丸めといったプライバシー保護の手法が利用されていました。
しかし、データ利活用が高度化するにつれ、これまで使われてきたようなプライバシー保護の手法では個人のプライバシー担保ができないことがわかってきており、実際にそれを裏付けるようなインシデントも複数発生しているのです。
以下では不適切な加工を施したことにより発生してしまったインシデント事例や、リスクの例をご紹介します。
攻撃事例①: Netflixにおける識別・特定
Netflixが機械学習アルゴリズムのコンペ用に、個人を直接特定できる情報は削除した上で、データを公開した際に発生したインシデント事例です。
コンペが始まってわずか数週間後、テキサス大学の2人の研究者(Arvind NarayananとVitaly Shmatikov)が、公開されたNetflixのデータ内の匿名のレビューデータセットを、IMDb上に投稿されたものと比較し、Netflixのユーザー数人を特定しました。
結果、IMDb上の批評内容をもとにユーザー数人の視聴履歴が明らかにされてしまいました。被害にあったアメリカ在住のレズビアンでシングルマザーの女性は、過去にそのことをカミングアウトしていませんでした。この事件により自身の性的嗜好が明らかになり、「生計を立て家族を養う能力に悪影響を及ぼし、自分と子供たちが平穏な生活を送る妨げになる」として、Netflixに対して訴訟を起こし、最終的には和解しています。
このように、単に個人を特定できる情報を削除しただけでは個人のプライバシーを十分に守ることができません。
攻撃事例②: マサチューセッツ州における特定・連結
マサチューセッツ州のGroup Insurance Commission(GIC)は、135,000人の州職員とその家族について、医療保険に関連する情報を収集していました。収集される情報には「本人の氏名・性別・郵便番号・生年月日」に加えて、「人種・医療機関の訪問日・診断結果・治療内容・請求総額」などが含まれており、GICは氏名を取り除いた上で、研究者に配布および民間企業への販売を行っていました。
一方、当時のマサチューセッツ州ケンブリッジの選挙人名簿は$20で購入できました。選挙人名簿には「選挙人の氏名・性別・郵便番号・生年月日」に加えて、「住所・登録日・支持政党・最終投票日」などが含まれており、GICのデータに含まれる同一個人に関するデータを、「性別・郵便番号・生年月日」を手がかり(特定)に結びつけられること(連結)が指摘されました。連結の結果、選挙人名簿から本来は知り得なかった個人の医療情報というセンシティブな情報を新たに知りうる状態でした。
こちらの事例も、単に個人を特定できる情報を削除しただけでは個人のプライバシーを十分に守ることができず、さらに他の情報と紐付けることで想定外のプライバシー侵害が発生する事例と言えます。
攻撃事例③: 統計情報の組み合わせによるレコードの復元
こちらは、一般的に安全と考えられている統計情報の公開によって発生するプライバシーリスクの例です。
一般的に統計情報の公開では、少数の集計を削除したり、値を丸めることでプライバシー保護がなされますが、複数の統計情報の差分から、公開していなかった個人のデータが炙り出されてしまうリスクが存在します。
上記の例では、Aさんの年収を推定する攻撃者を考えます。
Aさんが所属している会社は、平均年収を統計情報として公開しており、Aさん在籍時に100名の従業員の平均年収が600万円、Aさん(のみ)が退職した後の平均年収が599万円という情報が公開されたとします。
このとき、600万円 * 100名 - 599万円 * 99名 = 699万円となり、Aさんの年収が699万円だったことが推定できてしまいます。
攻撃事例④: 柔軟な統計分析に潜むリスク: 再構築攻撃
最後に、あるデータセットから沢山の統計量を公開した場合のプライバシーリスクを紹介します。
上図では地区Aにおける人口統計を考えています。
一般に統計情報の公開に際しては、プライバシーを保護するために、少人数しか該当しない項目は非公開にします(表中のDになっている箇所)。
一見このような情報からプライバシーが侵害される(個人が識別されたり特定される)可能性はないように見えます。
しかし、この公開情報には再構築攻撃と呼ばれるプライバシー攻撃のリスクがあります。
再構築攻撃とは、大量の統計情報から得られる様々な制約条件をもとに、連立方程式を解くことで、その制約条件を満たす元のレコード(クロス集計)を復元する攻撃です。
上記人口統計の場合、164個の連立方程式を立てることができ、統計情報として公開されている中央値、平均値を制約条件に解を絞り込むことができます。
また、統計情報の丸め(年齢を10歳ずつに丸める等)の手法に関しても、この再構築攻撃によって、元のレコードが復元されてしまうリスクが存在します。(丸めた場合も、攻撃者は連立不等式を解くことが可能であるため。)
このように、古典的なプライバシー保護手法には様々な攻撃が考えられます。
いずれの手法も攻撃者がどの程度識別・特定・連結が可能かといった背景知識に大きく依存します。守る側は豊富な背景知識を持つ攻撃者を想定する必要がありますが、予想だにしていなかった未知の攻撃が存在しないことを証明することは非常に困難です。
そこで登場したのが差分プライバシーです。
差分プライバシーでは、特定の攻撃者仮定を置いておらず、差分プライバシーを適用した出力に関して、元のデータセットに特定の個人が含まれている場合と含まれていないを区別できないこと(識別不可能性)を安全性の根拠としています。
そのため、「こんな情報を知っている人がいたら照合できてしまうのでは?」「こんな攻撃をされたら特定されてしまうのでは?」といった水掛け論に終止符を打つことができます。
このように未知の攻撃に対するリスクを一網打尽にすることができる技術、それが差分プライバシーであり、近年大きな注目を浴びている背景なのです。