内容紹介
データの匿名化の考え方と具体的な手法を解説する個人情報時代の基本書!
本書は健康情報の匿名化について、基本的な考え方やアプローチ、具体的な手法やツールについて解説しています。匿名化について基本的な知識を丁寧に解説します。
このような方におすすめ
ビッグデータ、個人情報を扱いたい企業、ヘルスデータを扱う企業
目次
詳細目次
監訳者まえがき
まえがき
1章 イントロダクション
1.1 匿名化すべきか、せざるべきか
1.1.1 同意を得るか、匿名化するか
1.1.2 お金を節約する
1.1.3 人目に触れたくない
1.2 匿名化における2本の柱
1.2.1 マスキングの標準
1.2.2 非特定化の標準
1.3 実際の匿名化
1.3.1 組織の準備
1.3.2 実用的なものにする
1.3.3 ユースケース
1.4 差別を生む分析
1.5 他の分野における匿名化
1.6 本書について
2章 リスクベースの非特定化方法論
2.1 基本原則
2.2 非特定化方法論の手順
2.2.1 ステップ1:直接識別子(識別子)と間接識別子(準識別子)
2.2.2 ステップ2:閾値を設定する
2.2.3 ステップ3:起こりそうな攻撃について調べる
2.2.4 ステップ4:データを非特定化する
2.2.5 ステップ5:プロセスを文書化する
2.3 起こりそうな攻撃のリスク測定
2.3.1 T1:故意による再特定の試み
2.3.2 T2:故意でない再特定の試み
2.3.3 T3:データ侵害
2.3.4 T4:公開データ
2.4 再特定リスクの測定
2.4.1 確率メトリクス
2.4.2 情報損失メトリクス
2.5 リスク閾値
2.5.1 閾値を選ぶ
2.5.2 閾値を満たす
2.6 危険な仕事
3章 横断的データ:研究レジストリ
3.1 プロセスの概要
3.1.1 二次利用と開示
3.1.2 データの入手
3.1.3 研究プロトコルの策定
3.1.4 データアクセス委員会との交渉
3.2 オンタリオ州のBORN
3.2.1 BORNデータセット
3.3 リスクアセスメント
3.3.1 脅威モデリング
3.3.2 結果
3.3.3 年度毎に:リスク分析の再利用
3.4 最後に
4章 縦断的な退院時要約データ:州入院患者データベース
4.1 縦断的データ
4.1.1 横断的データのように扱ってはいけない
4.2 完全な知識のもとでの非特定化
4.2.1 おおよそ完全な知識
4.2.2 厳密に完全な知識
4.2.3 k-匿名性を満たす実装について
4.2.4 完全な知識のもとでの一般化
4.3 カリフォルニア州の州入院患者データベース
4.3.1 カリフォルニア州のSIDとオープンデータ
4.4 リスクアセスメント
4.4.1 脅威モデリング
4.4.2 結果
4.5 最後に
5章 日付、ロングテール、相関:診療報酬請求データ
5.1 入院患者の予測コンテスト
5.2 日付の一般化
5.2.1 日付を互いに無関係にランダム化する
5.2.2 そのままの間隔で日付をずらす
5.2.3 順序を保つように間隔を一般化する
5.2.4 日付から間隔、そして再び日付に
5.2.5 別のアンカー
5.2.6 その他の準識別子
5.2.7 関連のある日付
5.3 ロングテール
5.3.1 ロングテールによるリスク
5.3.2 脅威モデリング
5.3.3 打ち切るべき請求数
5.3.4 どの請求を打ち切るべきか
5.4 関連項目の相関
5.4.1 専門家の意見
5.4.2 予測モデル
5.4.3 データセットの非特定化による影響
5.5 最後に
6章 縦断的イベントデータ:災害レジストリ
6.1 攻撃力
6.1.1 攻撃力を抑える
6.1.2 実際の攻撃力
6.1.3 攻撃力のサンプリング
6.2 WTC災害レジストリ
6.2.1 イベントの収集
6.2.2 WTCデータセット
6.2.3 イベントの攻撃力
6.3 リスクアセスメント
6.3.1 脅威モデリング
6.3.2 結果
6.4 最後に
7章 データリダクション:研究レジストリ再び
7.1 サブサンプリング
7.1.1 どれだけ少なくできるのか
7.1.2 すべての種類のリスクに有効ではない
7.1.3 BORNデータへの適用
7.2 たくさんの準識別子
7.2.1 準識別子のサブセット
7.2.2 カバーリングデザイン
7.2.3 BORNデータをカバーする
7.2.4 最後に
8章 自由形式のテキスト:電子カルテ
8.1 正規化されていない文章
8.2 テキスト匿名化に対する一般的なアプローチ
8.3 匿名化済みとしてテキストをマークする方法
8.4 評価が鍵になる
8.4.1 適切なメトリクス―厳密であるが適正なもの
8.4.2 検出率の基準とリスクベースのアプローチ
8.4.3 精度の基準
8.5 匿名化のルール
8.6 i2b2(生物医学コンピューティング研究センター)
8.6.1 i2b2のテキストデータセット
8.7 リスクアセスメント
8.7.1 脅威モデリング
8.7.2 ルールベースのシステム
8.7.3 結果
8.8 最後に
9章 地理空間の集約:カナダのDAコードと米国のZIPコード
9.1 『かいじゅうたちのいるところ』
9.2 適切な近傍領域の探索
9.2.1 近傍との距離
9.2.2 近傍のサークル
9.2.3 丸い地球
9.2.4 平らな地球
9.3 近傍のクラスタリング
9.3.1 すべてには(国/州/地方自治体の)境界線がある
9.3.2 最近傍の高速検出
9.4 家に近過ぎる
9.4.1 ジオプロキシ攻撃のレベル
9.4.2 ジオプロキシ攻撃のリスク測定
9.5 最後に
10章 医療分野におけるコード群:ハッカソン
10.1 実際のコード
10.2 一般化
10.2.1 疾病コード
10.2.2 処置コード
10.2.3 医薬品コード
10.3 秘匿
10.4 シャッフリング
10.5 最後に
11章 マスキング:腫瘍データベース
11.1 スキーマ
11.2 データを偽る
11.2.1 フィールド秘匿
11.2.2 ランダム化
11.2.3 仮名化
11.2.4 仮名の頻度
11.3 動的なマスキング
11.4 最後に
12章 セキュアな連結
12.1 さあ、連結しよう
12.2 セキュアな実施
12.2.1 これらは試さないでください
12.2.2 第三者問題
12.2.3 連結のための基本設計
12.3 連結のための肝心なプロトコル
12.3.1 関係者にPaillier暗号を施す
12.3.2 未知のもののマッチング
12.4 スケールアップ
12.4.1 カッコウ・ハッシング
12.4.2 カッコウはどれくらい速いのか
12.5 最後に
13章 非特定化とデータ品質
13.1 有用な非特定化による有用なデータ
13.2 損失の度合い
13.3 仕事に配慮した非特定化
13.3.1 データの有用性を改善するための質問
13.4 最後に
索引
続きを見る