ビッグデータの非識別化、再識別化、および匿名化

Author: Mohammed Khan, CISA, CRISC, CDPSE, CIPM, Six Sigma Certified Green Belt
Date Published: 1 January 2018
English | español

ビッグデータは知的データ科学分野や科学、技術や人文科学事業において絶えず使用されているため、漠然としたもののように感じられます。ビッグデータが社会全体に及ぼす影響を理解する必要性が高まっています。市場への治療法の投入をより迅速化することで人の寿命を向上させ得るだけでなく、膨大なデータセットを分析する計算能力を活用して、現在の技術の効率性を向上させることもできます。

ビッグデータは、一般にアクセス可能なデータを適切に普及および匿名化した場合にのみ使うことができます。ビッグデータの分野に関連したコントロールの導入を促進し、これを管理するためには、非識別化、再識別化、匿名化のコンセプトを真に理解する必要があります。ある著名な研究では、アメリカの人口の87% をその性別、郵便番号、生年月日をもとに、一意に識別できることが立証されています。1 これは、匿名化というアイデアは実用的ではあるものの、更なる研究と相当な注意が必要であることを示しています。匿名化された個人データは、公的に入手可能なビッグデータセットの一部として使用する前に、正しく匿名化することが重要です。ビッグデータを扱い、グローバルなプライバシーの影響に取り組み、機密性の高い研究データを扱う監査専門家には、ビッグデータ空間を監査して適切さを保つために知識と技術的な能力が必要です。ほぼすべての企業が現在ビッグデータプロジェクトを実施しており、増え続ける規制上のリスク要件に準拠し続けるにあたり、これらの企業の社内コンプライアンス、リスクおよび監査機能において、これらの必要なスキルセットを持つ監査人が必要とされています。

非識別化、再識別化、および匿名化

データ保護指令(DPD)の個人データの定義が、特定された、または特定可能な自然人に関連した個人情報であることを反映することが重要です。2 監査役またはサードパーティは、データ対象の識別番号、あるいは、データ対象の身体的、精神的、経済的、文化的または社会的同一性を1 つ以上参照することで、直接的または間接的に保有しているデータ対象を識別することができます。したがって、企業プロジェクトや社外に向けた研究にデータの使用を検討する際には、ビッグデータセット内のデータの非識別化、再識別化、および匿名化を検討することは重要です。

非識別化は、個人データの代替の使用を確立するために個人データを変更することであり、データ の生成元である対象を特定することはほぼ不可能です。図1 は、「学生名」の欄が削除された非識別化の一例です。

再識別化は、データ対象の身元を結びつけることで、非識別化を取り消す方法です。例えば(上記の例に基づいて)、LinkedIn を使用して、Mark Smith が1996 年に高校を卒業していることを確認することができます。これにより、Mark Smith の記録の再識別化が可能になり(卒業年度が1996 年になっている記録はこれ1 つです)、彼の平均評価と落第したクラスの数が明らかになります。

匿名化は、データ管理者が、誰にもデータの同一性を確立することができない方法で、データを匿名化できることです。

図1 は、図2 に示されている通りに匿名化することができます(後ほど説明する一般化、ノイズ付加、および置換テクニックを使用しています)。

データ匿名化の概念に関連する欧州および米国の法律

前述したように、DPD の個人データに対する定義は、特定された、または特定可能な人物に関連した情報です。とりわけ、DPD の第2(a) 条には下記のように記されています。

「個人データ」とは、特定された、または特定可能な自然人(「データ対

象」)に関連したすべての情報を意味する。特定可能な人物とは、具体的には識別番号、あるいは、データ対象の身体的、生理的、精神的、経済的、文化的または社会的アイデンティティーを1 つ以上参照することで、直接的または間接的に特定できる人物を指す3

指令95/46/EC では、匿名化されたデータを除外するため、備考26 で匿名化について言及しています。備考26 には、データを匿名化するためには、データ対象を特定することがもはや不可能になるように、十分な要素を取り除く必要があることが表明されています。e- プライバシー指令(指令2002/58/EC)でも、非常に類似した観点で「匿名化」と「匿名データ」が言及されています。4

米国保健福祉省(HHS)は、米国医療保険の携行性と責任に関する法律(HIPAA)を施行することで、守られた健康データまたは保護された健康情報(PHI)の非識別化に対す明確かつ厳格な基準を 定めています。5 非識別化基準では、PHI から18 個ある指定された患者識別コード6 をすべて削除し、ビッグデータ用途で使用する前に、非識別化されたデータの再識別化を検証するために統計的または科学的原則を適用する必要があります。

データを仮名化および匿名化する方法

仮名化とは、記録の中で特に一意的な(例えば、人種や性別など)すべての特定できる属性を別のものに置き換えることによって、データセットを非識別化するプロセスを指します。ただしこの場合、データ対象の所有者(元のデータセットの所有者)は、依然としてデータを直接識別し、再識別化することができます。例えば、すべての識別データ要素を削除して、内部用の数値識別子を残した場合、サードパーティが再識別化することは不可能となりますが、データ管理者にとっては極めて容易になります。したがって、このような識別子、すなわちすべての仮名化されたデータは、依然として個人データとなります。

通常、仮名化されたデータをテストデータとして使用することは、想定されていません。このようなテストデータは匿名化される必要があります。このような用途に特化された一部の主要サイトから、無作為にデータを生成することができます。7 仮名化は、データセットとデータ対象の元の識別情報とのつながりを減らすため、ビッグデータ空 間に公表する前に、個人データの非識別化や匿名化に関連した法的問題を回避することができます。データ対象レベルでデータが特定されることのないように保護するために仮名化を導入する際には、下記を含む基本的なガイドラインが必要です。

  • データセットと他のデータセットを結びつけられる機能を排除し、匿名化されたデータのID を一意的に識別可能なものにする
  • 暗号化キーを暗号化されたデータと切り離して、別に安全に保存する
  • 管理上、物理上および技術上のセキュリティ対策を使用してデータを保護する

図3 は、仮名化の仕組みを表しています。

匿名化は、「管理者または他者によって使用される可能性のあるすべての手段」を使用することで、データが自然人を特定するために使用されなくなった場合に達成されます。8 仮名化と比較して、データの匿名化は元に戻せません。対象と対象の記録の結びつきがなくなり、匿名化されると、匿名化されたデータを再び確立することは事実上不可能です。基本的に、匿名化とは個人を特定できるデータを破壊することです。したがって、データを再びつなぎ合わせて確立することは事実上不可能です。

例えば、John は毎日同じヨガスタジオでヨガクラスに参加し、道すがら、スタジオの隣にある店でドーナツを購入するとします。また、John はいつも同じ方法で支払いをすまし、週に一度、ドーナツ店の隣にある公衆電話から妻に電話して、帰りにドーナツを持って帰ることを知らせます。前述の例のデータ所有者が「匿名化された」John の個人を特定できるデータ(名前、住所、電話番号など)を持っていたとしても、彼の行動をもとに、直接彼を特定できる可能性があります。したがって、グループ化を通して事実を記述することで、彼のデータを匿名化することが重要となるのです。例えば、「10 名がヨガスタジオを訪れ、スタジオの隣の店から毎日ドー ナツを購入した」、および「20 人が週に1 回、公衆電話から電話をかけた」などです。誰もJohn の予測できる行動パターンを特定できなくなるため、これでデータが匿名化されたことになります。データを匿名化することで、データの所有者と企業がデータを使用して個々のデータセットを特定することを完全に防止できます。ランダム化は、データと個人を結びつける一意の識別子を削除することで、データの精度を変えます。このテクニックを実施する方法は2 つあります。

  • ノイズの付加̶各記録に別のランダム値を足したり減らしたりすることで、属性を変更します(例えば、データ対象の評価にA+ とC- の間の別のランダム値を追加するなど)
  • 置換̶あるデータ対象から別のデータ対象に属性の値を置き換えます(例えば、対象データA の落第した年度のデータ対象の収入を、データ対象B のものと交換するなど)

結論

ビッグデータは指数関数的に増加しており、調査では「過去2 年間で全データの90%が生成されている」ことが明らかになっています。9 豊富な情報を活用するためのビッグデータの使用はすでに始まっており、これはGoogle Maps やウェブサイト上の予測的な検索パターンなどの技術プラットフォームが毎日使用されていることからもわかります。監査人にとって、匿名化あるいは非識別化で個人を特定できるデータを適切に対処するにあたり、ビッグデータの基本概念を理解することは重要です。ヨーロッパと米国両方における規制およびプライバシーの状況に特化された変更を含めたデータ使用に関する規制の増加により、慎重な技術的および法的な枠組みが必要となります。データが指数関数的に増加し続けるにつれ、データ所有者によるデータ対象のID の適切な保護が要求される新しい規制が出現する中、ビッグデータの使用に伴う技術と革新の向上のため、このようなテーマを慎重に掘り下げることが、今まで以上に重要となります。

後注

1 Sweeney, L.; “Simple Demographics Often Identify People Uniquely,” Data Privacy Working Paper 3, Carnegie Mellon University, Pittsburgh, Pennsylvania, USA, 2000, https://dataprivacylab.org/projects/identifiability/paper1.pdf
2 Office of the Data Protection Commissioner, “EU Directive 95/46/EC—The Data Protection Directive,” European Union, https://www.dataprotection.ie/docs/EU-Directive-95-46-EC-Chapter-1/92.htm
3 Ibid.
4 Data Protection Working Party, “Opinion 05/2014 on Anonymisation Techniques,” Article 29 Data Protection Working Party, European Union, 10 April 2014, http://ec.europa.eu/justice/data-protection/article-29/documentation/opinionrecommendation/files/2014/wp216_en.pdf
5 Department of Health and Human Service, “45 CFR Subtitle A (10–1–10 Edition),” USA, https://www.gpo.gov/fdsys/pkg/CFR-2010-title45-vol1/pdf/CFR-2010-title45-vol1-sec164-502.pdf
6 Department of Health and Human Services, “Guidance Regarding Methods for Deidentification of Protected Health Information in Accordance With the Health Insurance Portability and Accountability Act (HIPAA) Privacy Rule,” USA, https://www.hhs.gov/hipaa/for-professionals/privacy/special-topics/de-identification/index.html
7 Mockaroo, Realistic Data Generator, www.mockaroo.com
8 Office of the Data Protection Commissioner, “Anonymisation and Pseudonymisation,” European Union, https://www.dataprotection.ie/docs/Anonymisation-and-pseudonymisation/1594.html
9 Dragland, A.; “Big Data—For Better or Worse,” SINTEF, https://www.sintef.no/en/latest-news/big-data-for-better-or-worse/

Mohammed J. Khan、CISA、CRISC、CIPM
グローバル医療機器およびヘルスケア企業であるBaxter のグローバル監査マネージャーです。Khan は、監査、セキュリティ、医療機器エンジニアリング(サイバー)、およびプライバシー企業で経営幹部レベルに協力しています。複数の分野で多国籍企業のグローバル監査およびアセスメントの指揮を執っており、これらの分野には、過去5 年間にわたり複数の市場で指揮を執った、企業リソースプランニングシステム、グローバルデータセンター、クラウドプラットフォーム(AWS、 SFDC など)、サードパーティ製造およびアウトソーシングレビュー、プロセスリエンジニアリングおよび改善、グローバルプライバシーアセスメント(EUDD、 HIPAA、GDPR)、医療機器のサイバーセキュリティ戦略が含まれます。最近では、医療機器のサイバーセキュリティ分野においてその専門知識を駆使し、一層の活躍をしています。Khan は以前、Ernst & Young およびDeloitte のシニアコンサルタントを務めており、また、Motorola のグローバルERP/ サプライチェーンシステムの技術専門家も務めました。全国および国際的な会議でも、データプライバシー、サイバーセキュリティ、およびリスクアドバイザリーの分野において、頻繁に講演をおこなっています。