匿名化とは、当該個人情報から、当該情報に含まれる氏名、生年月日、住所等、個人を識別する情報(識別子)を取り除くことで、特定の個人を識別できないようにすることをいいます。しかし、単に匿名化を行っても他の情報と比較することで個人識別の可能性があります。

例えば(1)は個人情報です(図参照)。ここで個人を特定できる識別子(氏名、電話番号)を削除して(2)のように単純匿名化します。(2)のデータだけでは、特定の個人を識別できません。だだし、この情報が、A病院の情報であることが分かると(患者の郵便番号からA病院とわかる可能性は高い)、鈴木氏の知人B氏は、鈴木氏がA病院に通院していることを知っているなら、B氏は鈴木氏を特定可能となります(55才の男性会社員は鈴木氏だけ)。

このようなことを避けるため、最近K匿名性という概念を用いた手法が注目されています。K匿名性とは、同一属性(準識別子)のデータがK件以上になるようにデータを変換することで、個人が特定される確率をK分の1以下にして(K匿名性)、個人の特定を困難にする方法です。

K匿名性は、平成24年9月に発表された「医療等分野における情報の利活用と保護のための環境整備のあり方に関する報告書」でも紹介されています。私の知る限り、K匿名性が厚生労働省の公開資料に出てきた最初かと思います。

先の例で、(2)単純匿名化したデータを、準識別子の切り落とし(郵便番号)、あいまい化(年齢)を実施することによりK匿名化を行ったのが(3)です。同じ属性を持つデータが3つあり区別できないことから、鈴木氏を特定することは困難になります。

ここで、同じ属性の人がK人以上いる状態を「K匿名性」を満たすといい、そのようにデータを加工することを「K匿名化」いいます。この場合はK=3となります。

K匿名性は、匿名化のレベルを数量化した尺度であり、Kが小さければ匿名化のレベルは低く、大きければ高いとなります。医療情報を提供する場合、Kをいくつにするかは今後の課題となっています。

また、安全性を重視するばかりKを大きくしすぎてしまうと意味のないデータとなってしまうので、安全性と有用性のバランスの取れたKが求められます。

その他、K匿名性の属性推定リスクをさらに低減する手法として「L多様性」や「T近似性」などの手法も研究されています。

以上

041_K匿名化