My Log

정리 : 개인정보 비식별 조치 가이드라인 본문

취업준비/IT 이야기

정리 : 개인정보 비식별 조치 가이드라인

My Log 2019. 8. 1. 21:40

데이터분석 준전문가 자격증을 준비하면서, 개인정보 데이터 활용 시 비식별화에 대한 가이드라인을 찾아보았습니다.

개인정보 비식별 조치 가이드라인(2016년)을 요약하여 기록하고자 합니다.

 

 

1. 개인정보 비식별 조치 가이드라인 작성 배경

 

빅데이터, IoT 등 IT 기술과 융합된 산업의 출현은 또 다른 기회가 되고 있으나, 기술 활용과정에서 발생할 수 있는 개인정보

침해 우려는 신산업 발전과 개인정보의 보호를 조화롭게 모색해야 하는 과제를 제기하였다.

 

이에 개인정보보호 법령의 틀 내에서 데이터의 안전한 활용을 위해 개인정보의 비식별 조치기준과 비식별 정보의 활용 범위

등을 명확히 제시함으로써 기업의 불확실성을 제거하여 산업 발전을 도모하는 한편, 국민의 개인정보인권 보호에도 소홀하지

않도록 하기 위해 가이드라인을 제시하였다.

 

가이드라인에 따라 정보주체를 알아볼 수 없도록 비식별 조치를 적정하게 한 비식별 정보는 개인정보가 아닌 것으로 추정되며,

빅데이터 분석 등에 활용이 가능하다.

 

다만, 비식별 조치에서 끝날 것이 아니라, 비식별 정보도 기술발전과 데이터 증가 등에 따른 재식별 가능성이 있음을 고려하여

관리적ㆍ기술적 안전조치 등을 통해 안전하게 관리해야 한다.

 

 

2. 개인정보의 비식별 조치 단계

     

     1) 사전검토

          - 개인정보 해당유무에 대한 검토

          - 개인정보가 아닐 시 규제 없이 활용 가능

 

     2) 비식별 조치

          - 개인을 알아볼 수 없도록 조치

          - 데이터 셋에서 개인을 식별할 수 있는 요소를 전부 또는 일부 삭제하거나 다른 값으로 대체

 

     3) 적정성 평가

          - '비식별 조치 적정성 평가단'을 통해 다른 정보와 결합하여 개인을 식별할 수 있는지 여부를 평가

          - '비식별 조치 적정성 평가단'은 개인정보보호책임자, 외부 전문가 등으로 구성(과반수 이상의 외부전문가 위촉)

 

     4) 사후 관리

          - 안전조치, 재식별 가능성 모니터링 등 사후관리 수행

 

 

3. 비식별 조치 방법

 

     1) 가명처리(Pseudonymization)

          - 개인을 식별할 수 없는 다른 값으로 대체하는 기법

          - 장점 : 데이터의 변형 또는 변질 수준이 적음

          - 단점 : 대체 값 부여 후에도 식별 가능한 고유 속성이 계속 유지

          - 세부 기술 : 휴리스틱 가명화, 암호화, 교환 방법

 

     2) 총계처리(Aggregation)

          - 통계값(전체 혹은 부분)을 적용하여 특정 개인을 식별할 수 없도록 한다.

          - 장점 : 민감한 수치 정보에 대한 비식별 조치가 가능, 통계분석용 데이터셋 작성에 유리

          - 단점 : 통계값이므로 데이터 정밀 분석이 어려움, 집계 수량이 적을 경우 추론에 의한 개인 식별이 가능

          - 세부 기술 : 총계처리, 부분총계, 라운딩, 재배열

 

     3) 데이터 삭제(Data Reduction)

          - 개인 식별이 가능한 데이터를 삭제한다.

          - 장점 : 개인 식별요소의 전부 또는 일부 삭제로 식별요소 자체를 제거

          - 단점 : 분석의 다양성과 분석결과의 유효성 및 신뢰성이 저하된다.

          - 세부 기술 : 식별자 삭제, 식별자 부분삭제, 레코드 삭제, 식별요소 전부삭제

 

     4) 데이터 범주화(Data Suppression)

          - 특정 정보를 그룹의 대푯값으로 변환하거나 구간값으로 변환하여 개인 식별을 방지한다.

          - 장점 : 범주화를 통해 통계형 데이터를 가공하고 분석이 가능

          - 단점 : 정확한 분석결과의 도출이 어려움, 범위 그룹이 좁혀질 경우 추론 가능성 존재

          - 세부 기술 : 감추기, 랜덤 라운딩, 범위 방법, 제어 라운딩

 

     5) 데이터 마스킹(Data Masking)

          - 데이터의 전부 또는 일부분을 대체값(공백, 노이즈 등)으로 변환한다.

          - 장점 : 개인 식별 요소의 제거, 원 데이터 구조의 변형이 적음

          - 단점 : 마스킹이 과도할 경우 데이터 이용 목적에 활용하기 어려울 수 있고,

                        마스킹 수준이 낮은 경우 추론이 가능

          - 세부 기술 : 임의 잡음 추가, 공백과 대체

 

 

 

 

4. 프라이버시 보호 모델

          - 재식별 가능성 검토 기법

<프라이버시 보호모델(개인정보 비식별 조치 가이드라인)>

     1) k-익명성(k-anonymity)

          - 공개된 데이터 <표 1>에 대한 연결공격 등 취약점을 방어하기 위해 제안된 모델이다.

               → 연결공격 : 예를 들어, 공개된 데이터 <표 1>이 선거인명부 <표 2>와 결합하여 민감정보인 병명이 노출된다.

                                        (ex) 김민준 (13053, 28, 남자) → 환자 레코드 1번 → 전립선염    

          - 따라서, 연결공격을 방어하기 위해 데이터 셋에서 같은 값이 적어도 k개 이상 존재하도록 하여

            다른 정보와 쉽게 결합할 수 없도록 한다.

               → <표 1>에 k-익명성을 적용하여 <표 3>과 같이 적용

 

          - k-익명성이 가진 취약점

               → 동질성 공격

                      : k-익명성에 기초한 값 외의 값이 동질성을 갖는다면, 공격 대상에 대한 정보를 알아낼 수 있다.

                      : <표 3>에서 레고드 9~12의 질병정보는 모두 '위암'이므로, k-익명성 적용 후에도 질병정보가 노출된다.

 

               → 배경지식에 의한 공격

                      : 주어진 데이터 이외의 배경 지식을 활용해 공격 대상에 대한 정보를 알아낼 수 있다.

                      : k-익명성이 적용된 공개데이터 <표 3>을 <표 2>와 결합했을 때, 공격자가 '이지민'의 질병을 알아내려고 하면

                        정보의 결합(13068, 29, 여)에 따라 '이지민'은 <표 3>의 1~4 레코드 중 하나이며 질병은 전립선염 또는 고혈압임을

                        알 수 있다. 이 때, '여자는 전립선염에 걸릴 수 없다'는 배경 지식에 의해 '이지민'의 질병을 고혈압으로 추론할 수 있다.

 

 

     2) ℓ-다양성(ℓ-diversity)

          - k-익명성의 취약점을 보완한 프라이버시 보호 모델

          - 데이터 셋에서 함께 비식별화되어 동질 집합(k-익명성에 의해 같은 값으로 묶인 집합)이 된 레코드들은

            적어도 1개의 서로 다른 민감정보를 가져야 한다.

 

<ℓ-다양성 적용, ℓ=3>

 

          - ℓ-다양성이 가진 취약점

               → 쏠림 공격

                      : 정보가 특정한 값에 쏠려 있을 경우, 프라이버시를 보호할 수 없다.

               → 유사성 공격

                      : '동질 집합'의 정보가 다양하더라도, 위궤양, 급성 위염, 만성 위염과 같이 의미가 서로 유사하다면

                        '위'에 관한 질병이 존재함을 알아낼 수 있다.

 

               → 예를 들어, 아래 <표 5>와 같은 방식으로 ℓ-다양성(ℓ=3)이 적용된다면, 질병의 다양성에도 불구하고

                     공격 대상자는 공격 대상이 높은 확률로 '위'와 관련된 질병이 있음을 알 수 있다.

                     또한, 레코드 1~3의 경우 급여와 질병의 다양성에도 불구하고, '위'에 관한 질병을 가진 동시에 다른 사람에

                     비해 상대적으로 낮은 급여를 받고 있음을 알 수 있다.

 

 

     3) t-근접성(t-closeness)

          - ℓ-다양성의 취약점을 보완하기 위한 프라이버시 모델

          - 특정 정보의 분포가 동질 집합 내에서와 전체 데이터 셋 내에서 t 이하의 차이를 보여야 한다.

             (말 그대로 특정 정보의 분포가 유사해야 한다)

          - '정보의 분포'를 조정하여 정보가 특정 값으로 쏠리거나 유사한 값들이 뭉치는 경우를 방지한다.

          - t 수치가 0에 가까울수록 전체 데이터의 분포와 특정 데이터 구간의 분포 간에 유사성이 강해지기 때문에

            비식별의 방어가 더 강해진다.

 

 

 

5. 적정성 평가 절차

 

     1) 기초자료 작성

          - 적정성 평가에 필요한 데이터 명세, 비식별 조치현황, 관리 수준 등 자료 작성

 

     2) 평가단 구성

          - 개인정보 보호책임자, 외부 전문가 등으로 평가단 구성 (데이터 이용에 이해관계가 없는 자로 구성)

 

     3) 평가 수행

          - 개인정보처리자가 작성한 기초자료와 인터뷰 등을 진행하여 

            데이터에 개인식별 요소의 포함여부, 데이터 이용 목적, 적용된 비식별 조치기법 등을 검토

          - 재식별 시도 가능성, 재식별 시 영향도, 데이터 이용자의 개인정보보호 수준 등을 분석

 

          - 계량분석 수행 : 개인정보처리자가 제출한 k값의 정확성 검증

          - 평가기준값 결정 : 기초자료 및 재식별 영향 등을 종합적으로 고려해 k-익명성의 기준값 결정

               → 미국 개인정보보호 기술지원센터의 안전도 기준

                     'k=3'은 최소한의 안전수준, '5≤k≤10'은 높은 안전도 수준)

 

          - 적정성 평가 수행 : '계량분석'과 '평가기준값'을 비교하여 적정성 여부 결정

               → k-익명성 : '계량분석≥평가기준값'인 경우 적정

               → ℓ-다양성 :  '계량분석≥평가기준값'인 경우 적정

               → t-근접성 : '계량분석 < 평가기준값'인 경우 적정

 

     4) 추가 비식별 조치

          - 3)의 평가결과가 '부정적'인 경우 추가적인 비식별 조치를 수행

 

     5) 데이터 활용

          - 3)의 평가결과가 '적정'인 경우 데이터 활용이 허용

          - 데이터 활용 이후 이용목적을 달성하였거나, 불필요하게 된 경우 지체 없이 파기

 

 

6. 사후관리

 

     1) 정보유출에 대한 보호조치

          - 비식별 정보라도 유출 시 다른 정보와 결합하여 식별될 우려가 존재하므로

            관리적ㆍ기술적 보호조치를 수행한다.

 

     2) 재식별 가능성 모니터링

          - 재식별 가능성이 발견된 경우, 즉시 정보처리를 중단하고 파기하여

             비식별 조치를 다시 수행한다.

'취업준비 > IT 이야기' 카테고리의 다른 글

Linux Server - Permission(권한)  (0) 2019.08.03
Comments