[비식별화 까기] 조금만 교차하면 내가 누군지 다 안다
  • 강장묵 교수 (고려대학교 정보대학) (sisa@sisapress.com)
  • 승인 2016.11.27 12:13
이 기사를 공유합니다

행정자치부가 6월에 발표한 ‘개인정보 비식별 조치 가이드라인’이란 게 있다. 이 가이드라인의 핵심은 이거다. ‘비식별화’된 개인정보라면 개인동의를 따로 구하지 않아도 정보수집이나 제3자 제공이 가능하다는 거다. 우리가 ‘체크’하기 꺼려하는 것 중에 ‘개인정보 제3자 제공’ 동의란 게 있다. 그런데 앞으로는 내가 누군지 알아보기 어렵도록 개인정보의 일부 또는 전부를 삭제하거나 대체하면 굳이 내가 동의하지 않더라도 내 데이터를 제공할 수 있도록 하는 게 가이드라인의 핵심이다.  

 

필자가 ‘비식별화’라는 요상한 단어를 들은 때는 막 세계 여행을 마치고 온 2014년 여름이었다. 2014년 당시 필자는 1년 동안 김치와 된장 구경을 못한 상태였다. 우리나라 음식도 제대로 먹지 못하고 다닌 것에 더해 격렬한 ICT(Information & Communication Technology) 흐름을 따라가지 못한 1년간의 공백은 마치 채울 수 없는 허기 같았다.

 

발 빠른 우리나라의 ICT 정책과 사조는 사실 도랑에 흐르는 급물살 같아서 격렬하게 흘러갔다. 게다가 박근혜 대통령이 내놓는 말 한마디에 따라 주제도 자주 바뀌곤 했다. 되짚어보면 2014년 여름, 그때의 한국은 빅데이터라는 새로운 사조가 태동하던 때였다. 그때도 ‘창조경제’ 기조 하에 빅데이터 산업이 등장했다.

 

뭘 연구해서 어떻게 먹고 살아야 하나라는 궁핍한 생각을 하던 때, 평소 인간적으로 친했던 한 연구원이 ‘빅데이터 활용을 위한 비식별화 기술 연구’를 해보라고 제안했다. 비식별화는 개인정보의 보안, 즉 ‘프라이버시’를 전공으로 하는 필자에게 매우 매력적인 기술로 보였다. 하지만 그 매력적인 기술이 사실은 이름만 번지르르한 요상한 말일뿐 실체도 없고 그 내용이 까마득한 먼 이야기라는 것을 알기까지 그리 오래 걸리지 않았다.

 

 


‘비식별화’란 말 그대로 정보를 식별하지 못하도록 한다는 말이다. 알아볼 수 없도록 한다는 얘기다. 예를 들어 필자의 이름은 ‘강장묵’이다. 이 이름은 아주 촌스럽고 흔하지 않은 이름이라 검색하면 쉽게 노출이 된다. 사실 이런 식별하기 쉬운 촌스런 이름은 좋을 게 없다. 조금만 검색해보면 속된 말로 탈탈 털리기 쉽다. 내가 어떤 활동을 했는지, 정치적 성향이 어떤지, 내가 쓴 글의 내용이 무엇인지 누군가 알아보고자 하면 쉽게 알 수 있다. 

 

만약 이런 촌스럽고 알기 쉬운 이름을 비식별화하면 어떻게 바뀔까. ‘강장묵’이라는 고유한 이름은 ‘강OO’이 된다. 아주 좋지 않은가? 찾아보니 강 씨는 대한민국에 약 1백만 명정도가 살고 있다. 그 1백만명 중 한 사람으로 숨어들게 되고 내가 누군지 식별이 되지 않는다. 이런 정보의 숨김을 ‘비식별화’라고 한다. 

 

그런데 이건 아주 단순한 사례일 뿐이다. 여행을 자주 다니는 필자는 카드로 항공편 결제를 자주 한다. 그렇게 될 경우 내 정보의 흔적을 흘리게 된다. 카드사에서는 내 생년월일을 알 수 있다. 그리고 몇월에 주로 해외로 나가는지, 성수기에 가는지 비성수기에 가는지, 해외에서 호텔과 렌터카 등은 무슨 카드로 결제하는지, 주로 어느 나라, 혹은 대륙으로 가는지 알 수 있다. 내 이름 석자가 강OO으로 비식별화가 된 건 좋다. 하지만 비행기와 숙소 예약 정보가 여기에 더해지면 난 과연 식별되지 않을까. 만약 비식별화된 정보라 할지라도 몇 가지 정보들이 더해질 경우 굳이 출입국 관리소에 출입국 사실을 확인하지 않아도 내가 어느 나라에서 무얼 하고 있는지를 알 수 있게 된다.

 

다시 한 번 풀어보자. 40대 중년의 강씨 성을 가진 한 사람이 있다. 일단 이것만으로는 비식별화가 성공한 셈이니 훌륭한 일이다. ‘강장묵’을 ‘강OO’으로 비식별화한다면 한국에 살고 있는 강 씨의 숫자만큼 찾기 어려워지니 말이다. 여기에 생년월일의 개인정보도 ‘40대’라고 두루뭉술하게 비식별화 적용이 가능하다. 이렇게 될 경우 대한민국의 40대 인구 속에 한 명으로 존재할 뿐이니 내가 누군지 알기 어려워진다.

 

그렇다면 정말 비식별화는 완벽한 기술일까. ‘굳이 비식별화를 왜 사용하는가’라는 질문부터 해보면 비식별화가 얼마나 취약한 기술인지 알 수 있다. 비식별화는 단순히 ‘40대 남성’ 혹은 ‘강OO’이냐를 따지기 위해 사용하는 것이 아니다. 다른 정보와 결합해서 활용하기 위해 사용된다. 예를 들어 40대 남성+강OO+여름에 하와이를 자주 간다는 이 3가지 비식별화 정보가 결합된다면? 아마 해당하는 사람의 숫자는 엄청나게 좁혀지고 자칫하면 특정도 될 수 있다. 그리고 이 정보는 아마도 여행사에 팔면 참 좋을 거다. 수요 예측을 위해 이런 데이터를 산 여행사는 아마도 5~6월쯤 무료 렌터카나 호텔 프로모션 안내 정보를 메일이나 문자로 보낼 수 있을 거고, 마케팅에 활용할 수 있다. 이처럼 비식별화된 정보들이 결합하는 걸 ‘재식별화’라고 한다.

 

그나마 이런 여행사의 마케팅을 위해서라면 다행이다. 만약 비식별화된 정보들 중에는 건강과 밀접한 정보도 있을 수 있다. 약국의 처방전 같은 게 대표적이다. 비식별화된 정보들이 결합해 재식별화 과정을 거쳐 내가 무슨 질병을 가지고 있는지 보험사가 특정할 수 있게 된다면? 생각만 해도 끔찍하지 않을까. 

 

앞서 언급했지만 정부가 비식별화 가이드라인을 발표한 건 이런 데이터관련 산업을 활성화하겠다는 의도에서다. 각종 개인정보와 관련된 데이터를 비식별화해 모자이크 처리한 뒤 상품개발이나 마케팅전략을 위해 민간에 판매하겠다는 게 정부의 생각이다. 그런데 모자이크를 벗길 수 있는 기술은 항상 존재하는 법이다.​ 

 

이 기사에 댓글쓰기펼치기