“가짜뉴스? 인공지능으로 상당수 구분 가능하다”
  • 대전=김회권·김경민 기자 (khg@sisajournal.com)
  • 승인 2017.12.26 17:04
이 기사를 공유합니다

[인터뷰] R&D 챌린지 준우승팀 ‘아이와즈’가 말하는 AI와 가짜뉴스

 

아무리 좋은 기술이라도 쓰여야 가치가 있는 법이다. 요즘 핫한 인공지능(AI)도 마찬가지. 인공지능은 이미 우리에게 가까이 온 듯하고, 이 기술만 있다면 모든 난제를 풀 수 있을 거라 사람들은 기대하고 있다. 

 

현실의 문제를 AI가 해결하는 법을 보고 싶다면? ‘인공지능  R&D 챌린지’는 이런 물음에 해답을 주는 행사다. 정부가 요구하는 제안에 맞춰 연구자들은 계획서를 제출한다. 뭐든 순위싸움이 생기면 흥미로운 법인데 계획서가 통과된 팀은 과제 풀이 과정을 다른 팀과 경쟁해 승부를 겨루는 게 이 행사의 묘미다. 

 

© 사진=Pixabay

올해의 과제는 매우 흥미로웠다. AI를 사용해 가짜뉴스를 찾아야 했다. 최근 대통령 선거가 열린 미국과 한국 모두 가짜뉴스가 화두였다. 선거 결과에 영향을 주기 위해 제작된 가짜뉴스는 실제로 힘을 발휘했고 미국에서는 ‘러시아 게이트’로 확대돼 특검이 진행 중이다. 민주주의의 정수인 ‘민의’를 왜곡하는 가짜뉴스를 인공지능이 찾을 수 있다는 건 꽤나 매력적인 일일 수 있다.

 

2017년 7월~12월까지 진행한 이번 R&D 챌린지에서는 2단계에 걸쳐 경쟁이 벌어졌다. 첫 번째는 뉴스 기사 제목과 내용의 불일치 여부를 찾는 거였고, 두 번째는 기사의 맥락과 관계없는 기사 내용을 검출하는 거였다. 챌린지를 치른 결과 우수한 성적을 기록한 3개 팀이 수상을 했다. 수상팀은 정부의 후속 지원을 받으며 관련 프로젝트를 진행할 수 있다. 1위는 ㈜이스트소프트와 줌인터넷㈜의 연합팀인 ‘Deepest팀’이 차지했고 2위는 강장묵 남서울대 교수와 (주)아이와즈가 함께한 ‘아이와즈팀’의 몫이었다. 3위는 스타트업인 ㈜누아의 ‘누아팀’이 받았다. 

 

가짜뉴스를 인공지능이 거를 수 있다는 건 기자 입장에서도 흥미로운 소재다. 특히 내년에는 지방선거가 있는 때라 가짜뉴스를 둘러싼 논의에 더욱 관심이 갈 수밖에 없다. 2위를 차지한 아이와즈가 있는 충남대를 찾았다. 회의실 뒤편 책장에서 책 여러 권이 눈에 들어왔다. 엔지니어의 회의실과 어울리지 않는, 어휘와 문법을 다룬 국어 관련 서적들이었다. 양중식 대표와 오지훈 선임연구원은 “엔지니어지만 언어를 따로 배워야 했다”고 말했다.  

 

대전 충남대 산학연구교육연구관 내 사무실에서 R&D 챌린지 준우승팀 ‘아이와즈’의 양중식 대표이사(오른쪽)와 오지훈 선임연구원을 만났다. © 시사저널 김경민

 

인공지능이 가짜뉴스를 구분할 수 있다는 기대감을 가져도 될까. 완성도는 어느 정도라고 보면 될까.

 

양중식 대표(양) : 사람들은 인공지능을 말할 때 자비스(마블의 영화 ‘아이언맨’에서 주인공 토니 스타크가 개발한 인공지능 비서)를 생각하기 쉽다. 만약 자비스를 100이라고 하면 제 판단에는 30 정도다. 이번 챌린지에서 주제는 한정돼 있었다. 현실에서는 헷갈리는 가짜뉴스들도 많이 나온다. 본인이 팩트를 솔직히 말하지 않으면 가짜인지 알 수 없는 뉴스까지는 파악하기 어렵다. 그 수준까지 가야 100이다. 지금 인공지능이 가짜 뉴스를 찾는 건 영화 ‘마이너리티 리포트’처럼 패턴을 분석해 범죄자를 찾는 방식과 비슷하다고 볼 수 있다. 하나의 주제를 가지고 정보를 취합해 진짜인지 가짜인지 파악하는 식이다.

 

 

분석 대상이 이번 챌린지에 제시된 뉴스(제목과 내용의 불일치, 기사 맥락과 관계없는 기사)만 해당되는 건가.

 

오지훈 연구원(오) : 가짜뉴스 유형과 인공지능 기반 기술을 알아야 할 필요가 있다. 가짜 뉴스의 유형을 정리해보니 크게 3가지로 분류되더라. 기만적인 정보를 담고 있는 것, 오보, 그리고 루머를 포함한 뉴스다. 이번 R&D 챌린지에서 초점을 맞춘 유형은 기만과 오보를 다룬 유형이다. 루머의 경우는 팩트체크를 통해 진실 여부를 판단해야 하기 때문에에 또 다른 영역이다. 


: 챌린지 때 나온 문제를 해결하는 것 외의 부분도 해결할 수 있는 기술력은 있다. 이번에 챌린지에서 인정받은 기술은 일부분이다. 

 

 

챌린지 이야기를 조금 해보자. 일반인들이 알기 쉽게 처리 속도 등을 어느 정도 수준이라고 설명해 줄 수 있을까.

 

: 약 5000건에 대한 문제가 주어졌는데 우리는 30분 만에 풀었다. 속도는 매우 빨랐다. 5~6시간 걸린 팀도 있었다. 하지만 가짜뉴스를 다루는 문제는 단순히 속도로만 말하기 어려운 점이 있다.

 

: 속도는 양면성을 갖는다. 만약 처리 속도가 중요한 이슈라면 알고리즘 변경이나 하드웨어로도 극복이 가능하다. 하지만 가짜뉴스는 정확성에 초점을 맞추어야 한다. 품질의 문제가 더 중요하다.

 

 

품질의 문제는 결국 팩트 체크 부분에 달려있지 않을까. 인공지능으로 정확한 구분이 가능한가.


: 예를 들어 진짜 정보를 담고 있는 뉴스와 가짜 정보를 담은 뉴스가 있을 때, 이번 챌린지에서 제목과 본문의 불일치를 구분하는 것과 범위만 달라질 뿐이지 기술은 동일하게 적용 가능하다. 오히려 팩트체크는 외부의 수많은 정보를 밀어넣고 비교할 수 있기에 더 쉬울 수 있다. 외부에 지식이 많을수록 진짜와 가짜의 구분은 더 쉬워진다. 


: 때에 따라서는 양면성이 있다. 기존에 관련 팩트가 많이 쌓여있는 뉴스가 있고 과거에 전혀 없던 새로운 팩트가 나온 경우가 있을 수 있다. 예를 들어 유력인사에게 혼외자가 있다는 뉴스가 문제가 된다면 이건 과거에 없던 팩트라 발견이 힘들 수 있다. 가짜뉴스를 찾아내는 데에도 다양한 퀘스트가 존재한다. 한 단계씩 차근차근 접근해야 한다.

 

 

한글과 영어에서 오는 차이도 있을 것 같다. 

 

: 딥러닝 기술 자체로는 한글과 영어에서 큰 차이는 없다. 오히려 딥러닝도 머신러닝도, 기존에 정형화된 좋은 데이타가 있냐 없냐가 중요하다. 영어는 그런 데이터가 엄청 많다. 유의어나 반의어 등이 풍부하게 정리돼 있고 구조화가 많이 이루어졌다. 그러다보니 좋은 학습을 시킬 수 있다. 그에 비해 한국어는 부족하다. 요즘은 그래도 쫓아가고 있는 상태다.

 

: 예전에 우리나라에도 '21세기 세종계획'(1988년부터 10년간 언어 자료를 전산화하는 프로젝트)이라는 말뭉치 구축이 있었다. 이런 말뭉치를 기반으로 만든 언어처리시스템을 써야 한다. 2018년부터 말뭉치를 다시 구축하는 작업을 한다는 소식을 들었다. 

 

 

인공지능이 가짜뉴스를 구분하면 사람이 해야 할 역할은 없어지나.

 

: 일단 수작업은 지금도 필요하다. 페이크뉴스의 정답 셋을 만들기 위해서는 수작업을 많이 해야 한다. 아마 완벽한 시스템이 나오기 전까지 사람의 중재가 반드시 필요할 거다. 가짜뉴스인지 아닌지에 따라 예민해지는 문제가 발생할 때는 사람의 중재가 더욱 중요해진다. 


: 인공지능이 가짜뉴스를 구분하는데도 먼저 이뤄져야 할 작업이 있다. 사람이 판단해 이게 진짜인지 가짜인지 판단할 수 있는 피드백 정보가 강화학습에서는 매우 중요하다. 피드백을 받으면서 진화해가는 시스템이 기본 골격이다. 이런 식으로 강화학습이 이뤄지고 어느정도 성능의 품질이 올라오면 사람이 참과 거짓을 판단하기 전에 기계가 먼저 판단하는 수준이 올 거다.

 

 

만약 지금 현재 인공지능을 가짜뉴스를 구분하는데 접목한다면 우려되는 부분은 무엇일까.

 

: 아마 가장 큰 영향을 받는 건 정치가 아닐까. 가짜뉴스란 게 선거를 앞두고는 더 화두가 될 수 있는데, 이런 걸 책임지는 시스템이 돼 버리면 불편해질 것 같다. 품질을 높이는 부분은 계속 노력해야 하는 게 당연하다. 다만 외풍을 타서 개발 환경이 저해되지 않을까하는 생각은 해본다.

 

 

그런 외풍을 피하려면 결국 결과물의 신뢰도가 높아져야 하는 것 아닌가.

 

: 인공지능을 쉽게 이해하려면 사람을 생각해보면 된다. 우리가 루머를 대할 때도 이게 진짜인기 궁금해서 외부에서 지식을 찾는다. 그리고 그걸 의미 해석해서 판단한다. 인공지능도 그렇다. 뉴스 문맥을 파악하고, 외부 지식을 긁어오고, 이걸 확률적으로 판단한다. 그 밑바닥 기술이 이번 챌린지 안에 들어 있다.

 

: 맞다. 특정 뉴스가 가짜인지 찾으려면 학습을 위해 필요한 관련 정보를 모두 찾아 정리해놔야 하는 작업이 필요하다. 결국 판단은 최종적으로 인간이 개입해야 하는 부분이다. 인공지능이나 머신러닝은 일반 컴퓨터공학에서 말하는 0과 1로 구분되는 게 아니라 퍼센티지의 영역이다. 100퍼센트는 없다. 사람도 갸우뚱하는 문제들이 많은데 이것도 마찬가지다. 다만 이런 판단을 기계가 더 빨리 하는 거다. 정답이 하나는 아니지 않나. 여러 알고리즘을 써서 정답의 확률을 높여야 한다. 사람의 지식체계와 비슷하게 맞춰야 한다. 인공지능이 이제야 불을 때는 중이다. 비유하자면 밥을 짓기 위해 쌀 씻고 있다. 인공지능이 있으니 모든 게 다 될 거라고 성급하게 생각 안 하면 좋겠다. 현재는 너무 거품이 껴있다. 조금만 더 성장할 수 있게 기다려줘야 한다.

 

이 기사에 댓글쓰기펼치기