주메뉴바로가기 본문바로가기
메뉴열기

시사저널

아이템도 스스로 정하는 AI 기자의 도래

트위터에서 뉴스를 선정해 자동으로 기사를 작성하는 로이터의 AI 시스템

김회권 기자 ㅣ khg@sisajournal.com | 승인 2018.01.07(Sun) 09:52:14 | 1472호

0
페이스북 트위터 카카오스토리 밴드 link

 

AP통신의 ‘워드스미스’는 기업 실적 기사를 쓰는 로봇이다. 인간인 ‘기자’가 담당했을 때는 분기당 300개 정도의 기업 실적 기사가 작성됐다. 그런데 워드스미스가 이 일을 맡으면서 분기당 4000개 이상의 기사가 쏟아지고 있다. 알맞은 포맷에 살짝 수정만 가하면 되니 ‘봇’의 속도를 따라갈 수 없을 지경이다. 이처럼 인공지능을 탑재한 로봇이 인간을 대신해 기사를 쓰는 건 곳곳에서 시도하고 있는 프로젝트다. 예를 들어 포브스의 ‘퀄’은 증권시황을 전달하고 스포츠 경기의 결과를 기사로 작성한다. LA타임스의 ‘퀘이크봇’은 지진 전문 로봇 기자로 활동 중인데 인간보다 빠르게 지진 발생 소식을 전하고 있다. 

 

인공지능이 기사를 쓴다는 건 놀라운 일이지만 한계점도 분명했다. 단순한 스트레이트 기사 작성으로 한정됐다. 아이템을 선정하는 일, 현상을 해석하는 일 등은 여전히 인간의 손길이 필요한 부분이었다. 그런데 이런 경계가 슬슬 무너질지 모르겠다. 최근 로이터의 연구 때문이다.

 

%A9%20%uC0AC%uC9C4%3DPixabay%B7%uC2DC%uC0AC%uC800%uB110


 

2%의 트윗으로 아이템을 정하는 ‘로이터 트레이서’

 

로이터의 연구개발팀이 발표한 보고서를 보자. “인터넷의 출현, 그리고 그에 따른 정보량의 증가로 기자가 정확하고 신속하게 뉴스를 전달하는 일이 점점 더 어려워지고 있다.” 어려움을 토로하며 시작한 보고서는 속보를 자동화해 전달하는 방법에 인공지능을 가세시켰다. 로이터의 연구개발팀과 중국의 알리바바그룹이 함께 만들어낸 이 시스템은 소셜미디어를 이용했다. 그들은 트위터를 안테나로 사용했다.

 

‘로이터 트레이서(Reuters Tracer)’는 일종의 추적 시스템이다. 특정한 공식에 따라 복사하고 숫자만 바꿔 붙여 기사를 쏘던 게 과거 인공지능 뉴스의 전달 방식이었는데, 로이터의 시스템은 좀 다르다. 스스로 이슈를 추적할 수 있는 능동성을 갖고 있다. 데이터마이닝과 기계 학습을 사용해 관련성이 높은 아이템을 선택하고 우선순위를 정한 뒤 제목과 요약을 작성해 기사를 내보낸다.

 

인공지능이 아이템까지 선택하는 건 낯선 모습이다. 어떻게 아이템을 정할까. 먼저 트위터에서 데이터의 흐름을 잡는 일부터 시작한다. 로이터 트레이서는 매일 전체 트윗의 2%를 확인한다. 갯수로는 약 1200만 건에 달한다. 2%의 전체 트윗 중 절반은 무작위로 추출한다. 나머지 절반의 트윗은 로이터 측에서 따로 작성한 트위터 계정 리스트에서 추출한다. 여기에는 기업이나 언론사, 유명인사 등이 포함돼 있다. 

 

이렇게 추출한 트윗에서 소식의 발생시기를 살펴본다. 로이터 트레이서가 발생시기를 파악하는 방법은 멘션의 동시유발 정도다. 여러 사람이 같은 주제에 대해 일제히 말문을 열었는지를 통해 발생시기를 파악한다. 수많은 사람들이 같은 주제에 대한 얘기를 주고받는 상황을 검출하는 거다. 

 

검출한 뒤에는 뉴스를 분류하고 우선순위를 매긴다. 로이터 트레이스는 여러 알고리즘을 이용해 우선순위를 정한다. 앞선 단계에서 추출한 트윗을 확인하고 CNN이나 뉴욕타임스, BBC 등 세계 주요 언론사의 공식 트위터 계정 등의 트윗과 로이터가 만든 뉴스의 데이터베이스와도 비교한다. 여기에는 위치 파악도 포함된다. 위치 기반 키워드 데이터베이스를 사용해 소식의 발생 위치도 파악한다.

 

만약 트윗 분석을 통해 이런 소식이 뉴스가 될 수 있다고 판단된다면? 진위여부가 중요해진다. 진실과 거짓을 구분하기 위해 로이터 트레이서는 트윗에서 언급한 소식이 화제가 되고 있는 원출처(주로 웹페이지)를 확인해 찾는다. 거짓뉴스나 풍자뉴스를 올리는 사이트의 데이터와 비교하는 작업도 병행한다. 이런 과정을 통해 이게 진실이라고 판단을 내리면 인공지능은 제목과 요약문을 작성해 로이터에 전달한다. 로이터 트레이서가 만드는 인공지능 뉴스는 이런 과정을 통해 아이템 단계를 거쳐 기사로 진화한다. 

 

 

“테스트해보니 70%정도의 범위를 커버하더라”

 

테스트 기간 동안 시스템은 무난하게 작동했다고 로이터 연구개발팀은 전했다. 그들은 보고서에서 “로이터 트레이서는 경쟁사에 뒤지지 않는 정확성과 적시성, 신뢰성을 통해 뉴스를 검색하고 배포할 수 있다”고 설명했다. 통계도 이를 뒷받침했다. 로이터 트레이서는 매일 1200만 건의 트윗을 처리하고 이 중 80%를 노이즈로 제거한다. 나머지 20%는 6000가지의 뉴스로 분류한다. 이 모든 과정은 10가지 종류의 알고리즘을 실행하는 13대의 서버에서 실행되고 있다.

 

로이터는 트레이서를 통해 나온 기사를 BBC나 CNN 같은 주요 언론사의 뉴스피드에 게재된 기사와 비교했다. 그 결과는 흥미로웠다. 보고서는 이렇게 결론 내렸다. “로이터 트레이서는 2%의 트위터 데이터에서 추출한 기사를 통해 약 70%의 뉴스를 커버할 수 있다는 걸 확인했다.” 인공지능이 제한적인 영역을 벗어나 우리 사회 다방면에서 기자 노릇을 할 수 있게된 셈이다. 

 

뒤따르는 의문도 있다. 트위터를 뉴스 소스로 삼는 게 신뢰도에 문제 없는지 따져봐야 하고 악의적인 세력이 대량의 트윗을 통해 소스를 왜곡할 여지도 있다. 하지만 뉴스의 자동화를 견인하는 노력이 계속 이뤄지고 있다는 점, 그리고 그 과정에서 인간의 설 공간이 점점 좁아지고 있다는 점만은 팩트인 것 같다.​ 

 

전체댓글0

0 /150
  • 최신글
  • 공감 순
  • 비공감 순
더보기

TOP STORIES

정치 > 경제 2018.09.25 Tue
추혜선 “포스코의 노조 와해 공작 드러나”…노조대응 문건 공개
Health > LIFE 2018.09.25 Tue
의사가 권하는 ‘명절 증후군’ 싹 날려버리는 법
연재 > 서영수의 Tea Road 2018.09.25 Tue
‘6대차(茶)류’ 넘나드는 하이브리드 백차(白茶)
한반도 2018.09.25 Tue
봄 이어 가을, 남·북·미 회담 삼각관계 데자뷔
국제 2018.09.25 Tue
[동영상] “방탄소년단 유엔 연설은 역사적 순간”
국제 > 한반도 2018.09.25 Tue
트럼프 만난 文대통령…비공개 회담선 무슨 대화 오갔나
경제 2018.09.25 Tue
평양 대신 워싱턴行 택한 정의선 홀로서기 가능할까
LIFE > Sports 2018.09.25 Tue
숫자로 본 ‘골프 황제’ 타이거 우즈 흥망사
경제 > 사회 2018.09.24 Mon
 ‘추석은 가족과 함께’ 옛말...호텔·항공업계 ‘金특수’ 누린다
갤러리 > 만평 2018.09.24 월
[시사 TOON] 평양 정상회담, 추석상 착륙
LIFE > 연재 > Health > 이경제의 불로장생 2018.09.24 월
[이경제의 불로장생] 총명은 불로장생의 길
LIFE > Culture 2018.09.24 월
한반도를 둘러싼  세 개의 《애국가》
국제 > 연재 > 이인자 교수의 진짜일본 이야기 2018.09.24 월
일제시대 독립운동가 도운 후세 다쓰지 변호사 추모제
사회 > 연재 > 노혜경의 시시한 페미니즘 2018.09.24 월
더도 덜도 말고 한가위만 같으려면
경제 > 국제 2018.09.23 일
혼돈의 미국 11월 중간선거…한국경제 먹구름
LIFE > Health 2018.09.23 일
당뇨엔 과일, 고혈압엔 술, 신장병엔 곶감 조심
한반도 2018.09.23 일
北
사회 > OPINION 2018.09.23 일
[시끌시끌 SNS] 퓨마 ‘호롱이’ 죽음과 맞바꾼 자유
LIFE > Culture 2018.09.23 일
헬프엑스 여행기 담은 김소담 작가  《모모야 어디 가?》
LIFE > 연재 > Health > 노진섭 기자의 the 건강 2018.09.23 일
[노진섭의 the건강] 급할 땐 129와 보건복지부를 기억하세요
LIFE > Sports 2018.09.23 일
세계 최강 여자 골프 “홈코스에서  우승해야죠”
리스트 더보기