이젠 누구나 문재인 대통령의 ‘랩’을 들을 수 있다
  • 공성윤 기자 (niceball@sisajournal.com)
  • 승인 2017.10.16 16:55
이 기사를 공유합니다

딥러닝 통해 사람 목소리 따라하는 ‘음성 합성 엔진’ 공개돼

 

저음이 멋진 배우 이선균이 아침마다 내 이름을 부르며 잠을 깨워준다면? 굳이 그에게 찾아가 녹음을 부탁할 필요가 없다. 음성 합성 기술 덕분이다. 이 기술이 10월16일 서울 삼성동 코엑스에서 열린 개발자 컨퍼런스 ‘데뷰(DEVIEW) 2017’에서 공개됐다. 네이버가 주최하는 이번 행사는 올해로 10회째를 맞이했다. 

 

이날 연사로 나선 개발자 김태훈씨는 “음성 합성 기술은 시각 장애인을 위한 오디오북이나 음성 안내 시스템, 대화 인공지능, 내비게이션 등 다양한 분야에 활용할 수 있다”고 말했다. 게임회사 데브시스터즈 소속의 김씨는 약 두 달 동안 혼자서 기술 개발에 몰두했다고 한다.

 

네이버 개발자 컨퍼런스 '데뷰(DEVIEW) 2017'에서 연설중인 개발자 김태훈씨. © 시사저널 공성윤

 

네이버 컨퍼런스에서 공개된 ‘음성 합성 기술’

 

김씨는 음성 합성 엔진을 만들기 위해 ‘딥러닝(Deep Learning)’을 활용했다. 이는 컴퓨터가 마치 사람처럼 스스로 학습하는 기술을 뜻한다. 지난해 3월 바둑기사 이세돌을 이긴 인공지능(AI) 알파고가 바로 이 딥러닝을 통해 탄생한 프로그램이다. 

 

일단 음성 합성 엔진이 학습을 하려면 데이터가 필요하다. 단 두 가지만 있으면 된다. 텍스트, 그리고 이를 읽는 사람의 목소리다. 김씨는 “손석희 앵커, 박근혜 전 대통령, 문재인 대통령 등 총 5명의 목소리와 텍스트를 이용했다”면서 “이 가운데 손석희 앵커의 목소리만 15시간을 입력했다”고 설명했다. 한나절이 약간 넘는 시간이다. 그 결과는 어떨까. 직접 들어보자.

 

 

“손석희는 대한민국의 언론인으로, JTBC 보도 담당 사장이다.”

 

 

 

“오스트랄로피테쿠스 아파렌시스는 멸종된 사람족 종으로, 현재에는 뼈 화석이 발견되어 있다.”

 

 

 

“프리벳가 4번지에 살고 있는 더즐리 부부는 자신들이 정상적이라는 것을 아주 자랑스럽게 여기는 사람들이었다.”

 

 

실제 손 앵커의 목소리와 크게 다르지 않다. 김씨는 “체감상 90% 정도의 정확도를 갖고 있다고 생각한다”고 말했다. 이 외에 박 전 대통령의 목소리는 5시간, 문 대통령은 2시간씩 입력했다. 손 앵커의 목소리를 따라하려고 했을 때보다 공부를 훨씬 덜 했다. 벼락치기(?)의 성과는 다음과 같다. 

 

 

“조금 뒤 300m 앞에서 강남구청 방면으로 좌회전하시기 바랍니다.”

 

 

 

 

“스타워즈는 2017년 12월에 개봉합니다.”

 

 

 

 

“마이 네임 이즈 박근혜 데스네. 와타시와 포머 프레지던트데스.”

 

 

 

“마이 네임 이즈 문재인 데스네. 와타시와 프레지던트데스.”

 

 

전․현직 대통령의 가짜 목소리는 김씨의 연설 도중에 재생됐다. 관객들 사이에서 나지막이 감탄소리가 흘러나왔다. 김씨는 “음성 합성 기술의 핵심은 배운 적이 없는 문장도 얼마나 잘 말할 수 있느냐 하는 것”이라며 “딥러닝이 이를 상당 부분 해결됐다”고 강조했다. 

 

게임회사 '데브시스터즈' 부스에서 참가자들이 음성 합성 기술을 테스트하고 있는 모습. © 시사저널 공성윤

 

감탄 터져나오게 한 가짜 음성…“90% 정확할 것”

 

김씨에 따르면, ‘오스트랄로피테쿠스’처럼 복잡한 단어나 ‘띵작’ 등 뜻이 없는 단어도 자연스럽게 발음이 가능하다고 한다. 문장의 흐름에 따라 띄어 읽거나 높낮이를 알아서 맞추기도 한다. 속도 조절도 할 수 있다. 게다가 김씨는 음성 합성 기술의 설계도(소스코드)를 공개할 예정이다. 이렇게 되면 누구나 각자 원하는 목소리로 특정 문장을 읽게 할 수 있다. 

 

혹시 음성 합성 기술이 가짜뉴스를 만드는 데 악용되진 않을까. 이와 관련, 워싱턴 대학교는 음성에 맞춰 입술을 움직이게 하는 기술을 개발한 바 있다. 대학은 이 기술을 통해 만든 ‘가짜 립싱크 영상’을 7월11일(현지시각) 홈페이지에 공개했다. 영상에서 가짜 오바마 대통령은 진짜 음성에 맞춰 입을 움직인다. 이와 같은 기술이 음성 합성 기술과 합쳐진다면, 가짜 손석희 앵커가 TV에 나와 가짜 뉴스를 읽는 장면을 만들 가능성도 있다.

 

 

워싱턴 대학교가 7월11일 홈페이지에 공개한 영상. 왼쪽이 진짜 오바마 대통령이고, 오른쪽은 가짜다.

 

 

가짜뉴스 생산 우려도…“함께 풀어야 할 문제”

 

이에 대해 김씨는 시사저널과 따로 만나 “물론 가짜뉴스가 생산될 우려도 있다”고 인정했다. 다만 그는 “자율주행 자동차가 윤리적 문제를 안고 있는 것처럼, 기술의 발전에는 자연스럽게 부작용이 따른다”면서 “이는 사회 모두가 함께 풀어나가야 할 문제”라고 강조했다. 

 

김씨는 “음성 합성 기술이 실제 목소리와 구별되기 힘들 정도로 발전하기까지 얼마나 시간이 걸릴지 알 수 없다”고 했다. 하지만 관련 기술은 이미 상당한 수준에 도달한 것으로 알려져 있다. 구글의 자회사이자 알파고를 만든 딥마인드가 지난해 9월 내놓은 ‘웨이브넷(WaveNet)’이 그 예다. 미국 IT매체 테크크런치는 올 10월4일 웨이브넷의 표현력을 “소름 끼칠 정도로 확실하다(eerily convincing)"고 묘사했다. 

 

이 기사에 댓글쓰기펼치기