우리말 알아듣는 컴퓨터 나온다

음성 인식 소프트웨어 개발 경쟁…2000년엔 동시 통역 실용화

컴퓨터 공포증은 복잡한 키보드에서부터 시작된다. 어느 키를 눌러야 할지 도무지 알 수가 없다. 컴퓨터 기능을 배우는 것도 그렇지만 새삼스레 타자훈련을 받는 일도 번거롭다. 말귀를 알아듣는 컴퓨터가 어디 없을까.

우리가 상상하는 것만큼 똑똑하지는 못하지만 제법 말을 알아듣는 컴퓨터 시스템이 올해 말쯤 선 보일 것 같다. 한국통신이 2년 예정으로 지난해 2월부터 개발에 착수한 ‘음성 인식 증권안내 시스템’은 일일이 번호를 입력해야 하는 현행 자동응답 시스템과 달리 전화로 해당 기업의 이름만 대면 관련 증권 정보를 알려주는 첨단 컴퓨터 소프트웨어이다.

말귀를 알아듣는 컴퓨터가 생각처럼 간단한 것은 아니다. 음성과 소음을 구별하는 일도 문제려니와 사람마다 다른 음성을 식별해 내는 일, 비슷한 발음이나 뉘앙스를 표준화하는 일, 각각의 음성을 디지털 신호로 바꾸는 일 등 모든 것이 해결해야 할 문제들이다.

현재 국내의 음성 인식 소프트웨어가 식별 할 수 있는 어휘는 2백개 안팎. 3백개까지 인식할 수 있는 고성능 소프트웨어가 나와 있지만 여기서는 상대적으로 낮은 인식률이 문제이다. 아무리 많은 낱말을 인식할 수 있게 만들었다 해도 틀리게 인식하면 아무런 소용이 없다. 한국과학기술원 오영환 교수(전산학)는 “상품화 수준이 되려면 95% 이상의 정확도로 최소한 3백 낱말 정도를 알아들을 수 있어야 한다”라고 말한다.

미국, 낱말 5만개 인식…한국, 10년 뒤져
다른 소프트웨어 분야도 마찬가지이지만 특히 음성 인식 소프트웨어의 연구 수준은 미국·일본 같은 선진국에 비해 10년 넘게 뒤져 있다. 한국이 ‘실험실에서’ 이제 막 천 낱말 정도를 인식하는 단계에 이른 데 반해 선진국은 이미 3만~5만개를 인식하는 수준까지 도달했다. 천개라는 것도 주위 잡음을 배제한 조건에서 입력했을 때의 인식 수준이다.

미국의 음성 인식 소프트웨어 시장은 상품화 수준을 넘어 판매 경쟁 단계에 들어선 것으로 보인다. 〈아시안 월스트리트 저널〉3월21일자 보도에 따르면, 미국의 몇몇 소프트웨어 제작사가 최근 내놓은 ‘대어휘’음성 인식 소프트웨어들은 일반인의 타이프 속도보다 더 빨리 메모를 받아 적을 수 있을 만큼 즉각적으로 수천 낱말의 음성을 인식할 뿐 아니라, 90% 이상의 정확도로 서류 전체를 작성해낼 수도 있다고 한다. 사용자가 모든 낱말과 낱말을 정확히, 그리고 끊어서 발음해야 한다는 조건이 붙지만 국내 기술 수준과 비교가 안된다는 사실만은 분명하다.

음성 인식 소프트웨어가 상품으로 세상에 처음 나온 것은 88년, 애플 컴퓨터가 개발한 ‘플레인토크(PlainTalk)’가 그 주인공이었다. 이것은 이른바 ‘명령-제어 프로그램’으로, ‘파일을 여시오(Open file)’처럼 간단한 음성 명령에 반응하도록 제작된 것이었다.

미국의 음성 인식 소프트웨어 시장은 현재 3파전 양상을 띠고 있다. 지난해 5만 낱말짜리 음성 프로그램을 개발한 커즈웨일 종합정보사와 올해 1월 2만 낱말짜리를 출시한 IBM사, 최근 3만 낱말짜리를 내놓은 드라곤 시스템사가 그 경쟁자들이다. 세 기업의 경쟁은 가격 쪽으로 옮아가 처음 출시할 때보다 50~80% 떨어진 천~3천달러에 판매한다.

음운 현상 표준화 등 기초 연구 전무
한국의 소프트웨어 시장은 미국과 사정이 전혀 다르다. 특히 음성 인식 분야는 아직 기반 기술조차 마련되어 있지 않기 때문에 언제 상품화로 이어질 수 있을지 요원하다. 대부분의 국내 기업들은 음성 인식 소프트웨어의 시장 전망이나 수요가 불투명하다고 판단해 소극적인 데다, 현재 연구중인 것도 워크스테이션급에 적용되는 것이다.

삼성·금성 등 몇몇 대기업이 정작 관심을 갖는 분야는 음성 인식 기술보다 당장 산업에 이용이 가능한 음성 압축 기술이다. 일반 전화나 이동통신에서 더 많은 음성 정보를 압축해 전송 선로의 효율을 높이려는 이 기술은, 통신 서비스의 질을 좌우하는 핵심 과제로 떠올랐다.

한국과학기술원 오영환 교수팀이 개발한 음성 압축 방식은 기존 통신방식(PCM 방식)대로라면 3~4분 분량의 음성밖에 녹음할 수 없는 1.2MB디스크에 34분 분량의 음성을 압축·녹음할 수 있다. 이 기술을 실제 통신 산업에 응용한다면 똑같은 통신 선로로 10배나 더 많은 정보를 실어나를 수 있다는 얘기다.

지난 2월21일 과학기술처는 ‘국가 핵심 소프트웨어 기술 개발계획(STEP 2000)’을 발표했다. 국내 소프트웨어 기술을 2000년까지 선진국 수준으로 끌어올리겠다는 이 계획에 따르면, 올해부터 2003년까지 3단계에 걸쳐 한글정보 처리기술·소프트웨어 생산기술·응용 소프트웨어 기술 등 세 분야를 중점 추진한다. 이 중 음성 인식 소프트웨어 기술은 한글정보 처리기술 계획 안에 포함되어 있다. 이 계획대로라면 2000년대에 우리말로 대화할 수 있는 음성 인식 컴퓨터가 나온다. 그러나 1단계(94~96년) 과제인 개별 낱말 인식 소프트웨어, 2단계(97~99년) 과제인 연속 음성(구문) 인식 소프트웨어 개발이 먼저 이루어지지 않으면 안된다.

음성 인식 소프트웨어의 가장 큰 문제점은, 그것을 개발하는 데 공학기술뿐 아니라 음운학·음성학·언어학 등 인문과학적 기초가 필수라는 데 있다. 한글정보 처리기술 총괄 연구책임자인 최상현 박사는 “선진국은 이미 68년에 1백만 어절의 데이터베이스를 구축하여 88년에 모두 CD-ROM화했다. 우리나라에는 소프트웨어 개발에 이용할 만한 한글 데이터베이스가 없다”라고 걱정한다. 낱말과 어군의 품사·어미 변화·문법적 관계 따위를 설명하는 파서(PARSER)나 각 언어의 음성학적 특성을 분석한 자료 면에서 한국은 약 20년이나 뒤졌다는 것이다.

서울대·전자통신연구소·과학기술원 등 음성 인식 소프트웨어 분야를 연구하는 곳의 어려움도 한국통신과 다를 바 없다. 음성 인식·합성 실험을 하려 해도 평가할 만한 근거 자료가 없는 것이다. 예컨대 ‘ㄹ’이 낼 수 있는 발음상의 차이는 줄잡아 30여 개로 구분된다. 하지만 그것을 발음하는 과정에서 생기는 갖가지 음운 현상이나 차이들을 표준화 할 만한 기초 연구가 되어 있지 않다.

한국과학기술원 이광형 교수(전산학)는 “선진국과의 격차를 줄이기 위해서는 집중적인 투자와 강력한 추진이 필요하다. 일본 우정성과 1백40여 기업체가 컨소시엄 형태로 세운 ATR는 우리에게 좋은 본보기이다”라고 말한다. 연간 예산만 1백40억엔에 이르는 ATR는 사기업 연구소 형태이면서도 국가 수준의 기초 분야를 꾸준히 연구하고 있다. ATR 산하 4개 연구소 중 하나인 ‘번역통신 연구소’는 2000년까지 외국어 자동통역 시스템을 실용화하겠다는 목표 아래 이미 지난해 2월 국제 학술대회 참가자들의 예약·등록 업무에 이 시스템을 도입해 실험한 바 있다.

미국이나 일본보다 출발이 한참 늦은 만큼 국내의 소프트웨어 연구 전망은 그리 밝지 못하다. 음성 인식 소프트웨어 분야가 포함된 한글 정보 처리기술 부문만 보더라도 △대화형 한글 사용자 인터페이스(사람과 컴퓨터를 연결하는 장치) △음성인식 자동 검색 시스템 △초안제시/교정형 저작 시스템 △한글처리용 사전, 국어 정보 베이스 △한글 문화정보 베이스 등 당장 해결해야 할 기초 연구과제가 산적해 있다. 이제는 집중적인 투자와 강력한 추진만이 출구이다.
金相顯 기자

김상현 기자 다른기사 보기

이 기사에 댓글쓰기펼치기