알파고로 유명한 DeepMind는 Google에 인수되었다. 영국에 있는 구글 DeepMind는 알파고에 이어서 현지 시간 2016 년 9 월 9 일, 인간 음성에 가까운 음성 합성 시스템인 WaveNet을 개발했다고 발표했다. 

 기존의 뛰어난 텍스트 음성 변환 시스템(TTS: Text To Speech)보다 자연스럽고 "실제 인간 음성과의 격차를 50 % 이상 줄였다" 발표하였다.
 WaveNet은 Deep Neural Networks(DNN)을 이용하여 실제 인간의 목소리를 샘플링하여 합성 음성을 생성한다. 음성 품질 평가법 "Mean Opinion Scores (MOS)"을 이용하여 영어와 중국어 (북경어)에서 테스트 한 결과, 영어는 인간의 음성이 MOS 값 4.55 인 반면, Google의 텍스트 음성 변환 기능은 3.86, WaveNet은 4.21을 획득했다. 북경어는 인간의 음성이 4.21에서 Google의 텍스트 음성 변환 기능은 3.79, WaveNet는 4.08이었다. 
 기존의 텍스트 음성 변환 기능의 대부분이 음성의 조각을 기록한 방대한 데이터베이스를 이용하는 방법을 채용하고 있다. 동일인의 음성 조각을 이어 맞추기 위해 다른 사람의 음성을 바꾸거나 감정을 표현하거나 하려면 새로운 데이터베이스를 구축할 필요가 있었다. 음성을 생성하는데 필요한 모든 정보를 인수로 하여 저장하는 방법도 있지만,이 경우 지금까지 적어도 영어와 같은 언어에서는 자연 스러움이 결여된 기계적인 음성 경향이 있다.  이러한 방법에 WaveNet 음성 신호의 RAW 파형을 직접 모델링한다. 남성의 목소리, 여자 목소리 분위기가 다른 소리를 생성할 소리가 되지는 휴식할 입의 움직임도 학습한다. https://deepmind.com/blog/wavenet-generative-model-raw-audio/



저작자 표시 변경 금지
신고
Posted by 강부자아들