【人工智能】 Google開發新人工智能，能仿效人類語調說話

By cherry.liu on 12 Sep 2016

Googl自家的人工智能系統除了下圍棋厲害，近日又傳出了新突破。Google的人工智能公司DeepMind團隊日前宣佈成功開發了比目前所有機器語音系統表現優勝50%的人工智能系統。

Photo from Google Deepmind

基地設於英國的DeepMind，開發了這個名為WaveNet的AI系統。WaveNet能透過學習人類説話時發出的獨特聲波而學習模仿人類語調。在上週四發表的官方部落格文章中，DeepMind表示在測試中，測試者均認為WaveNet的美式英語和國語講的比其他語音系統自然。不過，WaveNet比起完全仿效真正的人類聲音尚有一段距離。

銜接程式美式英語示範

參數程式美式英語示範

WaveNet程式美式英語示範

[caption id="attachment_10902" align="alignnone" width="300"] Google DeepMind[/caption]

一般的銜接電腦發聲程式（Concatenative）都會先收錄大量來自同一名錄音員的錄音聲帶，然後整合成為新的詞彙。這些程式都會做出一些聽起來很像人類的聲音，但卻很難改變整合出來的結果。另一種的參數程式（Parametric）則跟隨每個字的發音規則自行念出字詞；這樣的程式容許人員更容易的修改整合出來的聲音，但聽起來則不太自然。WaveNet是一種可以模仿人腦運作功能的人工神經網絡（neural network）。跟一般的發音程式不同的是，這種系統需要經過大量的數據訓練。

銜接程式國語示範

[caption id="attachment_10902" align="alignnone" width="300"] Google DeepMind[/caption]

參數程式國語示範

[caption id="attachment_10902" align="alignnone" width="300"] Google DeepMind[/caption]

WaveNet程式國語示範

[caption id="attachment_10902" align="alignnone" width="300"] Google DeepMind[/caption]

WaveNet需要在每秒接受1萬6000次訓練的音源樣本中取樣，然後要在每個樣本中以聽過的樣本中為基礎，作出一個聲波預測 — 這也就是要讓WaveNet分析大量樣本，再從而準確預測聲波的波長大小。據DeepMind研究人員表示，這是一個「明顯地具有挑戰性的工作。」由於WaveNet需要大量的運算才能運作，所以目前仍未能應用在商業之中。

雖然如此，這樣的突破仍獲得了一眾科技公司的注意。在現今科技中，電腦語音變得越來越重要。蘋果、亞馬遜、微軟、甚至Google母公司Alphabet都紛紛投資了透過聲音與用家互動的個人助手，像WaveNet這樣的技術能有效提高個人助理的效益之餘也能讓這種技術更人性化。Google Play商店的國際總監Mark Bennet就指出，目前20% 的Google搜尋是透過手機的聲控功能進行，而非鍵盤輸入。雖然WaveNet能像人類一樣發音，但其回答能力仍然有待開發。

Photo from Wired

Google Deepmind為Google旗下開發人工智能的工作室，其中最為人熟悉的為圍棋AI AlphaGo。Google目前未有透露DeepMind的研究能如何幫助商業發展，但公司較早前則宣佈將會使用DeepMind的技術去減低其數據中心40%的能源需求，節省支出。Google亦稱讚DeepMind的技術為Google的一系列產品達成了大量的改進，包括YouTube、Google Play以及廣告產品。