【人工智能】Google DeepMind AI打敗讀唇專家，讀唇準確率高近4倍

By cherry.liu on 22 Nov 2016

人工智能的讀唇能力越來越高了。Google人工智能公司DeepMind以及牛津大學（University of Oxford）最近聯手開發了一個讀唇系統，準確率比讀唇專家還要高。

這個AI系統利用機器深度學習（deep learning）去學習自己的讀唇能力。研究人員讓AI看了6個合共5000小時的電視節目，當中包括新聞節目如Newsnight、BBC Breakfast以及Question Time。所有的影片總共含有11萬8千句句子。這些節目的播放日期均為2010年1月以及2015年12月之間。人員隨後讓AI看了2016年3月和9月之間播放的節目。

Photo from johnthecomputerman

這些影片首先需要透過機器學習去「加工」處理。加工目標就是確保影片中人物的嘴唇活動以及聲帶同步。人員同時也建立一個加工AI，訓練它學習哪些片段是聲畫不同步，哪些是同步的。加工AI就能自動處理這5000小時影片。處理完成後，這些影片就能供DeepMind AI進行讀唇工作。

經過訓練之後，AI能只看著節目中講者的嘴唇就能正確解讀人物所說的一字一句。AI解讀的不是什麽短句子，而是具備一定長度的句子，例如「我們知道屆時也會有數以百計的記者」（We know there will be hundreds of journalists here as well）和「根據國家統計辦公室的最新數據顯示」（According to the latest figures from the Office of National Statistics）。

AI的表現其後被拿去和一名讀唇專家作比較。人員在向AI展示過的影片中隨機選擇了200段影片讓該讀唇專家嘗試解讀。結果顯示，在3月至9月的那個影片庫中，專家只能正確解讀出12.4%的字句，而AI則能正確解讀46.8%的字句。至於AI所犯的錯誤均為細微的錯誤，犯錯的地方都只是在字的後面漏了「s」等小錯誤。

Photo from New Scientist

除了這個DeepMind AI之外，其實牛津大學在約兩個星期前開發了同類AI，LipNet。LipNet的解讀表現也超越了人類專家。不過，LipNet所解讀的影片庫只有51個獨特字詞，而Google和牛津大學聯手開發出來的AI所用的影片庫中則有接近1萬7500個獨特字詞，難度自然比LipNet高很多。