【人工智能】Google DeepMind AI打敗讀唇專家,讀唇準確率高近4倍
人工智能的讀唇能力越來越高了。Google人工智能公司DeepMind以及牛津大學(University of Oxford)最近聯手開發了一個讀唇系統,準確率比讀唇專家還要高。
這個AI系統利用機器深度學習(deep learning)去學習自己的讀唇能力。研究人員讓AI看了6個合共5000小時的電視節目,當中包括新聞節目如Newsnight、BBC Breakfast以及Question Time。所有的影片總共含有11萬8千句句子。這些節目的播放日期均為2010年1月以及2015年12月之間。人員隨後讓AI看了2016年3月和9月之間播放的節目。
Photo from johnthecomputerman
這些影片首先需要透過機器學習去「加工」處理。加工目標就是確保影片中人物的嘴唇活動以及聲帶同步。人員同時也建立一個加工AI,訓練它學習哪些片段是聲畫不同步,哪些是同步的。加工AI就能自動處理這5000小時影片。處理完成後,這些影片就能供DeepMind AI進行讀唇工作。
經過訓練之後,AI能只看著節目中講者的嘴唇就能正確解讀人物所說的一字一句。AI解讀的不是什麽短句子,而是具備一定長度的句子,例如「我們知道屆時也會有數以百計的記者」(We know there will be hundreds of journalists here as well)和「根據國家統計辦公室的最新數據顯示」(According to the latest figures from the Office of National Statistics)。
AI的表現其後被拿去和一名讀唇專家作比較。人員在向AI展示過的影片中隨機選擇了200段影片讓該讀唇專家嘗試解讀。結果顯示,在3月至9月的那個影片庫中,專家只能正確解讀出12.4%的字句,而AI則能正確解讀46.8%的字句。至於AI所犯的錯誤均為細微的錯誤,犯錯的地方都只是在字的後面漏了「s」等小錯誤。
Photo from New Scientist
Photo from New Scientist
除了這個DeepMind AI之外,其實牛津大學在約兩個星期前開發了同類AI,LipNet。LipNet的解讀表現也超越了人類專家。不過,LipNet所解讀的影片庫只有51個獨特字詞,而Google和牛津大學聯手開發出來的AI所用的影片庫中則有接近1萬7500個獨特字詞,難度自然比LipNet高很多。
既然AI的讀唇能力比專家高,那麽這代表專家要失業了嗎?非也。芬蘭奧盧大學(University of Oulu)的Ziheng Zhou評論指,讀唇AI在未來最有可能應用於客戶服務。明白客人的說話對於客戶服務來說是重要的一環,AI的解讀能力在此就能大派用場了。
有關研究論文現已刊登。
資料來源:New Scientist