【科研突破】牛津大學開發唇語解讀人工智能系統,宣稱準確率高達93.4%
對於聽力障礙人士來說,唇語是很重要的一種溝通工具,但即使是唇語解讀專家,他們的準確率其實並不算高。因為理解唇語是一件非常困難的事情,不但要觀察對方的嘴唇、舌頭和牙齒的微細活動,大多數的唇語訊號更十分隱晦。
牛津大學因此研發出一款新型人工智能系統 LipNet ,它能夠對影片中的人的口部活動進行解讀,甚至宣稱準確率高達 93.4% 。即使是唇語解讀專家,他們在相同的實驗中的準確率也只有 52.3% 。
Photo from NuSkool
在訓練過程中,研究人員向 LipNet 展示了約 29000 個附有原文的影片,每個影片長度為 3 秒。此外,他們也找了會唇語解讀的實驗人員,隨機觀看其中 300 個影片,從而比較人類與人工智能的表現。
然而,這個系統仍然存在不少問題。研究人員使用的影片都經過精心挑選,不但畫面光線充足,且每個人都正面面對鏡頭、吐字清晰。另外,影片中的言詞全部是包含命令、顏色、字母、介詞、數字等比較格式化的句子,例如「set blue by A four please」或者「place red at C zero again」等等。
因此, LipNet 還需要繼續改良。團隊會透過大量在真實環境中的人物說話影片,訓練 LipNet 從多角度閱讀嘴唇,繼而增加解讀的準確度。
如果唇語解讀系統能夠更加完善,未來將可以幫助數以百萬計聽力障礙人士,讓他們能夠輕易與大家進行「對話」。例如在聚會期間, LipNet 可即時解讀唇語,並把信息準確地傳送到對方耳中。