【科研突破】牛津大學開發唇語解讀人工智能系統，宣稱準確率高達93.4%

By Yeung on 09 Nov 2016

對於聽力障礙人士來說，唇語是很重要的一種溝通工具，但即使是唇語解讀專家，他們的準確率其實並不算高。因為理解唇語是一件非常困難的事情，不但要觀察對方的嘴唇、舌頭和牙齒的微細活動，大多數的唇語訊號更十分隱晦。

牛津大學因此研發出一款新型人工智能系統 LipNet ，它能夠對影片中的人的口部活動進行解讀，甚至宣稱準確率高達 93.4% 。即使是唇語解讀專家，他們在相同的實驗中的準確率也只有 52.3% 。

Photo from NuSkool

在訓練過程中，研究人員向 LipNet 展示了約 29000 個附有原文的影片，每個影片長度為 3 秒。此外，他們也找了會唇語解讀的實驗人員，隨機觀看其中 300 個影片，從而比較人類與人工智能的表現。

然而，這個系統仍然存在不少問題。研究人員使用的影片都經過精心挑選，不但畫面光線充足，且每個人都正面面對鏡頭、吐字清晰。另外，影片中的言詞全部是包含命令、顏色、字母、介詞、數字等比較格式化的句子，例如「set blue by A four please」或者「place red at C zero again」等等。