【未來世界】聽聲音就知道長相？MIT研發可辨別長相的高科技系統

Tech

By Daina on 14 Jun 2019

Digital Editor

講電話也會暴露長相？世界名校麻省理工學院（MIT）人工智能實驗室近期發布了一項最新發明的研究網絡系統。此款震驚全球的神經網絡系統被名為Speech2Face，顧名思義，該系統能夠將人類說出的語言透過系統計算，最終重建聲音來源的外型特徵。

Photo from 「Speech2Face」官網

人們說出的話語會根據個人的性別、宗族、地區、臉部構造、口音等因素而有所差別。Speech2Face的操作原理在於透過神經網絡對說話對象的聲音做出判斷，再透過各種透過聲音釋出的資訊來推測對方的長相。

使用者只要往Speech2Face輸入聲譜圖，系統會根據圖表推算出聲音來源的長相，先輸出對方的面部特徵後，再透過臉部解碼器重建說話對象的樣貌。根據報導，研究人員僅使用數秒的聲音片段，該系統就能推算出聲音來源的樣貌，相當快速。

Photo from Licensing

為了更精準還原聲音來源的外型長相，研究單位特別在研發過程中，動用包含數百萬隻Youtube視頻數據的AVSpeech數據庫。AVSpeech內含有大量語言與長相相關數據，能夠協助研究者更準確重建說話者的樣貌特徵。

Photo from Licensing

此研究論文更入圍了今年的CVPR（IEEE Conference on Computer Vision and Pattern Recognition 2019）。雖然此發明涉及個人隱私，但該團隊也表示，Speech2Face並不會精準還原個人樣貌，系統也無法100%確認說話人的真實身份，只有模糊的長相供使用者參考。