【未來世界】聽聲音就知道長相?MIT研發可辨別長相的高科技系統
講電話也會暴露長相?世界名校麻省理工學院(MIT)人工智能實驗室近期發布了一項最新發明的研究網絡系統。此款震驚全球的神經網絡系統被名為Speech2Face,顧名思義,該系統能夠將人類說出的語言透過系統計算,最終重建聲音來源的外型特徵。
Photo from 「Speech2Face」官網
人們說出的話語會根據個人的性別、宗族、地區、臉部構造、口音等因素而有所差別。Speech2Face的操作原理在於透過神經網絡對說話對象的聲音做出判斷,再透過各種透過聲音釋出的資訊來推測對方的長相。
使用者只要往Speech2Face輸入聲譜圖,系統會根據圖表推算出聲音來源的長相,先輸出對方的面部特徵後,再透過臉部解碼器重建說話對象的樣貌。根據報導,研究人員僅使用數秒的聲音片段,該系統就能推算出聲音來源的樣貌,相當快速。
Photo from Licensing
為了更精準還原聲音來源的外型長相,研究單位特別在研發過程中,動用包含數百萬隻Youtube視頻數據的AVSpeech數據庫。AVSpeech內含有大量語言與長相相關數據,能夠協助研究者更準確重建說話者的樣貌特徵。
Photo from Licensing
此研究論文更入圍了今年的CVPR(IEEE Conference on Computer Vision and Pattern Recognition 2019)。雖然此發明涉及個人隱私,但該團隊也表示,Speech2Face並不會精準還原個人樣貌,系統也無法100%確認說話人的真實身份,只有模糊的長相供使用者參考。
除此之外,MIT研究單位也表示此研究仍然受到一些技術層面限制,希望未來能夠被克服,進而發展更完善的辨識系統。
資料來源:新浪科技、Speech2Face
Text by BusinessFocus Editorial