download BusinessFocus app
Mozilla開源語音募集計畫Common Voice擴大支援簡體中文

Mozilla開源語音募集計畫Common Voice擴大支援簡體中文

Market Information PR Newswire
By PR Newswire on 08 May 2019
PR Newswire (www.prnasia.com), a Cision company, is the premier global provider of media monitoring platforms and news distribution services that marketers, corporate communicators and investor relations professionals leverage to engage key audiences. Having pioneered the commercial news distribution industry since 1954, PR Newswire today provides end-to-end solutions to produce, distribute, target and measure text and multimedia content across traditional, digital, mobile and social channels. Combining the world's largest multi-channel content distribution and optimization network with comprehensive workflow tools and platforms, PR Newswire powers the stories of organizations around the world. PR Newswire serves tens of thousands of clients from offices in the Americas, Europe, Middle East, Africa and Asia-Pacific regions.

  • Mozilla 開始收集大陸地區漢語語音資料,更進一步充實其公開語音資料集
  • 現已收集27種不同語言的錄音音檔,並將再擴大支援72種語言
  • Common Voice (「同聲計畫」)是史上最大的開源語音轉錄文字資料集,其最新釋出的資料庫囊括來自逾4.2萬貢獻者以18種語言錄製的音檔,總長近1,400小時

台灣台北2019年5月8日 /美通社/ -- 開發開源 Firefox 瀏覽器的非營利組織 Mozilla 宣布,其所推動之最大語音資料募集計畫 -- Common Voice 平台已正式支援簡體中文。在廣大的 Mozilla 社群及語言專家夥伴的辛勤努力下,從現在開始,網友可到 Common Voice 的簡中網站https://voice.mozilla.org/zh-CN錄製音檔。

語音介面是網際網路未來大勢之所趨。車用語音助理、智慧手錶、智慧燈泡等,內建語音辨識技術的裝置可謂與日俱增。然而,相關技術的創新仍面臨重大阻礙 -- 有意打造語音輔助方案的新創公司、研究人員或各種開發者都需取得大量、轉錄為文字的語音數據,才能訓練機器學習的演算法。但現有公開語音資料集的語音資料量與支援語種數都極其有限,而私有的語音資料不但僅掌握在少數幾家公司手中,而且費用高昂

有鑑於此,Mozilla 自2017年6月起展開 Common Voice 計畫,希望建立全球化的開源語音語料庫,以因應語音介面的發展需求並突破現階段的市場侷限。Mozilla 認為,此類介面不該只把持在少數幾家握有語音服務技術的廠商手中,而且,Mozilla 希望能讓使用者以自己的語言和熟悉的腔調來吸收和了解資訊。

已收集包括漢語 (簡中) 在內的27種語音資料

Common Voice 在2018年6月開始收集多語語音資料。從那時起,此專案便不斷壯大,變得更全球化、更具包容性。在過去10個月間,大批的熱血貢獻者踴躍響應,已在 Common Voice 網站上發起27種語言音檔的收集計畫,另外還有高達72種語言的錄音計畫正在進行中。

最新加入的語言是漢語(簡體中文)。現在,世界各地的網友都可到 https://voice.mozilla.org/zh-CN 網站捐聲音,或驗證其他人錄音的音檔。

Mozilla 開源語音募集計畫 Common Voice 擴大支援簡體中文。

Mozilla 開源語音募集計畫 Common Voice 擴大支援簡體中文。

語音貢獻者還可選擇保留專案紀錄,以掌握自己的錄音紀錄。此外,他們也可選擇提供人口特徵資訊,以協助 Mozilla 改善用以訓練語音識別引擎的語音資料。

一如 Common Voice 收集的其他語言資料,Mozilla 對於漢語(簡中)的目標是要累積約1萬小時之通過驗證的音檔,因為1萬小時的音檔量才足以訓練出完備的語音辨識系統。除此以外,這還附帶另一個好處:所有人都可「同聲」一氣,共同推動語音辨識技術的進展。無論在上班途中、在公車上、午休時間、在家裡,或與親朋好友齊聚一堂時,不管是透過 voice.mozilla.org 網站或 iOS 應用,只要有手機或電腦,能捐聲音或驗證其他人的音檔。

Mozilla 開源創新計劃總監 George Roter 表示:「就算一個人只錄或聽幾秒鐘的音檔,但若貢獻者多達數十萬,加起來的資料量就非常驚人!當更多人都願意出一份力時,這套語音資料集的價值就能更快提升。」

釋出多語語音資料集

Mozilla 將一本初衷、繼續充實語音資料集的內涵,使其成為人人可用的公有資源。Mozilla 已於今年二月釋出第一批的多語語音資料集,其中共涵蓋18種語言的錄音音檔,包括:英文、法文、德文和華語(正體中文)等廣泛通行的語言,以及威爾斯語及卡拜爾語等較為冷門的語言。Common Voice 至今已收集逾4.2萬人貢獻的錄音,總長度約1,400小時,且語音資料量仍持續成長中。

在此資料集釋出後,Common Voice 的規模已超越其他同類型的語音資料集,並已將數萬人的錄音音檔及對應文字開放給公眾使用(採 CC0 授權)。任何人都可到 Common Voice 網站下載完整的語音資料集。 

Mozilla 開源語音募集計畫 Common Voice 擴大支援簡體中文。

Mozilla 開源語音募集計畫 Common Voice 擴大支援簡體中文。

George Roter 進一步表示:「Mozilla 致力於促進更多元創新之語音科技生態系的發展。我們不但希望能自行推出語音技術的產品,也立志傾力支援研究人員及小公司的發展,在建立全球最大公共的多語語音資料集的過程中,我們很榮幸得到越來越多人的幫助,也很感謝志願者的熱情相挺,讓我們成功展開對於簡體中文的支持。」

【了解更多最快最新的財經、商業及創科資訊】

👉🏻 追蹤 WhatsApp 頻道 BusinessFocus

👉🏻 下載 BusinessFocus APP

👉🏻 立即Follow Instagram businessfocus.io

最新 金融投資熱話專頁 MarketFocus