語音界傳奇Dan Povey出任愛數智慧首席科學家顧問

近日,語音識別開源工具Kaldi之父,Dan Povey,正式接受北京愛數智慧科技有限公司的邀請,出任愛數智慧的首席科學家顧問(Principal Scientist Advisor)。作為人工智能領域的技術引領者,這是Dan Povey首次正式為中國數據服務企業提供技術顧問工作。
語音識別開源工具Kaldi之父Dan Povey
Dan Povey曾任約翰霍普金斯大學語言和語音處理中心的助理研究教授。他是著名的語音識別開源工具Kaldi的主要開發者和維護者,被稱為是Kaldi之父。Kaldi集成了多種語音識別模型,包括隱馬爾可夫模型和最新的深度學習神經網絡,在語音識別領域有重大影響。
人工智能的發展離不開算法、算力、數據這三大要素。Kaldi作為開源算法工具庫,為國內外眾多語音技術科研機構和企業提供算法起步工具。而數據作為AI算法的“燃料”,將助力AI公司技術與產業相結合,加快商業落地。由此人工智能數據服務商也成為人工智能生態中必不可少的一環。
圖片來自艾瑞咨詢《中國人工智能基礎數據服務行業白皮書》
數據標注是機器感知世界的“起點”,將混亂和無序的數據進行清洗,將規范化的數據“喂養”給模型才能不斷提高AI的使用精度。隨著線下數據被采集起來,數據量呈指數式增長,其中80%~90%都是非結構化數據。愛數智慧對這些非結構化數據進行清洗和標注,喚醒數據價值,提高模型識別效率,幫助客戶降低建模成本,快速搭建智能化模型。
作為全球領先的數據服務提供商,愛數智慧堅持用技術驅動創新,采用人機協同的數據處理方式,將人在數據處理上舉一反三的能力與機器良好的記憶能力相結合,幫助AI公司及行業內客戶獲得精度可達99%的數據快速處理能力。
同時,為了促進AI行業研究的快速迭代,愛數智慧大力推動數據開源。目前,愛數智慧已經有超10萬小時多語種多場景的標準數據集。在參加國際語音盛會INTERSPEECH期間,愛數智慧開源了日語手機朗讀數據集,幫助對日語語音模型的測試。此前,愛數智慧在OpenSLR上開源了近800小時的中文手機朗讀數據集,可用于中文語音模型訓練、測試、開發等多種用途。
2019年9月,Dan Povey應邀出任愛數智慧首席科學家顧問。在Dan Povey的幫助下,愛數智慧將緊跟學術前沿,深耕數據結構化領域,不斷推動結構化行業技術創新,挖掘數據價值,為客戶提供更高質量的服務,為智能世界提供充足的數據生產力。