【媒體界】9月12日消息,微軟近日宣布與“免費(fèi)數(shù)字圖書(shū)館計(jì)劃”P(pán)roject Gutenberg 達(dá)成合作,通過(guò)人工智能技術(shù)為電子書(shū)庫(kù)制作了一系列全新的有聲書(shū)資源。這項(xiàng)合作充分利用了機(jī)器學(xué)習(xí)、自動(dòng)文本選擇和自然語(yǔ)音合成等多項(xiàng)AI技術(shù),旨在為用戶(hù)提供更加生動(dòng)、豐富的閱讀體驗(yàn)。

據(jù)媒體界了解,在這一引人注目的項(xiàng)目中,研究人員首先開(kāi)發(fā)了一種算法,能夠智能分析電子書(shū)的結(jié)構(gòu),自動(dòng)區(qū)分正文和非關(guān)鍵內(nèi)容,如頁(yè)碼、表格等,從而實(shí)現(xiàn)了電子書(shū)到有聲書(shū)的自動(dòng)轉(zhuǎn)化。而后,借助WaveNet、Tacotron和FastSpeech等文本轉(zhuǎn)語(yǔ)音技術(shù),他們成功生成了質(zhì)量高、自然流暢的朗讀語(yǔ)音。更為驚人的是,這個(gè)團(tuán)隊(duì)還讓系統(tǒng)能夠識(shí)別書(shū)中的敘述者、對(duì)話(huà)和不同角色,從而調(diào)整語(yǔ)音,栩栩如生地呈現(xiàn)出故事情節(jié)的語(yǔ)音表達(dá)。
微軟表示,該計(jì)劃已經(jīng)積累了超過(guò)35000小時(shí)的有聲書(shū)語(yǔ)音數(shù)據(jù),涵蓋了各種經(jīng)典文學(xué)、戲劇、傳記等作品。這些寶貴的語(yǔ)音資源將以開(kāi)源方式免費(fèi)提供,進(jìn)一步豐富了網(wǎng)絡(luò)上的有聲書(shū)內(nèi)容。同時(shí),用戶(hù)還有機(jī)會(huì)使用自己的聲音錄制少量部分,實(shí)現(xiàn)“用自己的聲音朗讀整本書(shū)”的效果,為有聲書(shū)領(lǐng)域增添了更多創(chuàng)意。這一舉措也將為視障人士提供更加便捷的閱讀方式,讓閱讀不再受限于文字。























