字節(jié)跳動(dòng)于近日正式發(fā)布其最新研發(fā)的原生全雙工語音大模型Seeduplex,標(biāo)志著全雙工語音交互技術(shù)從實(shí)驗(yàn)室走向大規(guī)模應(yīng)用階段。該模型突破了傳統(tǒng)半雙工語音交互的局限性,通過"邊聽邊說"的架構(gòu)設(shè)計(jì),實(shí)現(xiàn)了更接近人類對話的自然流暢體驗(yàn)。
相較于前代豆包端到端語音模型采用的半雙工模式,Seeduplex的創(chuàng)新之處在于能夠同時(shí)進(jìn)行語音接收與輸出。這種技術(shù)突破使得系統(tǒng)響應(yīng)延遲大幅降低,對話連貫性顯著增強(qiáng),尤其在多輪復(fù)雜對話場景中表現(xiàn)出色。據(jù)技術(shù)團(tuán)隊(duì)介紹,模型通過動(dòng)態(tài)注意力分配機(jī)制,可精準(zhǔn)識別用戶語音中的關(guān)鍵信息,實(shí)現(xiàn)更智能的上下文理解。
目前該技術(shù)已全面集成至豆包App,成為國內(nèi)首個(gè)實(shí)現(xiàn)全雙工語音交互規(guī)模化落地的消費(fèi)級產(chǎn)品。這意味著超過一億用戶將能體驗(yàn)到實(shí)時(shí)連續(xù)的語音對話服務(wù),無需等待系統(tǒng)完整回應(yīng)即可插入新指令。測試數(shù)據(jù)顯示,在車載導(dǎo)航、智能客服等高頻交互場景中,用戶滿意度較傳統(tǒng)模式提升40%以上。
行業(yè)專家指出,全雙工技術(shù)的商業(yè)化落地標(biāo)志著語音交互進(jìn)入新階段。傳統(tǒng)語音系統(tǒng)受限于半雙工架構(gòu),難以處理復(fù)雜對話場景中的打斷、修正等需求。Seeduplex的推出不僅解決了這些痛點(diǎn),其輕量化設(shè)計(jì)更使得模型可適配多種終端設(shè)備,為智能家居、移動(dòng)出行等領(lǐng)域帶來新的應(yīng)用可能。目前團(tuán)隊(duì)正持續(xù)優(yōu)化模型在嘈雜環(huán)境下的識別準(zhǔn)確率,并探索多語言支持方案。















