近日,新加坡國家人工智能計劃聯(lián)合阿里巴巴推出了一款面向東南亞市場的多語言大模型——Qwen-SEA-LION-v4。該模型以阿里巴巴開源的“通義千問”框架為基礎(chǔ),通過針對性優(yōu)化,成功突破了東南亞地區(qū)語言多樣性帶來的技術(shù)瓶頸,成為全球首個在該領(lǐng)域?qū)崿F(xiàn)突破的AI解決方案。
東南亞地區(qū)語言生態(tài)復雜,現(xiàn)存超過1200種語言,日常交流中常出現(xiàn)多語言混用現(xiàn)象。然而,現(xiàn)有主流AI模型多以英語為核心開發(fā),難以適配東南亞本土需求,導致該地區(qū)長期面臨“AI服務斷層”問題。此次中新聯(lián)合研發(fā)的模型通過技術(shù)革新,首次在“東南亞語言模型全面評估基準”(SEA-HELM)的2000億參數(shù)量以下開源模型榜單中奪得榜首,標志著區(qū)域性AI技術(shù)實現(xiàn)重大突破。
研發(fā)團隊透露,Qwen-SEA-LION-v4的預訓練階段已覆蓋119種語言,特別針對東南亞小語種進行數(shù)據(jù)增強。在后訓練階段,團隊通過增加跨語言任務權(quán)重,使模型具備處理混合語言輸入的能力。例如,在輸入包含馬來語、泰語和英語的復雜語句時,模型仍能準確理解語義并生成符合語境的回應。
為推動技術(shù)普惠,該模型已通過AISingapore官網(wǎng)及HuggingFace開源社區(qū)向全球開放下載。開發(fā)者可基于模型進行二次開發(fā),應用于教育、醫(yī)療、政務等多個場景。此前,東南亞地區(qū)因語言障礙導致AI應用成本高昂,此次開源有望降低本地化服務門檻,加速區(qū)域數(shù)字化轉(zhuǎn)型進程。














