国产精品自拍视频在线-亚洲一区二区三区品视频-日本一区二区三区麻烦视频-国偷自产视频一区二区三区久-巨乳少妇av中文字幕-日韩最新免费中文字幕在线观看-成人污污污视频在线免费观看-污污污网站在线免费看-国产欧美高清在线观看视频

媒體界 - 推動中國媒體行業(yè)創(chuàng)新,促進業(yè)內(nèi)人士交流分享!

新加坡AI計劃“換芯”阿里千問:中國模型破解東南亞語言難題顯實力

   發(fā)布時間:2025-11-26 06:03 作者:陳陽

在新加坡人工智能發(fā)展進程中,一項重要合作引發(fā)全球關(guān)注。阿里云與新加坡國家人工智能計劃(AISG)攜手,共同帶來重大成果:新加坡最新國家級大語言模型“海獅”(Sea - Lion v4),摒棄了此前采用的美國技術(shù)路線,轉(zhuǎn)而全面基于阿里的通義千問Qwen3 - 32B開源模型構(gòu)建。

這一合作成果意義非凡,是在全球AI競爭格局下的又一重要突破。此前,硅谷知名人士Chamath Palihapitiya宣布用Kimi取代OpenAI作為生產(chǎn)力工具,美國Vercel、Windsurf等編程平臺接入智譜模型,愛彼迎CEO稱阿里Qwen比美國模型更好用,而此次新加坡國家人工智能計劃的認可,進一步證明中國開源模型在全球市場不斷拓展影響力。在“主權(quán)AI”和“多語言適配”領(lǐng)域,中國開源大模型已展現(xiàn)出替代甚至超越硅谷巨頭的潛力。

回顧過往,2023年12月,新加坡啟動了一項價值7000萬新元(約5200萬美元)的計劃,旨在提升多模態(tài)大型語言模型(LLM)的研究和工程能力,其中就包括開發(fā)Sea - Lion(東南亞語言一體化網(wǎng)絡(luò))。然而,東南亞這片擁有6億人口、數(shù)字經(jīng)濟規(guī)模向萬億美元邁進的市場,長期以來卻是西方AI的“盲區(qū)”。

數(shù)據(jù)匱乏是首要問題。在Sea - Lion誕生之前,meta Llama 2等主流模型中,東南亞語言內(nèi)容占比僅0.5%。這種以英語為中心的訓(xùn)練邏輯,讓以Llama2訓(xùn)練的早期Sea - Lion模型出現(xiàn)嚴重問題。在測試中,該模型竟將南美洲的委內(nèi)瑞拉列為東盟成員國,這種缺乏區(qū)域常識的“幻覺”,暴露出西方通用模型在本地化應(yīng)用上的巨大短板。

語言文化隔閡也給當?shù)亻_發(fā)者帶來諸多困擾。東南亞地區(qū)盛行“語碼轉(zhuǎn)換”,即在英語中夾雜方言,像新加坡式英語(Singlish)或馬來西亞式英語(Manglish)。面對這種復(fù)雜的混合語境,標準的美式AI模型往往難以理解其中的細微差別和文化梗。

而且,Llama雖在開源模型中性能領(lǐng)先,但“英語中心主義”的基因難以改變,處理泰語、緬甸語等非拉丁語系文字時效率極低。AISG逐漸意識到,使用硅谷開源模型并非東南亞國家的最佳選擇,他們需要的是真正懂多語言、懂亞洲語境的模型底座。

于是,在發(fā)布v4版本時,AISG將目光投向中國,選用阿里的Qwen3 - 32B作為新一代Sea - Lion的基座模型。與西方模型不同,Qwen3的基礎(chǔ)模型在預(yù)訓(xùn)練階段就通過36萬億個token的數(shù)據(jù)訓(xùn)練,覆蓋全球119種語言和方言。這種“原生多語言能力”使Qwen不僅“懂”印尼語、馬來語,還能從底層邏輯理解這些語言的語法結(jié)構(gòu),大大降低了AISG后續(xù)訓(xùn)練的難度。

為解決東南亞語言獨特的書寫習慣問題,Qwen - Sea - Lion - v4摒棄西方模型常用的“句子分詞器”,采用更先進的字節(jié)對編碼(BPE)分詞器。鑒于泰語、緬甸語等語言通常沒有明顯詞間空格,BPE技術(shù)能更精準切分非拉丁語系字符,不僅提高翻譯準確度,還大幅提升推理速度。

商業(yè)落地現(xiàn)實考量也是阿里勝出的關(guān)鍵因素。東南亞有大量中小企業(yè),無力承擔昂貴的H100 GPU集群。Qwen - Sea - Lion - v4經(jīng)過優(yōu)化,可在配備32GB內(nèi)存的消費級筆記本電腦上流暢運行。這意味著普通印尼開發(fā)者僅憑一臺高配電腦就能在本地部署這個國家級模型,這種“工業(yè)級能力,民用級門檻”的特性,精準切中了該地區(qū)算力資源稀缺的痛點。

此次合作并非簡單的“單向技術(shù)輸出”,而是深度雙向融合。根據(jù)協(xié)議,阿里提供強大通用推理底座,AISG則貢獻珍貴的、經(jīng)過清洗的1000億個東南亞語言token。這些數(shù)據(jù)無版權(quán)風險,且東南亞內(nèi)容濃度高達13%,是Llama2的26倍。阿里運用“高級后訓(xùn)練”技術(shù),將這些區(qū)域知識注入Qwen,使其能精準捕捉當?shù)匚幕耥崱PЧ⒏鸵娪埃赟ea - Helm評估榜單上,搭載阿里“心臟”的Sea - Lionv4迅速在同量級開源模型中占據(jù)榜首。

從新加坡Sea - Lion項目從AWS轉(zhuǎn)向阿里云,從Llama轉(zhuǎn)向Qwen的演變,可以看出全球AI格局正發(fā)生微妙變化。長期以來,全球技術(shù)基礎(chǔ)設(shè)施幾乎被美國壟斷。但在大模型時代,中國企業(yè)憑借對多語言環(huán)境的深刻理解和極致的性價比優(yōu)化,正成為“全球南方”國家構(gòu)建主權(quán)AI的首選合作伙伴。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新