Alphabet旗下谷歌公司近日正式發(fā)布其最新人工智能模型Gemini 3,這款被業(yè)界稱為“全球最強(qiáng)多模態(tài)理解模型”的產(chǎn)品,以1501分的成績刷新LMArena排行榜紀(jì)錄,標(biāo)志著人工智能領(lǐng)域進(jìn)入谷歌與OpenAI雙雄競爭的新階段。發(fā)布當(dāng)日,Gemini 3即被整合至谷歌搜索、Gemini應(yīng)用等核心產(chǎn)品,展現(xiàn)出谷歌在AI商業(yè)化落地上的激進(jìn)策略。
在性能測試中,Gemini 3展現(xiàn)出全方位優(yōu)勢。基礎(chǔ)版本在GPQA Diamond研究生級(jí)推理測試中取得91.9%的準(zhǔn)確率,Humanity’s Last Exam多步邏輯推理測試中以37.5%的無工具得分超越GPT-5 Pro此前紀(jì)錄,SimpleQA Verified事實(shí)準(zhǔn)確性測試更以72.1%的分?jǐn)?shù)領(lǐng)先行業(yè)。其多模態(tài)處理能力尤為突出,MMMU-Pro測試得分81%,Video-MMMU測試達(dá)87.6%,可無縫處理文本、圖像、視頻、音頻及代碼五種信息模態(tài)。
配套推出的Deep Think增強(qiáng)推理模式成為技術(shù)突破點(diǎn)。通過“思維簽名”和“思考等級(jí)”技術(shù),該模式將思維鏈轉(zhuǎn)化為可量產(chǎn)的產(chǎn)品,在Humanity’s Last Exam測試中得分提升至41.0%,GPQA Diamond測試準(zhǔn)確率高達(dá)93.8%,ARC-AGI-2測試更創(chuàng)下45.1%的紀(jì)錄。代碼生成領(lǐng)域同樣表現(xiàn)亮眼,Gemini 3以1487分登頂WebDev Arena排行榜,Terminal-Bench 2.0測試得分54.2%,SWE-bench Verified基準(zhǔn)測試達(dá)76.2%,被谷歌稱為“迄今最優(yōu)秀的智能體編碼模型”。其配備的100萬token上下文窗口,可輕松應(yīng)對(duì)長文本處理和復(fù)雜任務(wù)拆解。
產(chǎn)品落地策略上,谷歌打破傳統(tǒng)發(fā)布周期,在Gemini 3發(fā)布當(dāng)日即完成核心產(chǎn)品整合。谷歌搜索AI Mode引入沉浸式視覺布局和交互式工具,提供全新生成式用戶界面;Gemini應(yīng)用6.5億月活躍用戶可直接體驗(yàn)新模型能力,AI Overviews的20億月活用戶同步享受升級(jí)服務(wù)。開發(fā)者生態(tài)方面,模型通過Google AI Studio、Vertex AI等官方平臺(tái)及Cursor、GitHub等第三方工具開放訪問,全新推出的Google Antigravity開發(fā)平臺(tái)更將AI輔助升級(jí)為協(xié)同合作伙伴,支持智能體在編輯器、終端和瀏覽器間無縫協(xié)作。
安全評(píng)估方面,Gemini 3成為谷歌史上最嚴(yán)格的審查對(duì)象,在抵御提示注入攻擊和網(wǎng)絡(luò)濫用方面表現(xiàn)優(yōu)異。目前該模型已向部分訂閱用戶開放,Google AI Ultra訂閱用戶將在未來幾周率先體驗(yàn)Deep Think模式,后續(xù)逐步擴(kuò)大開放范圍。這場AI競賽中,OpenAI憑借ChatGPT周活突破7億占據(jù)用戶優(yōu)勢,而谷歌則依托Gemini應(yīng)用6.5億月活和AI Overviews 20億月活的基礎(chǔ),通過新模型快速完成產(chǎn)品升級(jí),形成雙雄對(duì)峙的競爭格局。
















