谷歌最新發(fā)布的Gemini 3智能模型引發(fā)全球科技界震動。這款被定義為"通往AGI重要一步"的模型,在發(fā)布前就因開發(fā)者負(fù)責(zé)人一條僅含"Gemini"的推文引爆社交媒體,甚至導(dǎo)致推特平臺多次出現(xiàn)訪問故障。盡管Cloudflare事后澄清故障原因,但網(wǎng)友仍戲稱這是"史上最成功的模型預(yù)熱"。
在基準(zhǔn)測試中,Gemini 3 Pro以1501分的Elo評分登頂LMArena排行榜,在Humanity's Last Exam(37.5%)和GPQA Diamond(91.9%)等核心指標(biāo)上全面超越前代及Claude、GPT等競品。數(shù)學(xué)能力方面,該模型在MathArena Apex取得23.4%的突破性成績,重新定義了前沿模型的標(biāo)準(zhǔn)。多模態(tài)處理能力同樣驚艷,在解析科學(xué)圖表和視頻流的任務(wù)中分別獲得81%和87.6%的高分,事實準(zhǔn)確性指標(biāo)SimpleQA Verified更達到72.1%。
深度思考模式(Deep Think)的推出成為最大亮點。測試數(shù)據(jù)顯示,該模式在Humanity's Last Exam(41.0%)和GPQA Diamond(93.8%)的表現(xiàn)優(yōu)于基礎(chǔ)版,在代碼執(zhí)行測試ARC-AGI-2中取得45.1%的得分。這種能力提升使模型能自主規(guī)劃復(fù)雜任務(wù),例如在模擬售貨機經(jīng)營測試中,通過長周期管理實現(xiàn)更高投資回報,全程保持決策連貫性。
開發(fā)者生態(tài)迎來重大革新。新推出的Google Antigravity平臺將智能體開發(fā)提升至新維度,開發(fā)者可授權(quán)AI自主操作編輯器、終端和瀏覽器。該平臺整合了Gemini 2.5 Computer Use瀏覽器控制模型和Nano Banana圖像編輯模型,形成完整的開發(fā)工具鏈。在WebDev Arena測試中,Gemini 3以1487分領(lǐng)跑,Terminal-Bench 2.0測試取得54.2%的成績,編碼代理性能測試SWE-bench Verified得分達76.2%。
實際應(yīng)用場景展現(xiàn)驚人潛力。用戶上傳匹克球比賽視頻后,模型能分析技術(shù)缺陷并制定訓(xùn)練計劃;學(xué)習(xí)復(fù)雜科學(xué)概念時,可生成交互式記憶卡片和可視化代碼;烹飪愛好者能通過翻譯手寫食譜,生成多語言數(shù)字版本。搜索中的AI模式引入沉浸式視覺布局,用戶查詢RNA聚合酶工作原理時,系統(tǒng)會即時生成動態(tài)模擬界面。
定價策略采用分級模式,200k tokens以下任務(wù)輸入/輸出價格為每百萬token 2美元/12美元,超過部分則升至4美元/18美元。深度思考模式將作為Google AI Ultra訂閱專屬功能,預(yù)計未來幾周內(nèi)上線。技術(shù)細節(jié)顯示,這個基于MoE架構(gòu)的模型使用TPU從頭訓(xùn)練,具備1M輸入和64k token輸出能力。
市場反應(yīng)印證行業(yè)期待。在X平臺發(fā)起的"2026年最佳大模型"投票中,Gemini系列獲得壓倒性支持。官方數(shù)據(jù)顯示,AI Overviews月活用戶達20億,Gemini應(yīng)用突破6.5億月活,云客戶中超70%使用其生成式模型,開發(fā)者數(shù)量突破1300萬。這場始于Bard倉促發(fā)布的轉(zhuǎn)型,經(jīng)過合并DeepMind、召回創(chuàng)始人等重大調(diào)整,正顯現(xiàn)出戰(zhàn)略成效。















