谷歌近日宣布,其人工智能模型Gemini3DeepThink迎來重大升級(jí),這款專為復(fù)雜任務(wù)設(shè)計(jì)的推理模型,在科學(xué)和工程領(lǐng)域展現(xiàn)出強(qiáng)大實(shí)力,引發(fā)業(yè)界廣泛關(guān)注。此次升級(jí)后的DeepThink不僅在多項(xiàng)基準(zhǔn)測(cè)試中刷新紀(jì)錄,更在實(shí)際應(yīng)用中展現(xiàn)出巨大潛力。
在性能表現(xiàn)方面,DeepThink堪稱"考試冠軍"。在被稱為"人類最后考試"的測(cè)試中,不使用任何工具的情況下取得48.4%的成績(jī),遠(yuǎn)超ClaudeOpus4.6的40%和GPT-5.2的34.5%。在ARC-AGI-2抽象推理測(cè)試中,84.6%的得分更是突破性成就,此前最強(qiáng)模型得分僅在60%-70%區(qū)間。編程領(lǐng)域同樣表現(xiàn)亮眼,在Codeforces平臺(tái)獲得3455的Elo評(píng)分,躋身全球頂尖程序員行列。
科學(xué)應(yīng)用領(lǐng)域,DeepThink展現(xiàn)出獨(dú)特價(jià)值。在2025年國(guó)際物理和化學(xué)奧賽筆試中,該模型獲得金牌級(jí)別成績(jī)。更令人矚目的是,羅格斯大學(xué)數(shù)學(xué)家LisaCarbone利用其審閱專業(yè)論文時(shí),成功識(shí)別出人工評(píng)審未能發(fā)現(xiàn)的邏輯缺陷,這項(xiàng)突破被視為人工智能從輔助工具向研究合作者轉(zhuǎn)變的重要標(biāo)志。杜克大學(xué)團(tuán)隊(duì)借助DeepThink優(yōu)化晶體生長(zhǎng)方案,培育出尺寸超100微米的薄膜,技術(shù)指標(biāo)超越所有現(xiàn)有方法。
工程實(shí)踐方面,DeepThink正在改變傳統(tǒng)工作模式。工程師可通過自然語言指令,讓模型分析圖紙、建模復(fù)雜形狀并生成3D打印文件。在半導(dǎo)體材料研發(fā)中,該模型能快速探索新型材料組合,顯著縮短研發(fā)周期。谷歌CEO桑達(dá)爾·皮查伊特別強(qiáng)調(diào),模型專門針對(duì)缺乏明確解決方案的現(xiàn)實(shí)問題優(yōu)化,特別適合處理數(shù)據(jù)不完整或存在噪聲的復(fù)雜場(chǎng)景。
技術(shù)團(tuán)隊(duì)構(gòu)成同樣引人注目。去年9月加入谷歌DeepMind的清華物理系學(xué)者姚順宇,作為核心成員參與新模型開發(fā)。他在社交平臺(tái)分享使用體驗(yàn)時(shí)表示,DeepThink的推理能力已達(dá)到研究級(jí)水平,能夠支持?jǐn)?shù)學(xué)家開展前沿探索。這種跨學(xué)科背景的研發(fā)團(tuán)隊(duì),或許正是模型在科學(xué)領(lǐng)域表現(xiàn)突出的關(guān)鍵因素。
行業(yè)反響熱烈,多位專家對(duì)測(cè)試成績(jī)表示震驚。有AI從業(yè)者指出,ARC-AGI-2測(cè)試84.6%的得分遠(yuǎn)超人類平均水平,若模型確實(shí)具備模式識(shí)別而非記憶能力,將重新定義人工智能的認(rèn)知邊界。谷歌前工程師評(píng)論稱,發(fā)現(xiàn)論文邏輯缺陷的案例證明,人工智能已跨越輔助驗(yàn)證階段,真正成為研究合作伙伴。
目前,DeepThink已通過Gemini應(yīng)用向GoogleAIUltra訂閱用戶開放,同時(shí)通過GeminiAPI向特定研究人員和企業(yè)提供訪問權(quán)限。這種雙軌開放策略,既保證核心用戶優(yōu)先體驗(yàn),又為專業(yè)領(lǐng)域定制化開發(fā)留下空間。隨著模型在材料科學(xué)、高能物理等領(lǐng)域的深入應(yīng)用,人工智能推動(dòng)基礎(chǔ)研究突破的時(shí)代或許正在到來。















