馬斯克旗下xAI公司推出的Grok 4.2公測(cè)版近日悄然上線,盡管團(tuán)隊(duì)近期經(jīng)歷高層動(dòng)蕩,這款新模型仍成為科技圈焦點(diǎn)。與當(dāng)前主流大模型動(dòng)輒萬億參數(shù)的規(guī)模不同,Grok 4.2僅采用5000億參數(shù)架構(gòu),這種"輕量化"設(shè)計(jì)在測(cè)試階段引發(fā)了截然相反的評(píng)價(jià)。
馬斯克在社交平臺(tái)連續(xù)轉(zhuǎn)發(fā)十余條用戶好評(píng),并親自下場(chǎng)"公關(guān)":"當(dāng)前版本仍有缺陷,但公測(cè)結(jié)束后將比前代快得多、聰明得多。模型具備每周自我迭代能力,未來會(huì)持續(xù)進(jìn)化。"據(jù)技術(shù)團(tuán)隊(duì)披露,新架構(gòu)引入實(shí)時(shí)反饋機(jī)制,使模型能像人類一樣通過實(shí)踐快速優(yōu)化,這種動(dòng)態(tài)更新模式區(qū)別于傳統(tǒng)靜態(tài)升級(jí)邏輯。
測(cè)試階段暴露的爭議尤為突出。支持者展示其通過"弱智吧"風(fēng)格邏輯測(cè)試的案例——當(dāng)被問及"50米外洗車店該開車還是步行"時(shí),模型準(zhǔn)確識(shí)別出距離過近的矛盾性。另有用戶證實(shí)其成功通過涉及性別認(rèn)知的敏感測(cè)試,這項(xiàng)曾讓ChatGPT陷入爭議的題目,成為Grok 4.2的加分項(xiàng)。代碼生成和多模態(tài)處理能力也獲得開發(fā)者認(rèn)可,部分測(cè)試顯示其響應(yīng)速度超越競品。
反對(duì)聲音則聚焦于參數(shù)規(guī)模限制。深度用戶指出,在處理復(fù)雜邏輯推理時(shí),5000億參數(shù)明顯力不從心,有開發(fā)者調(diào)侃:"馬斯克說的'橫掃榜單'可能只在特定實(shí)驗(yàn)室環(huán)境成立。"更尖銳的批評(píng)指向模型偏見問題,測(cè)試顯示多個(gè)回答與馬斯克個(gè)人觀點(diǎn)高度吻合,這與他宣稱的"無偏見"原則形成反差。成本爭議同樣存在,有消息稱其訓(xùn)練成本高于同類模型。
技術(shù)細(xì)節(jié)的缺失加劇了討論的兩極分化。xAI至今未發(fā)布完整技術(shù)報(bào)告,公開的評(píng)測(cè)數(shù)據(jù)僅限于部分排行榜成績。這種信息透明度引發(fā)兩種猜測(cè):要么模型尚未成熟,要么團(tuán)隊(duì)在刻意保持神秘感。值得注意的是,馬斯克轉(zhuǎn)發(fā)確認(rèn)了AI工程師Mark Krechman的爆料——當(dāng)前版本只是"小尺寸"試水,中大型版本將在后續(xù)推出。
在模型公測(cè)同期,xAI還低調(diào)上線了Grok imagine視頻生成工具,目前僅支持iOS平臺(tái)。這項(xiàng)新功能與模型升級(jí)形成互補(bǔ),顯示出團(tuán)隊(duì)在多模態(tài)領(lǐng)域的布局野心。隨著公測(cè)持續(xù)至下月,這場(chǎng)關(guān)于參數(shù)規(guī)模、更新模式與商業(yè)化的爭論,或?qū)⒁蚋鄬?shí)測(cè)數(shù)據(jù)披露而迎來新轉(zhuǎn)折。















