谷歌DeepMind發(fā)布AGI安全框架：前瞻布局技術(shù)保障，助力負(fù)責(zé)任研發(fā)與部署

發(fā)布時間：2025-12-11 10:23 來源：快訊作者：沈瑾瑜

谷歌DeepMind近日發(fā)布了一份重要報告，題為《An Approach to Technical AGI Safety and Security》。該報告深入探討了通用人工智能（AGI）可能帶來的重大風(fēng)險，并提出了全面的技術(shù)安全框架，旨在為AGI的負(fù)責(zé)任研發(fā)和部署提供核心指導(dǎo)。

報告指出，AGI具有變革性的潛力，但同時也伴隨著嚴(yán)重的風(fēng)險。這些風(fēng)險被劃分為四大領(lǐng)域：誤用風(fēng)險，即用戶故意利用AGI造成傷害；錯位風(fēng)險，指AGI在明知違背開發(fā)者意圖的情況下仍造成傷害；失誤風(fēng)險，即AGI無意識中導(dǎo)致的傷害；以及結(jié)構(gòu)性風(fēng)險，涉及多主體互動引發(fā)的非主觀傷害。報告特別強(qiáng)調(diào)了誤用和錯位風(fēng)險的技術(shù)應(yīng)對策略。

在誤用風(fēng)險的應(yīng)對上，報告提出了一系列策略，旨在切斷惡意主體獲取危險能力的途徑。這包括通過危險能力評估預(yù)判風(fēng)險閾值，以及利用模型級防護(hù)、系統(tǒng)級管控和安全防護(hù)等多層防御措施。模型級防護(hù)涵蓋安全訓(xùn)練和能力抑制，系統(tǒng)級管控則包括行為監(jiān)測和訪問限制，而安全防護(hù)則涉及模型權(quán)重加密和環(huán)境加固。報告還強(qiáng)調(diào)了通過紅隊(duì)測試驗(yàn)證防護(hù)有效性，并加強(qiáng)社會防御能力以降低潛在傷害。

針對錯位風(fēng)險，報告構(gòu)建了雙重防御體系。第一防線是訓(xùn)練對齊模型，通過增強(qiáng)監(jiān)督、引導(dǎo)模型行為和穩(wěn)健訓(xùn)練等手段，確保模型目標(biāo)與人類意圖一致。第二防線是系統(tǒng)級管控，借鑒網(wǎng)絡(luò)安全思路，通過訪問控制、沙箱隔離和層級監(jiān)控等措施，即便模型錯位也能阻斷嚴(yán)重傷害。同時，報告還提出了不確定性量化、可解釋性研究和更安全的設(shè)計模式等支撐措施。

報告基于五大關(guān)鍵假設(shè)展開，包括當(dāng)前AI研發(fā)范式的持續(xù)性、AGI能力無人類天花板、研發(fā)時間線的不確定性、AI能力加速增長的可能性以及AI能力提升的平滑演進(jìn)。這些假設(shè)為報告的技術(shù)方案提供了理論基礎(chǔ)。

報告還強(qiáng)調(diào)了技術(shù)方案與治理機(jī)制互補(bǔ)的重要性，呼吁形成行業(yè)共識與標(biāo)準(zhǔn)，以避免因競爭壓力導(dǎo)致安全底線下降。同時，報告也指出了當(dāng)前研究的局限性，包括未充分覆蓋結(jié)構(gòu)性風(fēng)險和聚焦短期可落地技術(shù)等，并呼吁未來持續(xù)推進(jìn)基礎(chǔ)研究與跨領(lǐng)域協(xié)作。

更多>同類內(nèi)容

12-11