微軟創(chuàng)新 XOT 方法：助力語言模型推理實力提升

發(fā)布時間：2023-11-15 14:21 來源：媒體界

【媒體界】11月15日消息，微軟近日推出了名為“Thought Harmony”(TH)的全新方法，旨在加強人工智能(AI)模型的推理能力。這一創(chuàng)新靈感源自谷歌 DeepMind 的 AlphaZero，采用了緊湊的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

微軟與佐治亞理工學(xué)院和華東師范大學(xué)共同合作研發(fā)了這一算法，通過整合強化學(xué)習(xí)(reinforcement learning)和蒙特卡洛樹搜索(MCTS)能力，進一步提升了模型在復(fù)雜決策環(huán)境中的解決問題效能。

據(jù)媒體界了解，微軟研究團隊表示，Thought Harmony方法可以使語言模型擴展到對其不熟悉的問題上，尤其在Game of 24、8-Puzzle和Pocket Cube等嚴苛測試中表現(xiàn)出顯著提升。研究結(jié)果顯示，Thought Harmony明顯優(yōu)于其他方法，甚至成功解決了其他方法在某些問題上失敗的情況。然而，Thought Harmony并未達到百分之百的可靠性。

Thought Harmony框架主要包括以下關(guān)鍵步驟：

**1. 預(yù)訓(xùn)練階段：** Thought Harmony在特定任務(wù)上進行預(yù)訓(xùn)練，利用蒙特卡洛樹搜索(MCTS)模塊學(xué)習(xí)與有效思維搜索相關(guān)的領(lǐng)域知識。輕量級的策略和價值網(wǎng)絡(luò)指導(dǎo)搜索過程。

**2. 思維搜索：** 在推理過程中，預(yù)訓(xùn)練的MCTS模塊使用策略/價值網(wǎng)絡(luò)來有效地探索和生成語言模型(LLM)的思維軌跡。

**3. 思維修正：** LLM審查MCTS的思維過程，識別任何錯誤。修正的思維是通過額外的MCTS模擬產(chǎn)生的。

**4. LLM推理：** 將修正后的思維提供給LLM，為解決問題提供最終的提示。

這一全新的Thought Harmony方法標(biāo)志著微軟在人工智能領(lǐng)域的不斷創(chuàng)新，為AI技術(shù)的發(fā)展開辟了新的可能性。

更多>同類內(nèi)容