【媒體界】11月15日消息,微軟近日推出了名為“Thought Harmony”(TH)的全新方法,旨在加強人工智能(AI)模型的推理能力。這一創(chuàng)新靈感源自谷歌 DeepMind 的 AlphaZero,采用了緊湊的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
微軟與佐治亞理工學(xué)院和華東師范大學(xué)共同合作研發(fā)了這一算法,通過整合強化學(xué)習(xí)(reinforcement learning)和蒙特卡洛樹搜索(MCTS)能力,進一步提升了模型在復(fù)雜決策環(huán)境中的解決問題效能。

據(jù)媒體界了解,微軟研究團隊表示,Thought Harmony方法可以使語言模型擴展到對其不熟悉的問題上,尤其在Game of 24、8-Puzzle和Pocket Cube等嚴苛測試中表現(xiàn)出顯著提升。研究結(jié)果顯示,Thought Harmony明顯優(yōu)于其他方法,甚至成功解決了其他方法在某些問題上失敗的情況。然而,Thought Harmony并未達到百分之百的可靠性。

Thought Harmony框架主要包括以下關(guān)鍵步驟:
**1. 預(yù)訓(xùn)練階段:** Thought Harmony在特定任務(wù)上進行預(yù)訓(xùn)練,利用蒙特卡洛樹搜索(MCTS)模塊學(xué)習(xí)與有效思維搜索相關(guān)的領(lǐng)域知識。輕量級的策略和價值網(wǎng)絡(luò)指導(dǎo)搜索過程。
**2. 思維搜索:** 在推理過程中,預(yù)訓(xùn)練的MCTS模塊使用策略/價值網(wǎng)絡(luò)來有效地探索和生成語言模型(LLM)的思維軌跡。
**3. 思維修正:** LLM審查MCTS的思維過程,識別任何錯誤。修正的思維是通過額外的MCTS模擬產(chǎn)生的。
**4. LLM推理:** 將修正后的思維提供給LLM,為解決問題提供最終的提示。
這一全新的Thought Harmony方法標(biāo)志著微軟在人工智能領(lǐng)域的不斷創(chuàng)新,為AI技術(shù)的發(fā)展開辟了新的可能性。















