国产精品自拍视频在线-亚洲一区二区三区品视频-日本一区二区三区麻烦视频-国偷自产视频一区二区三区久-巨乳少妇av中文字幕-日韩最新免费中文字幕在线观看-成人污污污视频在线免费观看-污污污网站在线免费看-国产欧美高清在线观看视频

媒體界 - 推動中國媒體行業(yè)創(chuàng)新,促進業(yè)內(nèi)人士交流分享!

微軟創(chuàng)新 XOT 方法:助力語言模型推理實力提升

   發(fā)布時間:2023-11-15 14:21

【媒體界】11月15日消息,微軟近日推出了名為“Thought Harmony”(TH)的全新方法,旨在加強人工智能(AI)模型的推理能力。這一創(chuàng)新靈感源自谷歌 DeepMind 的 AlphaZero,采用了緊湊的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

微軟與佐治亞理工學(xué)院和華東師范大學(xué)共同合作研發(fā)了這一算法,通過整合強化學(xué)習(xí)(reinforcement learning)和蒙特卡洛樹搜索(MCTS)能力,進一步提升了模型在復(fù)雜決策環(huán)境中的解決問題效能。

據(jù)媒體界了解,微軟研究團隊表示,Thought Harmony方法可以使語言模型擴展到對其不熟悉的問題上,尤其在Game of 24、8-Puzzle和Pocket Cube等嚴苛測試中表現(xiàn)出顯著提升。研究結(jié)果顯示,Thought Harmony明顯優(yōu)于其他方法,甚至成功解決了其他方法在某些問題上失敗的情況。然而,Thought Harmony并未達到百分之百的可靠性。

Thought Harmony框架主要包括以下關(guān)鍵步驟:

**1. 預(yù)訓(xùn)練階段:** Thought Harmony在特定任務(wù)上進行預(yù)訓(xùn)練,利用蒙特卡洛樹搜索(MCTS)模塊學(xué)習(xí)與有效思維搜索相關(guān)的領(lǐng)域知識。輕量級的策略和價值網(wǎng)絡(luò)指導(dǎo)搜索過程。

**2. 思維搜索:** 在推理過程中,預(yù)訓(xùn)練的MCTS模塊使用策略/價值網(wǎng)絡(luò)來有效地探索和生成語言模型(LLM)的思維軌跡。

**3. 思維修正:** LLM審查MCTS的思維過程,識別任何錯誤。修正的思維是通過額外的MCTS模擬產(chǎn)生的。

**4. LLM推理:** 將修正后的思維提供給LLM,為解決問題提供最終的提示。

這一全新的Thought Harmony方法標(biāo)志著微軟在人工智能領(lǐng)域的不斷創(chuàng)新,為AI技術(shù)的發(fā)展開辟了新的可能性。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新