戴爾AI工作站實測：性能與成本雙贏，企業大模型部署新選擇？

發布時間：2024-10-12 17:06 來源：ITBEAR 作者：鐘景軒

隨著大模型技術的日益成熟，越來越多的企業開始考慮將其應用于生產環境。然而，高昂的訪問費用和數據中心資源緊張的問題，使得大模型的本地化部署成為了一個熱門話題。近日，我們針對大模型本地化部署進行了一系列測試，探索了其在企業級AI應用中的潛力和優勢。

測試選用了Dell Precision 7960 Tower工作站，搭載了四張NVIDIA RTX 5880 Ada顯卡，總計192GB顯存，足以應對70B大模型的部署需求。我們分別測試了單卡、雙卡以及四卡GPU在不同模型下的推理和訓練表現。

在推理測試中，我們選擇了不同大小的模型，包括8B、13B、32B和70B，并分別進行了短輸入短輸出和長輸入長輸出的測試用例。結果顯示，無論是單卡、雙卡還是四卡配置，Dell Precision 7960 Tower都能夠提供穩定且高效的推理性能。特別是在四卡配置下，70B模型的吞吐率達到了1730 token/s，平均總時延僅為27秒左右，首字時延8秒左右，表現非常理想。

在訓練測試中，我們使用了Llama-Factory對不同數量的GPU進行了訓練任務的測試。結果顯示，無論是8B、13B還是32B和70B的模型，Dell Precision 7960 Tower都能夠提供高效的訓練性能，算力利用率高達82%以上。特別是在四卡配置下，8B模型的全參微調訓練吞吐率接近Qlora的表現，達到了67.4 token/s的水平。

除了性能和效率，我們還特別關注了Dell Precision 7960 Tower的噪音控制。在訓練測試過程中，四張顯卡平均利用率80-90%的情況下，我們測得平均56分貝的水平；在推理測試中，測得接近50分貝的水平。總體上噪音控制得非常好，相當安靜，基本上對辦公室工作沒有影響。

通過這次測試，我們可以看到，Dell Precision 7960 Tower工作站完全能夠滿足企業級AI應用的需求。無論是推理還是訓練，無論是小模型還是大模型，它都能夠提供穩定且高效的性能。同時，其超靜音的優勢也使得它成為沒有機房的企業團隊的理想選擇。對于想要突破企業數據中心訪問限制、實現AI自由的小伙伴們來說，Dell Precision 7960 Tower無疑是一個值得考慮的選擇。

更多>同類內容