GPUStack正式發(fā)布: 為大模型而生的開源GPU集群管理器

7月26日,數(shù)澈軟件Seal(以下簡稱“Seal”)宣布正式發(fā)布并開源最新產(chǎn)品 GPUStack,GPUStack 是一個用于運行 LLM(大型語言模型)的開源 GPU 集群管理器

盡管如今大語言模型作為公共的云上服務已經(jīng)被廣泛推廣并在公有云上變得更加易于使用,但對企業(yè)來說,部署托管自己私有的 LLM 供企業(yè)和組織在私有環(huán)境使用仍然非常復雜。

首先,企業(yè)需要安裝和管理復雜的集群軟件,如 Kubernetes,然后還需要研究清楚如何在上層安裝和管理 AI 相關(guān)的工具棧。而目前流行的能在本地環(huán)境運行 LLM 的方法,如 LMStudio 和 LocalAI,卻大都只支持在單臺機器上運行,而沒有提供多節(jié)點復雜集群環(huán)境的支持能力。

Seal 聯(lián)合創(chuàng)始人及 CTO 梁勝博士介紹道,“GPUStack 支持基于任何品牌的異構(gòu) GPU 構(gòu)建統(tǒng)一管理的算力集群,無論目標 GPU 運行在 Apple Mac、Windows PC 還是 Linux 服務器上, GPUStack 都能統(tǒng)一納管并形成統(tǒng)一算力集群。GPUStack 管理員可以從諸如 Hugging Face 等流行的大語言模型倉庫中輕松部署任意 LLM。進而,開發(fā)人員則可以像訪問 OpenAI 或 Microsoft Azure 等供應商提供的公有 LLM 服務的 API 一樣,非常簡便地調(diào)用 OpenAI 兼容的 API 訪問部署就緒的私有 LLM?!?/p>

幫助企業(yè)簡單快速地開啟 LLM 創(chuàng)新

當前,企業(yè)如果想要在 GPU 集群上托管大模型,必須要做大量的工作來集成復雜的技術(shù)棧。通過使用 GPUStack,企業(yè)不再需要擔心如何管理 GPU 集群、推理引擎和推理加速、租戶和配額管理、使用和計量、性能度量、統(tǒng)一認證授權(quán)和訪問控制,以及儀表板。

如下圖所示,GPUStack 是一個構(gòu)建企業(yè)私有的大模型即服務(LLMaaS)的完整平臺,擁有構(gòu)建大模型即服務所需的各項功能。管理員可以將模型從 Hugging Face 等模型倉庫部署到 GPUStack 中,然后開發(fā)人員可以連接到 GPUStack 提供的私有大模型 API,在他們的應用中集成和使用私有大模型服務。

如圖片無法顯示,請刷新頁面

“隨著大語言模型能力的逐漸提高,企業(yè)和組織一方面對快速進入 AI 時代充滿了信心并滿懷期待,希望大語言模型能盡快為自己的企業(yè)和組織帶來生產(chǎn)效能的提高,而另一方面,對于能否有效地把如火如荼的大語言模型技術(shù)進一步與實際業(yè)務進行有機結(jié)合,是否能因此產(chǎn)生相應的效益,企業(yè)及團隊又同時充滿了疑問。我們希望通過簡單易用的 GPUStack 平臺,部署和運行各種開源大語言模型,提供 OpenAI 兼容的 API 接口,使得開發(fā)人員簡單方便地訪問任何的 LLM?!?nbsp;Seal 聯(lián)合創(chuàng)始人及 CEO 秦小康介紹道,“最重要的是,我們支持 Nvidia,Intel,AMD 及眾多品牌的 GPU,在支持異構(gòu) GPU 集群的同時能為企業(yè)節(jié)省更多成本。幫助企業(yè)簡單快速地開啟 LLM 創(chuàng)新是 GPUStack 團隊的初心和使命?!?/p>

整合GPU資源運行大模型

組建 GPU 集群整合資源

GPUStack 可以聚合集群內(nèi)的所有 GPU 資源。它旨在支持所有的 GPU 廠商,包括英偉達,蘋果,AMD,英特爾,高通,華為等。GPUStack 兼容運行 MacOS、Windows 和 Linux 操作系統(tǒng)的筆記本電腦、臺式機、工作站和服務器。

模型部署和推理

GPUStack 為在不同 GPU 上部署不同大模型選擇最佳的推理引擎,支持的首個推理引擎是 LLaMA.cpp,其他推理引擎(如vLLM)的支持也在路線圖中。

在資源充足的情況下,GPUStack 默認將模型全部卸載到 GPU,以實現(xiàn)最佳性能的推理加速。如果 GPU 資源相對不足,GPUStack 會同時使用 GPU 和 CPU 進行混合推理,以最大限度地利用資源。而在沒有 GPU 資源的場景下,GPUStack 也支持純 CPU 推理。這樣的設計使 GPUStack 能夠更廣泛地適配各種邊緣或資源有限的環(huán)境。

快速與現(xiàn)有應用集成

GPUStack 提供了與 OpenAI 兼容的 API,并提供了大模型試驗場。開發(fā)人員可以調(diào)試大模型并將其快速集成到自己的應用中。此外,開發(fā)人員還可以通過觀測指標來了解應用對各種大模型的使用情況。這也有助于管理員有效地管理 GPU 資源利用

GPU 和 LLM 的觀測指標

GPUStack 提供全面的性能、利用率和狀態(tài)監(jiān)控指標。對于 GPU,管理員可以使用 GPUStack 實時監(jiān)控資源利用率和系統(tǒng)狀態(tài)。對于 LLM,相關(guān)指標則可以幫助開發(fā)人員評估模型的性能并優(yōu)化應用

認證和訪問控制

GPUStack 為企業(yè)提供身份驗證和RBAC(Role-based Access Control)功能。這保證了只有授權(quán)的管理員可以部署和管理大模型,只有授權(quán)的開發(fā)人員可以使用大模型,應用也可以通過統(tǒng)一的 API 認證授權(quán)訪問各種大模型。

加入社區(qū),參與開源共創(chuàng)

GPUStack 項目正在快速迭代,計劃引入對多模態(tài)模型的支持,更多的 GPU 廠商支持,以及更多的推理引擎支持。我們十分歡迎您一起參與開源項目的貢獻,也歡迎在我們的 GitHub 倉庫 gpustack/gpustack 上點亮 Star 關(guān)注我們的最新動態(tài)。

本文轉(zhuǎn)載自:,不代表科技訊之立場。原文鏈接:http://articlef.yulepops.com/article/m-165/1/412202407290742474581887.html

陳晨陳晨管理團隊

相關(guān)推薦

發(fā)表回復

登錄后才能評論