騰訊混元文生圖開源模型推出小顯存版本,僅需6G顯存即可運行

7月4日,騰訊混元文生圖大模型(混元DiT)宣布開源小顯存版本,僅需6G顯存即可運行,對使用個人電腦本地部署的開發(fā)者十分友好,該版本與LoRA、ControlNet等插件,都已適配至Diffusers庫;并新增對Kohya圖形化界面的支持,讓開發(fā)者可以低門檻地訓(xùn)練個性化LoRA模型;同時,混元DiT模型升級至1.2版本,在圖片質(zhì)感與構(gòu)圖方面均有所提升。

此外,騰訊宣布混元文生圖打標(biāo)模型”混元Captioner“正式對外開源。該模型支持中英文雙語,針對文生圖場景進(jìn)行專門優(yōu)化,可幫助開發(fā)者快速制作高質(zhì)量的文生圖數(shù)據(jù)集。

相比起業(yè)界的開源打標(biāo)模型,混元Captioner模型能更好的理解與表達(dá)中文語義,輸出的圖片描述更為結(jié)構(gòu)化、完整和準(zhǔn)確,并能精準(zhǔn)識別出常見知名人物與地標(biāo)。模型還支持開發(fā)者自行補(bǔ)充和導(dǎo)入個性化的背景知識。

混元Captioner模型開源之后,全球的文生圖研究者、數(shù)據(jù)標(biāo)注人員,均可使用混元Captioner高效地提升自身圖像描述質(zhì)量,生成更全面、更準(zhǔn)確的圖片描述,提升模型效果?;煸狢aptioner生成的數(shù)據(jù)集不僅能用于訓(xùn)練基于混元DiT的模型,亦可用于其他視覺模型訓(xùn)練。

模型易用性再提升,個人電腦可輕松運行

騰訊混元DiT模型宣布了三大更新:推出小顯存版本與Kohya訓(xùn)練界面,并升級至1.2版本,進(jìn)一步降低使用門檻的同時提升圖片質(zhì)量。

基于DiT架構(gòu)的文生圖模型生成圖片質(zhì)感更佳,但對顯存的要求卻非常高,讓許多開發(fā)者望而卻步。這也是新版本Stable Diffusion模型無法快速普及的原因之一。

應(yīng)廣大開發(fā)者的需求,混元DiT推出小顯存版本,最低僅需6G顯存即可運行優(yōu)化推理框架,對使用個人電腦本地部署的開發(fā)者非常友好。經(jīng)過與Hugging Face合作,小顯存版本、LoRA與ControlNet插件,都已經(jīng)適配到Diffusers庫中。開發(fā)者無需下載原始代碼,僅用簡單的三行代碼僅可調(diào)用,大大簡化了使用成本。

同時,混元DiT宣布接入Kohya,讓開發(fā)者可以低門檻地訓(xùn)練專屬LoRA模型。

Kohya是一個開源的、輕量化模型微調(diào)訓(xùn)練服務(wù),提供了圖形化的用戶界面,被廣泛用于擴(kuò)散模型類文生圖模型的訓(xùn)練。用戶可以通過圖形化界面,完成模型的全參精調(diào)及LoRA訓(xùn)練,無需涉及到代碼層面的細(xì)節(jié)。訓(xùn)練好的模型符合Kohya生態(tài)架構(gòu),可以低成本與 WebUI 等推理界面結(jié)合,實現(xiàn)一整套“訓(xùn)練-生圖”工作流。

面向文生圖、支持中英文,提升數(shù)據(jù)質(zhì)量

在提升模型易用性的同時,騰訊混元團(tuán)隊也在開放更多的關(guān)鍵技術(shù),包括此前的訓(xùn)練代碼,最新的打標(biāo)模型混元Captioner。

數(shù)據(jù)集就像AI訓(xùn)練的教材。訓(xùn)練數(shù)據(jù)集的質(zhì)量,影響著模型生成內(nèi)容的效果。因此,文生圖開發(fā)者往往需要對原始圖片進(jìn)行清晰、全面的標(biāo)注,制作高質(zhì)量的數(shù)據(jù)集,才能訓(xùn)練出來一個語義理解準(zhǔn)確、繪畫技藝高超的文生圖大模型。

借助打標(biāo)模型,開發(fā)者可以快速生成高質(zhì)量數(shù)據(jù)集。具體來說,文生圖開發(fā)者將原始圖片集導(dǎo)入混元Captioner,后者將生成高質(zhì)量標(biāo)注;也可以導(dǎo)入圖片與原始描述,利用混元Captioner過濾其中的無關(guān)信息,并完善和優(yōu)化圖片描述,以提高數(shù)據(jù)質(zhì)量。

目前,業(yè)界對于圖片描述文本的生成,主要使用通用多模態(tài)Captioner模型,存在描述過于簡單或繁瑣(與畫面描述的無關(guān)信息過多)、缺少背景知識導(dǎo)致無法識別知名人物和地標(biāo)等問題,并且許多模型并非中文原生,中文描述不夠精準(zhǔn)。

騰訊混元文生圖開源模型推出小顯存版本,僅需6G顯存即可運行

混元Captioner對圖片描述進(jìn)行結(jié)構(gòu)化與準(zhǔn)確度提升

騰訊混元文生圖開源模型推出小顯存版本,僅需6G顯存即可運行

混元Captioner的背景知識更為完善

混元Captioner模型針對文生圖場景專門進(jìn)行優(yōu)化:構(gòu)建了結(jié)構(gòu)化的圖片描述體系;并在模型層面,通過注入人工標(biāo)注、模型輸出、公開數(shù)據(jù)等多種來源提升Caption描述的完整性;并注入知名文學(xué)作品形象、地標(biāo)、食物、動物、中國元素與知識等大量背景知識,讓模型輸出的描述更為準(zhǔn)確、完整。

騰訊混元文生圖開源模型推出小顯存版本,僅需6G顯存即可運行

混元Captioner模型構(gòu)建了結(jié)構(gòu)化的圖片描述體系

眾多開發(fā)者關(guān)注,成最受歡迎國產(chǎn)DiT開源模型

作為首個中文原生DiT開源模型,混元DiT自全面開源以來,一直持續(xù)建設(shè)生態(tài)。6月,混元DiT發(fā)布的專屬加速庫,可將推理效率進(jìn)一步提升,生圖時間縮短75%;并進(jìn)一步開源了推理代碼;發(fā)布LoRA和ControlNet等插件。于此同時,模型易用性大幅提升,用戶可以通過Hugging Face Diffusers快訊調(diào)用混元DiT模型及其插件,或基于Kohya和ComfyUI等圖形化界面訓(xùn)練與使用混元DiT。

目前,在眾多開發(fā)者的支持下,混元DiT發(fā)布不到2個月,Github Star數(shù)已經(jīng)超過2.6k,成為最受歡迎的國產(chǎn)DiT開源模型。

騰訊混元文生圖開源模型推出小顯存版本,僅需6G顯存即可運行

本文轉(zhuǎn)載自:,不代表科技訊之立場。原文鏈接:http://v.mrkbao.com/news/111202407041800597464113284.html

陳晨陳晨管理團(tuán)隊

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評論