即使公眾對創(chuàng)始人產(chǎn)生了諸多質疑,但不影響 Stability AI 在文本生成圖像領域的持續(xù)推進。
日前,Stability AI 發(fā)布了 SDXL 0.9,這是其 Stable Diffusion 文本到圖像模型的最新版本,代表 Stability AI 文本到圖像模型套件迎來了新的發(fā)展里程碑。
繼今年 4 月成功發(fā)布 Stable Diffusion XL beta 之后,SDXL 0.9 在圖像和構圖細節(jié)方面繼續(xù)做出大幅突破。SDXL 0.9 是一款強大的工具,可用于在各種創(chuàng)意產(chǎn)業(yè)中創(chuàng)建高度逼真的圖像。與之前的版本相比,此更新的模型對生成圖像的質量和細節(jié)帶來了重大改進。
SDXL 0.9 有哪些重大升級?
現(xiàn)在用戶已可通過 ClipDrop 訪問該模型,API 也將在不久后推出。研究人員正在努力完善 1.0 版本,相關成果包括權重設置預計將在七月中旬與大家見面。
SDXL 0.9 在繼續(xù)保持通過現(xiàn)代消費級 GPU 運行的能力之外,在生成 AI 圖像的創(chuàng)意用例方面也實現(xiàn)了飛躍。SDXL 能夠為影視劇、音樂和教學視頻生成超現(xiàn)實風格的創(chuàng)作結果,也具備在設計和工業(yè)用途中一展身手的水平。
示例:
在 SDXL beta(左)和 0.9 版本上以相同提示詞進行測試,即可體現(xiàn)該模型在短短兩個月內(nèi)取得的重大進展。
提示詞: 美學 外星人拉在拉斯維加斯的人群中,粗礪的膠片攝影
(左圖 - SDXL Beta, 右圖 - SDXL 0.9)
提示詞: 優(yōu)勝美地國家公園的狼,冷冽的自然紀實膠片攝影
(左圖 - SDXL Beta, 右圖 - SDXL 0.9)
SDXL 系列還提供一系列超出基礎文本提示的功能。其中包括圖像到圖像提示(輸入一張圖像,以獲取該圖像的更多變體)、填充(重建圖像內(nèi)的缺失部分)和外延(根據(jù)現(xiàn)有圖像無縫向外擴展)。簡單來說,它可以讓用戶更有創(chuàng)意,以更高級有趣的方式對圖像進行更改。
SDXL 0.9 背后的力量
那么,SDXL 0.9 的底層技術到底是怎樣的?
據(jù) Stability AI 介紹,SDXL 0.9 之所以取得重大進展,核心驅動因素在于參數(shù)數(shù)量(模型訓練時神經(jīng)網(wǎng)絡中所有權重和偏差的總和)較 Beta 版本有了顯著增加。
SDXL 0.9 是目前所有開源圖像模型中參數(shù)量最大的模型之一,基礎模型擁有 35 億參數(shù),模型集成管線擁有 66 億參數(shù)(最終輸出由兩套模型的運行聚合結果創(chuàng)建而成)。管線的第二階段模型,專門用于向第一階段模型生成的輸出添加更多精巧細節(jié)。
相比之下,之前的 beta 版權擁有 31 億參數(shù)并使用單一模型。
SDXL 0.9 運行在兩個 CLIP 模型之上,其中包括迄今為止訓練的最大 OpenCLIP 模型之一 OpenCLIP ViT-G/14。它增強了 SDXL 0.9 的處理能力,使其能夠創(chuàng)建出更具深度和 1024 x 1024 更高分辨率的逼真圖像。
SDXL 團隊將很快發(fā)布一篇研究博客,詳細介紹該模型的規(guī)格和測試情況。
盡管具有強大的輸出和更先進的模型架構,但 SDXL 0.9 仍能夠在現(xiàn)代消費級 GPU 上運行。具體配置要求為:
Windows 10 或 11/Linux 操作系統(tǒng);
16 GB 內(nèi)存、英偉達 GeForce RTX 20 系列顯卡(或更高版本)且至少配備 8 GB 顯存;
Linux 用戶也可以使用配備 16 GB 顯存的 AMD 兼容顯卡。
測試版發(fā)布期間獲得積極反響
Stability AI 因于 2022 年 8 月推出開源圖像生成器 Stable Diffusion 而聞名,進一步加劇了其與 OpenAI 的 Dall-E 和 MidJourney 的競爭。
近日,Stability AI 剛被《時代》周刊評為 2023 年最具影響力的公司之一。其他出現(xiàn)在榜單上的人工智能公司還有 OpenAI(ChatGPT)、Hugging Face(協(xié)作開源人工智能平臺)、Runway AI(生成視頻)、Nvidia 和谷歌 DeepMind。
自 4 月 13 日 SDXL beta 版發(fā)布以來,Stability AI 在 Discord 社區(qū)上收到近 7000 名用戶的熱烈響應。用戶們生成了超過 70 萬張圖像,平均每天超過 2 萬張。超過 5.4 萬張圖像進入 Discord 社區(qū)的“Showdowns”評選,最終有 3521 張 SDXL 圖像被評為優(yōu)秀作品。
可用性和未來計劃
SDXL 0.9 現(xiàn)已在 Clipdrop by Stability AI 平臺上發(fā)布。Stability AI API 及 DreamStudio 客戶端將于 6 月 26 日星期一開放該模型,同時提供 NightCafe 等其他領先的圖像生成工具。
SDXL 0.9 目前暫時僅供研究學習目的使用,希望在全面發(fā)布前收集反饋并充分完善模型。相關代碼后續(xù)將在 GitHub(https://github.com/Stability-AI/generative-models)上公開。
如果研究人員希望訪問這些模型,請通過以下鏈接申請:
SDXL-0.9-Base 模型:https://huggingface.co/stabilityai/stable-diffusion-xl-base-0.9
SDXL-0.9-Refiner:https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-0.9
Stability AI 一再強調(diào),目前 SDXL 0.9 僅用于研究學習目的。
SDXL 1.0 計劃在今年七月中旬(時間選定)全面發(fā)布。SDXL 0.9 遵循非商用、僅供研究的許可證發(fā)布,并受相關使用條款的約束。
-
gpu
+關注
關注
28文章
4768瀏覽量
129326 -
圖像
+關注
關注
2文章
1089瀏覽量
40556 -
模型
+關注
關注
1文章
3298瀏覽量
49183
原文標題:35 億+66 億參數(shù)雙模型,消費級顯卡上也能跑!Stability AI 發(fā)布重大升級,生成圖像真假難辨
文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論