0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AI新模型可將文本轉(zhuǎn)換為生動的圖像

如意 ? 來源:站長之家 ? 作者:站長之家 ? 2021-01-07 16:37 ? 次閱讀

如今人工智能越來越強大,比如可以實現(xiàn)生成音樂、改變圖片藝術(shù)風(fēng)格等等。最近,人工智能非營利組織OpenAI發(fā)布了一個名為DALL-E的神經(jīng)網(wǎng)絡(luò),可以將文本轉(zhuǎn)換成與內(nèi)容相關(guān)的圖像。

比如生成下面這些穿著芭蕾舞裙揮舞著光劍的熊貓寶寶:

OpenAI在一篇博文中表示,該系統(tǒng)是具有里程碑意義的GPT-3語言模型的120億參數(shù)版本。

DALL-E模型具有多種功能,包括創(chuàng)建動物和物體的擬物化版本,以合理的方式展示相關(guān)的概念,渲染文本,以及對現(xiàn)有圖像進行轉(zhuǎn)換。

比如在該模型中選定“與貓有關(guān)的文本關(guān)鍵詞”,同時選擇給定的其中一種貓類型,最終系統(tǒng)會自動生成一系列與貓主題有關(guān)的圖像,并且風(fēng)格呈現(xiàn)多樣化。

訓(xùn)練該模型的數(shù)據(jù)集主要基于互聯(lián)網(wǎng)大量文本-圖像。這使得它能夠通過探索提示的結(jié)構(gòu)來創(chuàng)造出全新的圖片。比如生成一些令人印象深刻的地標(biāo)、位置、雜交動物和不同年代設(shè)計的圖像。但是OpenAI承認(rèn)并不是所有的結(jié)果都是成功的。

不過,OpenAI承認(rèn)并不是所有生成的結(jié)果都是成功的。該公司表示,DALL-E系統(tǒng)有時無法繪制出某些特定的項目,混淆了對象與其特定屬性之間的關(guān)系。

通常,提示DALL-E寫的字符串越長,成功率越低。測試中發(fā)現(xiàn),重復(fù)部分文本內(nèi)容,準(zhǔn)確率有所提高。

當(dāng)回答有關(guān)地理方面的問題時,比如旗幟、菜肴和當(dāng)?shù)匾吧鷦游?,DALL-E也經(jīng)常反映出膚淺的刻板印象??紤]到人們越來越關(guān)注人工智能算法偏見的問題,這個缺點尤為明顯。

OpenAI表示,它計劃分析DALL-E等模特的社會影響,但該公司認(rèn)為,該系統(tǒng)表明“通過語言操縱視覺概念現(xiàn)在已經(jīng)觸手可及?!?/p>

感興趣的小伙伴可以在OpenAI網(wǎng)站上查看更多DALL-E模型生成的圖像。
責(zé)編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像處理
    +關(guān)注

    關(guān)注

    27

    文章

    1299

    瀏覽量

    56837
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31429

    瀏覽量

    269826
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3294

    瀏覽量

    49037
收藏 人收藏

    評論

    相關(guān)推薦

    廣和通發(fā)布AI玩具大模型解決方案

    玩具行業(yè)的新篇章。 這一解決方案的最大亮點在于其高度的集成性和智能化。無需外接MCU,即可輕松實現(xiàn)音視頻及圖像的實時傳輸、精準(zhǔn)的語音識別、流暢的自然語言處理以及強大的機器學(xué)習(xí)功能。通過擬人、擬動物或擬IP的生動形式,該方案能夠讓AI
    的頭像 發(fā)表于 01-21 14:45 ?263次閱讀

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗】+Embedding技術(shù)解讀

    今天學(xué)習(xí)大模型RAG 檢索增強生成技術(shù)Embedding,即嵌入,是一種將離散數(shù)據(jù)(如文字、圖像、音頻等)轉(zhuǎn)換為連續(xù)的密集向量表示的技術(shù)。這些向量能夠反映原始數(shù)據(jù)之間的關(guān)系,使得計算機能夠更好地處
    發(fā)表于 01-17 19:53

    OpenAI推出AI視頻生成模型Sora

    近日,備受期待的OpenAI再次推出了其創(chuàng)新之作——AI視頻生成模型Sora。這一新品的發(fā)布,無疑為AI技術(shù)注入了新的活力。 據(jù)悉,Sora與OpenAI旗下的AI工具DALL-E有著
    的頭像 發(fā)表于 12-12 09:40 ?229次閱讀

    AI模型部署邊緣設(shè)備的奇妙之旅:如何實現(xiàn)手寫數(shù)字識別

    涉及將浮點數(shù)(如32位或16位)表示的權(quán)重和激活轉(zhuǎn)換為低精度的數(shù)據(jù)類型(如8位整數(shù)或更低),從而實現(xiàn)模型壓縮和加速推理。 過程 (1)訓(xùn)練后量化 這是最簡單的方法,直接應(yīng)用于已經(jīng)訓(xùn)練好的模型。過程如下
    發(fā)表于 12-06 17:20

    NVIDIA推出全新生成式AI模型Fugatto

    NVIDIA 開發(fā)了一個全新的生成式 AI 模型。利用輸入的文本和音頻,該模型可以創(chuàng)作出包含任意的音樂、人聲和聲音組合的作品。
    的頭像 發(fā)表于 11-27 11:29 ?407次閱讀

    AI模型的訓(xùn)練數(shù)據(jù)來源分析

    學(xué)術(shù)機構(gòu)、政府組織或企業(yè)公開發(fā)布,涵蓋了各種類型的數(shù)據(jù),如圖像、文本、音頻、視頻等。例如: ImageNet :一個廣泛用于圖像識別任務(wù)的大規(guī)模圖像數(shù)據(jù)集。 Common Crawl
    的頭像 發(fā)表于 10-23 15:32 ?925次閱讀

    AI模型的最新研究進展

    。例如,在醫(yī)療領(lǐng)域,生成式AI可以幫助醫(yī)生生成診斷報告、治療方案等;在教育領(lǐng)域,AI模型可以生成個性化的學(xué)習(xí)資源和建議。 多模態(tài)融合與交互 : AI
    的頭像 發(fā)表于 10-23 15:19 ?543次閱讀

    未來AI模型的發(fā)展趨勢

    上得到了顯著提升。未來,算法和架構(gòu)的進一步優(yōu)化將推動AI模型在性能上實現(xiàn)新的突破。 多頭自注意力機制、前饋神經(jīng)網(wǎng)絡(luò)等關(guān)鍵技術(shù)的改進,將增強模型的表達能力和泛化能力。 多模態(tài)融合 : AI
    的頭像 發(fā)表于 10-23 15:06 ?761次閱讀

    AI模型圖像識別中的優(yōu)勢

    AI模型圖像識別中展現(xiàn)出了顯著的優(yōu)勢,這些優(yōu)勢主要源于其強大的計算能力、深度學(xué)習(xí)算法以及大規(guī)模的數(shù)據(jù)處理能力。以下是對AI模型
    的頭像 發(fā)表于 10-23 15:01 ?890次閱讀

    AI模型在自然語言處理中的應(yīng)用

    AI模型在自然語言處理(NLP)中的應(yīng)用廣泛且深入,其強大的語義理解和生成能力為NLP任務(wù)帶來了顯著的性能提升。以下是對AI模型在NLP中應(yīng)用的介紹: 一、核心應(yīng)用
    的頭像 發(fā)表于 10-23 14:38 ?596次閱讀

    微軟Azure AI語音服務(wù)革新:引入虛擬人形象,文本一鍵轉(zhuǎn)生動視頻

    微軟于8月23日宣布,在其領(lǐng)先的Azure AI語音服務(wù)中融入了一項革命性創(chuàng)新——虛擬人形象功能,此功能徹底顛覆了傳統(tǒng)交互方式,讓文本轉(zhuǎn)視頻的過程變得前所未有的直觀與生動。
    的頭像 發(fā)表于 08-23 16:25 ?746次閱讀

    李未可科技正式推出WAKE-AI多模態(tài)AI模型

    文本生成、語言理解、圖像識別及視頻生成等多模態(tài)交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語音打造新一代 LLM-Based的自然交互,同時多模態(tài)問答技術(shù)的加持,能實現(xiàn)所見即所問、所問即所得的精準(zhǔn)服務(wù)。此外,融合了人類意圖
    發(fā)表于 04-18 17:01 ?639次閱讀
    李未可科技正式推出WAKE-<b class='flag-5'>AI</b>多模態(tài)<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>

    阿里巴巴推出全新AI圖生視頻模型EMO

    近日,阿里巴巴集團智能計算研究院宣布推出了一款革命性的AI圖片-音頻-視頻模型技術(shù)——EMO。據(jù)官方介紹,EMO是一種先進的音頻驅(qū)動肖像視頻生成框架,能夠?qū)㈧o態(tài)照片轉(zhuǎn)化為生動逼真的動態(tài)視頻,并且能夠隨著任意音頻文件“說話”或“唱
    的頭像 發(fā)表于 03-05 11:00 ?1406次閱讀

    英偉達如何應(yīng)對AI芯片市場需求的轉(zhuǎn)變

    隨著該行業(yè)的快速發(fā)展,更大的機遇將是銷售讓這些模型在訓(xùn)練后運行的芯片,為生成式AI工具迅速擴大的公司和個人使用者提供大量文本圖像。
    發(fā)表于 02-27 10:34 ?257次閱讀

    Stability AI試圖通過新的圖像生成人工智能模型保持領(lǐng)先地位

    Stability AI的最新圖像生成模型Stable Cascade承諾比其業(yè)界領(lǐng)先的前身Stable Diffusion更快、更強大,而Stable Diffusion是許多其他文本
    的頭像 發(fā)表于 02-19 16:03 ?982次閱讀
    Stability <b class='flag-5'>AI</b>試圖通過新的<b class='flag-5'>圖像</b>生成人工智能<b class='flag-5'>模型</b>保持領(lǐng)先地位