0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

ChatGPT重磅升級!新語音和圖像輸入功能,讓ChatGPT能看、能聽、能說

Carol Li ? 來源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2023-09-28 00:14 ? 次閱讀

電子發(fā)燒友網(wǎng)報道(文/李彎彎)近日消息,OpenAI在一篇博客中表示,ChatGPT 將推出新的語音和圖像功能。用戶不僅可以在文本框中輸入文字提示,還可以通過語音或圖像與ChatGPT交流。OpenAI稱,新功能在未來兩周內(nèi)向付費用戶推出,不久后會推廣到其他用戶。

ChatGPT 是OpenAI推出的一種人工智能技術驅(qū)動的自然語言處理工具,它能夠基于在預訓練階段所見的模式和統(tǒng)計規(guī)律,來生成回答,還能根據(jù)聊天的上下文進行互動,能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文等任務。自2022年11月30日發(fā)布以來,ChatGPT 已經(jīng)進行了多次功能升級。

ChatGPT現(xiàn)在能看、能聽、能說了

ChatGPT使用了Transformer神經(jīng)網(wǎng)絡架構(gòu),也是GPT-3.5架構(gòu),這是一種用于處理序列數(shù)據(jù)的模型,擁有語言理解和文本生成能力,尤其是它會通過連接大量的語料庫來訓練模型,這些語料庫包含了真實世界中的對話,使得ChatGPT具備上知天文下知地理,還能根據(jù)聊天的上下文進行互動的能力,做到與真正人類幾乎無異的聊天場景進行交流。

2022年11月30日,ChatGPT剛面世就迅速在社交媒體上走紅,短短5天,注冊用戶數(shù)超過100萬。2023年一月末,ChatGPT的月活用戶突破1億,成為史上增長最快的消費者應用。

2023年2月2日,OpenAI發(fā)布ChatGPT試點訂閱計劃——ChatGPT Plus。ChatGPT Plus以每月20美元的價格提供,訂閱者可獲得比免費版本更穩(wěn)定、更快的服務,及嘗試新功能和優(yōu)化的優(yōu)先權。同日,微軟發(fā)布公告稱,旗下所有產(chǎn)品將全線整合ChatGPT。

2023年3月15日,OpenAI正式推出GPT-4。GPT-4是多模態(tài)大模型,即支持圖像和文本輸入以及文本輸出,擁有強大的識圖能力。GPT-4的特點在于:第一,它的訓練數(shù)量更大;第二,支持多元的輸出輸入形式;第三,在專業(yè)領域的學習能力更強。

2023年5月18日,OpenAI官網(wǎng)宣布推出iOS版ChatGPT應用,該應用可免費使用,并在不同設備間同步用戶的歷史記錄。該應用還集成了OpenAI開源語音識別系統(tǒng)Whisper,支持語音輸入。ChatGPT Plus付費訂閱用戶可以獨家使用GPT-4功能。

2023年7月,OpenAI宣布推出定制指令功能,以便客戶更好地控制ChatGPT的回應方式。此外,OpenAI還發(fā)布公告稱,給ChatGPT加了一個名為Custom instructions的新功能。2023年7月25日,OpenAI宣布,安卓版ChatGPT正式上線。

2023年9月25日,OpenAI發(fā)布《ChatGPT 現(xiàn)在能看、能聽、能說了》的公告,宣布ChatGPT 增加語音輸入和圖像輸入兩項新功能。這可以說是ChatGPT 發(fā)布以來極其重大的更新。

據(jù)介紹,語音輸入功能類似于手機上的語音助手,用戶只需要輕輕點擊一個按鈕,說出自己的問題,ChatGPT能將這些口述的問題轉(zhuǎn)換成文本,將其輸入至大語言模型中,生成答案,接著將答案轉(zhuǎn)化成語音,播放給用戶。

語音轉(zhuǎn)文本的任務由OpenAI 的 Whisper 模型提供支持。同時,該公司正在引入一款全新的文本轉(zhuǎn)語音的模型,據(jù)稱可以通過幾秒鐘的語音樣本生成與人類相似的音頻。

圖像輸入功能類似于Google Lens,用戶可以拍攝自己感興趣的事物,并上傳到ChatGPT中,ChatGPT會嘗試識別用戶想要詢問的內(nèi)容,并給出相應的回答。用戶還可以用應用中的繪圖工具來幫助表達自己的問題,或者配合語音或文本輸入來進行交流。

用戶可以向ChatGPT展示一張或多張圖片,提問相關的問題。比如,發(fā)送一張壞掉的燒烤爐圖片,然后詢問無法啟動原因;拍攝一張冰箱中的食材,詢問多種菜品制作方案。

OpenAI還放出了一段視頻,是和ChatGPT商量著修自行車,不斷問ChatGPT:這里是扳手嗎?是調(diào)整這里嗎?甚至還把說明書拍照發(fā)給ChatGPT求解釋。

這正是ChatGPT獨特的特性所帶來的幫助,用戶可以與機器人進行互動,逐步完善答案,而無需首先進行搜索并在得到錯誤答案后再次搜索。

ChatGPT新增語音和圖像功能帶來的風險

OpenAI在博客中表示,其目標是構(gòu)建安全有益的通用人工智能(AGI)。新增的語音和圖像功能可能會帶來一些風險,但是OpenAI正在采取措施緩解這些風險。

新的語音技術能夠在短短幾秒鐘的真實語音片段中生成逼真的合成語音,這一技術存在潛在風險,比如,惡意行為者可能會濫用這項技術,冒充公眾人物或?qū)嵤┢墼p。為了避免這些問題的發(fā)生,OpenAI決定將這項技術應用于特定的場景中,會受到嚴格的限制。

新的圖像功能也帶來一定風險,在進行更廣泛的部署之前,OpenAI測試了該模型在極端主義和科學領域等方面潛在的風險,并對一些關鍵細節(jié)進行了調(diào)整,來確保負責任地應用這項技術。比如,在處理人物圖片時,OpenAI限制了ChatGPT 對人物進行分析和直接評價的能力,這意味著上傳一個人的照片就能知道那是誰無法實現(xiàn),這是為了隱私安全。

ChatGPT自發(fā)布以來,在受到廣大用戶追捧的同時,其伴隨的風險也讓各界人士表示擔憂。一是它可能在被使用的過程中造成數(shù)據(jù)信息的丟失;二是它也可能會被一些不法分子用來實施欺詐行為。在過去這大半年時間里,不少機構(gòu)也在反對ChatGPT的使用和進一步研究。

2023年2月3日,IT行業(yè)的領導們擔心,ChatGPT已經(jīng)被黑客們用于策劃網(wǎng)絡攻擊時使用。黑莓(Black Berry)的一份報告調(diào)查了英國500名IT行業(yè)決策者對ChatGPT這項革命性技術的看法,發(fā)現(xiàn)超過四分之三(76%)的人認為,外國已經(jīng)在針對其他國家的網(wǎng)絡戰(zhàn)爭中使用ChatGPT。近一半的人認為,2023年,將會出現(xiàn)有人惡意使用ChatGPT成功進行網(wǎng)絡攻擊。

2023年4月,中國支付清算協(xié)會倡議支付行業(yè)從業(yè)人員謹慎使用ChatGPT。4月13日,西班牙國家數(shù)據(jù)保護局和法國國家信息自由委員會分別宣布對ChatGPT展開調(diào)查。

在各界人士對ChatGPT存在風險的質(zhì)疑聲中,OpenAI也一直在尋找解決辦法,如何讓其在增加新功能的同時而不會帶來新的問題。從這次的功能升級來看,OpenAI試圖通過有意限制新模型的功能,來達到更進一步提升功能和同時帶來新問題的平衡。OpenAI表示,將不斷改進和完善風險緩解措施,未來為大家提供更強大的系統(tǒng)。

總結(jié)

ChatGPT自出世以來就引起了廣泛關注,過去近一年時間,OpenAI對其底層模型和界面也進行了多次升級。如今,ChatGPT更是進行了一次重磅升級,新增語音輸入和圖像輸入功能,讓ChatGPT實現(xiàn)了能看、能聽、能說的能力。

與此同時,ChatGPT在使用中存在的風險一直以來也是各界擔心的問題,此次增加的新功能更是可能帶來新的風險。不過在過去這段時間,OpenAI也一直致力于尋找解決辦法,就比如在這次功能升級中,OpenAI通過一些限制來在實現(xiàn)新功能的同時也避免可能帶來新風險。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • ChatGPT
    +關注

    關注

    29

    文章

    1564

    瀏覽量

    7818
收藏 人收藏

    評論

    相關推薦

    ChatGPT新增實時搜索與高級語音功能

    。OpenAI對搜索算法進行了深度優(yōu)化,使得ChatGPT能夠在用戶提出問題后,迅速獲取到分鐘級別的最新信息,包括股票、新聞等。這一功能的加入,極大地滿足了用戶對即時數(shù)據(jù)的需求,使得ChatGPT在各類應用場景中更加得心應手。
    的頭像 發(fā)表于 12-17 14:08 ?223次閱讀

    大聯(lián)大推出基于MediaTek Genio 130與ChatGPT的AI語音助理方案

    大聯(lián)大控股,作為亞太地區(qū)市場領先的半導體元器件分銷商,近日宣布了一項重要創(chuàng)新。其旗下子公司品佳,成功推出了基于聯(lián)發(fā)科技(MediaTek)Genio 130芯片與ChatGPT功能的AI語音助理方案
    的頭像 發(fā)表于 12-11 11:07 ?425次閱讀

    OpenAI推出Windows桌面版ChatGPT應用

    Embiricos介紹,這款桌面版ChatGPT應用不僅繼承了原有版本的強大功能,還新增了多項實用特性,旨在用戶在不中斷當前工作流程的情況下,輕松啟動新的對話或繼續(xù)之前的討論。 該應用支持
    的頭像 發(fā)表于 11-18 14:04 ?301次閱讀

    OpenAI推出ChatGPT搜索功能

    近日,OpenAI再次邁出了重要的一步,為其廣受好評的ChatGPT平臺添加了一項全新的搜索功能。 據(jù)悉,這項被命名為“ChatGPT搜索”的新功能,將為用戶帶來前所未有的搜索體驗。以
    的頭像 發(fā)表于 11-04 10:34 ?368次閱讀

    OpenAI在ChatGPT增添搜索功能

    近日,OpenAI宣布為其旗艦產(chǎn)品ChatGPT增添全新的搜索功能,此舉標志著該公司對Alphabet旗下谷歌的直接挑戰(zhàn)進一步升級。OpenAI周四正式揭曉了這一名為“ChatGPT
    的頭像 發(fā)表于 11-01 17:01 ?394次閱讀

    ChatGPT 高級語音模式擴展至歐盟多國

    ,隨后在上個月擴展到了英國用戶。現(xiàn)在,歐盟等多地區(qū)的 ChatGPT Plus 和 Team 用戶也可以享受到這一便捷的功能。 ChatGPT 高級語音模式的一大亮點在于其快速的響應時
    的頭像 發(fā)表于 10-23 11:08 ?433次閱讀

    OpenAI發(fā)布ChatGPT高級語音版,付費訂閱并設對話時長限制

    ChatGPT已邁入語音交互的新紀元,為付費用戶解鎖了高級語音功能,旨在對話體驗更加自然流暢。OpenAI在本周二宣布了這一消息,標志著其
    的頭像 發(fā)表于 09-27 15:34 ?1828次閱讀

    使用espbox lite進行chatgpt_demo的燒錄報錯是什么原因?

    我使用espbox lite進行chatgpt_demo的燒錄 我的idf是v5.1release版本的,espbox是master版本的 在編譯時似乎沒有什么問題 在燒錄時報錯 請問這是什么原因
    發(fā)表于 06-11 08:45

    OpenAI 深夜拋出王炸 “ChatGPT- 4o”, “她” 來了

    功能和實際應用。 GPT-4 turbo****的增強功能 ChatGPT-4o帶來了幾個值得注意的升級,增強了性能和可用性: · 更快的響應時間和更高的準確性: 是客戶服務和其他快
    發(fā)表于 05-27 15:43

    【Longan Pi 3H 開發(fā)板試用連載體驗】給ChatGPT裝上眼睛,還可以語音對話

    結(jié)果整合,整合后再輸入ChatGPT或其他大語言模型。最后再將大語言模型的輸出結(jié)果利用TTS轉(zhuǎn)化為語音進行播放。實現(xiàn)Chatgpt多模態(tài)輸入
    發(fā)表于 04-12 12:41

    在FPGA設計中是否可以應用ChatGPT生成想要的程序呢

    當下AI人工智能崛起,很多開發(fā)領域都可看到ChatGPT的身影,F(xiàn)PGA設計中,是否也可以用ChatGPT輔助設計呢?
    發(fā)表于 03-28 23:41

    ChatGPT推出全新“朗讀”功能

    近日,OpenAI為其備受矚目的聊天機器人ChatGPT推出了全新的“朗讀”功能,該功能以五種不同的聲音朗讀回復,并支持多達37種語言,進一步豐富了用戶的交互體驗。這一功能的推出,旨在
    的頭像 發(fā)表于 03-07 10:25 ?935次閱讀

    OpenAI推出ChatGPT“朗讀”功能

    OpenAI今日宣布,為其廣受歡迎的ChatGPT平臺新增了“朗讀”功能,該功能允許用戶將對話文本內(nèi)容轉(zhuǎn)化為語音,從而進行聽讀。無論是iOS還是安卓系統(tǒng)的用戶,現(xiàn)在都可以輕松享受到這一
    的頭像 發(fā)表于 03-06 18:17 ?1398次閱讀

    ChatGPT新增朗讀功能,實現(xiàn)語音交流新突破

    OpenAI近日為ChatGPT推出了全新的朗讀功能,該功能不僅可以在網(wǎng)絡版本上使用,還兼容iOS和Android應用程序。這一創(chuàng)新性的更新為用戶帶來了更加直觀和便捷的交互體驗。
    的頭像 發(fā)表于 03-06 11:34 ?864次閱讀

    【國產(chǎn)FPGA+OMAPL138開發(fā)板體驗】(原創(chuàng))6.FPGA連接ChatGPT 4

    (output_text) ); // 用于存儲用戶輸入的文本 reg [255:0] input_text; // 用于存儲ChatGPT4的響應 wire [255:0
    發(fā)表于 02-14 21:58