911反差婊吃瓜黑料热门网曝,黑人中文字幕在线精品视频站

科技云報道原創(chuàng)。

當前，大模型正處在產(chǎn)業(yè)落地前期，高質(zhì)量的數(shù)據(jù)，是大模型實現(xiàn)產(chǎn)業(yè)化的關(guān)鍵要素。

最近，一項來自Epoch AI Research團隊的研究拋出了一個殘酷的事實：模型還要繼續(xù)做大，數(shù)據(jù)卻不夠用了。

研究人員預測了2022年至2100年間可用的圖像和語言數(shù)據(jù)總量，并據(jù)此估計了未來大模型訓練數(shù)據(jù)集規(guī)模的增長趨勢。

結(jié)果表明：高質(zhì)量的語言數(shù)據(jù)存量將在2026年耗盡，低質(zhì)量的語言數(shù)據(jù)和圖像數(shù)據(jù)的存量將分別在2030年至2050年、2030年至2060年枯竭。

這意味著，如果數(shù)據(jù)效率沒有顯著提高或有新的數(shù)據(jù)源可用，那么到2040年，模型的規(guī)模增長將放緩。

對數(shù)據(jù)端的建設該重視起來了。

高質(zhì)量數(shù)據(jù)成“搶手貨”

隨著全球新一輪AI熱潮來臨，大量訓練數(shù)據(jù)已成為AI算法模型發(fā)展和演進的“燃料”。

從GPT的實驗發(fā)現(xiàn)，隨著模型參數(shù)量的增加，模型性能均得到不同程度的提高。

但值得注意的是，通過來自人類反饋的強化學習（RLHF）生成的InstructGPT模型，比100倍參數(shù)規(guī)模無監(jiān)督的GPT-3模型效果更好，也說明了有監(jiān)督的標注數(shù)據(jù)是大模型應用成功的關(guān)鍵之一。

如果以上預測是正確的，那么毫無疑問數(shù)據(jù)將成為做模型繼續(xù)做大的主要制約因素，AI的進展也會隨著數(shù)據(jù)量的耗盡而放緩。

阿里巴巴達摩院基礎視覺團隊負責人趙德麗博士曾在采訪中表示，數(shù)據(jù)側(cè)的建設將會成為每一個做大模型工作的機構(gòu)必須要考慮的問題，大模型有多少能力，往往取決于有什么樣的數(shù)據(jù)。

據(jù)趙德麗博士介紹，與文生圖大模型相比，做文生視頻大模型要難得多，原因就在于視頻數(shù)據(jù)的數(shù)量遠比不上文本和圖像，更不要談數(shù)據(jù)的質(zhì)量了。相應地，目前已有的文生視頻模型的效果都不盡如人意。

結(jié)合上述研究結(jié)果，如果當下的趨勢繼續(xù)下去，人類現(xiàn)有的數(shù)據(jù)庫存一定會耗盡，而且高質(zhì)量的數(shù)據(jù)會更少。

正因如此，一場數(shù)據(jù)爭奪戰(zhàn)正在拉開序幕。

目前，Adobe利用其數(shù)以億計的庫存照片數(shù)據(jù)庫構(gòu)建了自己的人工智能工具套件，名為Firefly。自3月份發(fā)布以來，F(xiàn)irefly已被用于創(chuàng)建超過10億張圖像，而Adobe股價已因此上漲了36%。

一些初創(chuàng)公司也正在蜂擁至這個新領域。今年4月，專注于人工智能的數(shù)據(jù)庫公司W(wǎng)eaviate融資5000萬美元，估值達到2億美元。

僅僅一周后，其競爭對手PineCone就以7.5億美元的估值籌集了1億美元資金。

本月早些時候，另一家數(shù)據(jù)庫初創(chuàng)公司Neon也獲得了4600萬美元的融資。

在國內(nèi)，百度智能云近期也升級了大模型數(shù)據(jù)服務能力，建設了國內(nèi)首個專業(yè)大模型數(shù)據(jù)標注基地。百度智能云方面表示，目前已經(jīng)在全國與各地政府合作，共建了10多個數(shù)據(jù)標注基地。

顯然，對數(shù)據(jù)的爭奪才剛剛開始。

數(shù)據(jù)標注再次迎來爆發(fā)

AI大模型帶來了大量需求，與之相伴的是中國數(shù)據(jù)標注行業(yè)的迅速發(fā)展。

招商證券認為，一方面，進入大數(shù)據(jù)時代后，人們各種行為的電子化、網(wǎng)絡化帶來海量數(shù)據(jù)，但產(chǎn)生的數(shù)據(jù)只有1%能被收集和保存，并且收集的數(shù)據(jù)中90%是非結(jié)構(gòu)化的數(shù)據(jù)；另一方面，人工智能的興起帶來模型訓練所用結(jié)構(gòu)化數(shù)據(jù)的巨大需求，數(shù)據(jù)標注的重要性逐漸突顯。

有業(yè)內(nèi)人士認為，預計今年10月國內(nèi)會迎來一波大的類chatGPT大模型的數(shù)據(jù)需求，而且這是一個海量的需求，以目前國內(nèi)幾家頭部數(shù)據(jù)標注公司來看，目前產(chǎn)能還不足以滿足需求。

艾瑞咨詢數(shù)據(jù)顯示，包括數(shù)據(jù)采集、數(shù)據(jù)處理（標注）、數(shù)據(jù)存儲、數(shù)據(jù)挖掘等模塊在內(nèi)的AI基礎數(shù)據(jù)服務市場，將在未來數(shù)年內(nèi)持續(xù)增長。

到2025年，國內(nèi)AI基礎數(shù)據(jù)服務市場的整體規(guī)模預計將達到101.1億元，整體市場增速將達到31.8%（2024-2025年）。

據(jù)iResearch數(shù)據(jù)，2019年我國數(shù)據(jù)標注市場規(guī)模為30.9億元，預計2025年市場規(guī)模突破100億元，年復合增長率達到14.6%。

隨著數(shù)據(jù)量的不斷增長和數(shù)據(jù)結(jié)構(gòu)的不斷變化，數(shù)據(jù)標注行業(yè)涉及的領域也越來越廣泛，特別是在自動駕駛、AIGC等領域內(nèi)，數(shù)據(jù)標注需求量極大。

作為AI大語言模型高質(zhì)量回答的基礎，數(shù)據(jù)標注的生產(chǎn)過程主要包括四個環(huán)節(jié)：設計（訓練數(shù)據(jù)集結(jié)構(gòu)設計）、采集（獲取原料數(shù)據(jù)）、加工（數(shù)據(jù)標注）及質(zhì)檢（各環(huán)節(jié)數(shù)據(jù)質(zhì)量、加工質(zhì)量檢測）。

其中，數(shù)據(jù)標注需要識別圖像、文本、視頻等原始數(shù)據(jù)，并添加一個或多個標簽為機器學習模型指定上下文，幫助其做出準確的預測。

當前，大部分數(shù)據(jù)標注任務仍然需要人工完成，而且各種數(shù)據(jù)類型和應用領域都需要相應領域的專業(yè)標注員來完成標注任務。

隨著技術(shù)的發(fā)展，數(shù)據(jù)標準行業(yè)正在成為半人工智能、半人工化的行業(yè)。

面對大語言模型動輒上百億參數(shù)的數(shù)據(jù)質(zhì)量控制，需要通過標注平臺將一個個復雜RLHF需求拆成很多個簡單的工作流，讓機器去做預處理，人去做深層的基于理解的反饋，以減少人在簡單問題上的精力消耗，專注在專業(yè)問題上的標注。

業(yè)內(nèi)一般采用主動質(zhì)檢加被動質(zhì)檢的方式，前者靠人為去做質(zhì)檢，后者是靠算法去做一些預識別。

但目前數(shù)據(jù)標注工具的準確率部分僅百分之幾，部分準確率則可以達到80%、90%。機器標注的識別率越高，人工需求就會越少，成本、利潤、速度、質(zhì)量都能更加可控。

隨著技術(shù)不斷發(fā)展，未來數(shù)據(jù)標注行業(yè)可能會實現(xiàn)更高的自動化程度，不過應用領域不同，仍然需要一定數(shù)量的標注人員來進行標注任務。

傳統(tǒng)數(shù)據(jù)標注亟待升級

值得注意的是，在如今火爆的大模型訓練浪潮中，傳統(tǒng)的數(shù)據(jù)標注需求，很可能是下降的。

讓ChatGPT更具有“人味”的關(guān)鍵——強人工反饋RLHF，帶來的是另一種更高要求的數(shù)據(jù)標注需求。

相關(guān)分析顯示，在RLHF環(huán)節(jié)，模型首先在大數(shù)據(jù)集上進行預訓練，再與專業(yè)的人工智能訓練師進行交互，專業(yè)的標注人員會對ChatGPT生成的回答進行標注、評估和反饋，給出一個針對回答的分數(shù)或者標簽。

這些標注數(shù)據(jù)可以作為強化學習過程中的“獎勵函數(shù)”來指導ChatGPT的參數(shù)調(diào)整，最終幫助模型進行強化學習和不斷優(yōu)化。

也就是說，讓ChatGPT“更具人味兒”的精妙之處很可能就在于——它可以利用人工標注的反饋結(jié)果不斷優(yōu)化自身模型，實現(xiàn)更合乎人類思維邏輯的表達。

但傳統(tǒng)數(shù)據(jù)標注模式很難滿足RLHF的需求。

在過去，數(shù)據(jù)標注公司的主流商業(yè)模式以銷售工具系統(tǒng)和標注服務為主。一方面，缺少自有數(shù)據(jù)很少有出售精準數(shù)據(jù)集的服務。另一方面，人才升級作為一個系統(tǒng)工程，對數(shù)據(jù)標注公司的考驗更高。

在完成這一步后，RLHF訓練還涉及到不少事實判斷和價值判斷。其中，價值判斷涉及到公認的"公序良俗"，理論上是更容易拉齊AI認知的部分，事實判斷則涉及各行業(yè)Know-How。

這往往需要行業(yè)專業(yè)人士出手，不是傳統(tǒng)數(shù)據(jù)標注員，簡單針對詞性、圖片細節(jié)進行標注就能實現(xiàn)的。

也就是說，要跟上新一代AI浪潮，數(shù)據(jù)標注公司不僅需要在數(shù)據(jù)層面進行升級，人才的更新?lián)Q代同樣重要。

目前的確已有標注公司開始在內(nèi)部撰寫《人員提升教程》，他們將在接下來重點培訓標注人員對“升級后”的標注需求理解，以及回答方式的合規(guī)性等。

但是，在專業(yè)壁壘非常高的醫(yī)療等領域，數(shù)據(jù)標注仍面臨著人才困境。

某數(shù)據(jù)標注公司運營負責人曾表示，“特別是醫(yī)療，有些是普通人經(jīng)過培訓可以標的，有的必須要醫(yī)療從業(yè)者，這背后的人才招聘難度可想而知?！?/p>

但即便困難重重，也不意味著數(shù)據(jù)標注公司會立馬進行一波洗牌——至少，在大模型訓練的幾個階段內(nèi)，初始階段的半監(jiān)督學習同樣對傳統(tǒng)數(shù)據(jù)標注存在需求。

面對大模型和RLHF的機遇，重現(xiàn)大規(guī)模投入似乎在所難免。

有業(yè)內(nèi)人士認為，如果數(shù)據(jù)標注公司期望在垂直領域做更高層級的數(shù)據(jù)服務，可能要成立一個全新的產(chǎn)品線。甚至，具備AI研發(fā)背景的創(chuàng)始人會是更合適的數(shù)據(jù)標注創(chuàng)業(yè)者。

面對新一代AI浪潮，沒有人可以躺著掙錢——這是每一次技術(shù)迭代沖擊背后，暗中標注好的“價格”。

【關(guān)于科技云報道】

專注于原創(chuàng)的企業(yè)級內(nèi)容行家——科技云報道。成立于2015年，是前沿企業(yè)級IT領域Top10媒體。獲工信部權(quán)威認可，可信云、全球云計算大會官方指定傳播媒體之一。深入原創(chuàng)報道云計算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等領域。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
30896

瀏覽量
269107
數(shù)據(jù)庫

數(shù)據(jù)庫

+關(guān)注

關(guān)注
7

文章
3799

瀏覽量
64395
GPT

GPT

+關(guān)注

關(guān)注
0

文章
354

瀏覽量
15379
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2450

瀏覽量
2713
AI大模型

AI大模型

+關(guān)注

關(guān)注
0

文章
316

瀏覽量
310

中國晶圓廠今年將是人才爭奪戰(zhàn)關(guān)鍵年

多數(shù)新建廠的投片計劃集中在 2018 年下半年，預估 2017 年人才挖角將更趨白熱化，是人才爭奪戰(zhàn)的關(guān)鍵年。

發(fā)表于 03-23 07:17 ?1477次閱讀

中國晶圓廠今年將是人才<b class='flag-5'>爭奪戰(zhàn)</b>關(guān)鍵年

x86和ARM的嵌入式市場爭奪

趙艷秋英特爾正攜凌動進軍嵌入式市場，與在該市場獲得廣泛應用的ARM及相關(guān)DSP平臺展開激烈的市場爭奪戰(zhàn)。雖然兩大嵌入式平臺在技術(shù)上各有優(yōu)劣，它們正相互學習，彌補自身的不足。但可以肯定的是，未來，誰贏得更廣泛的軟件支持，誰將有可能在市場上勝出。　　　　

發(fā)表于 07-19 07:22

亞馬遜智能物流放大招打響跨境電商爭奪戰(zhàn)

為了保證物品能夠順利運達，同時既要避免過多物流問題導致賣家受傷，也要減少因此可能引發(fā)的買家不滿。為實現(xiàn)這一目的，亞馬遜可謂是煞費苦心。亞馬遜智能物流放大招打響跨境電商爭奪戰(zhàn) 目前，亞馬遜在全球擁有125個運營中心，能將貨物送往全球180多個國家和地區(qū)。

發(fā)表于 11-11 14:47 ?599次閱讀

谷歌在亞洲的首個AI中心的成立將加劇AI人才爭奪戰(zhàn)

上月初，IDG資本發(fā)布的“2017年中國互聯(lián)網(wǎng)準獨角獸薪酬報告”顯示，人工智能行業(yè)高級崗位薪酬高出整體水平55%，中級崗位高出90%，而初級崗位更是高達110%，一場由人工智能引發(fā)的人才爭奪大戰(zhàn)一觸即發(fā)，現(xiàn)有市場人才爭奪已呈現(xiàn)白熱化。而谷歌在亞洲的首個

發(fā)表于 12-22 14:02 ?2764次閱讀

開啟AI人才爭奪戰(zhàn) AI千萬年薪或成泡沫

如今人工智能已經(jīng)進入了技術(shù)紅利期，失衡的人才供求成為了束縛他發(fā)展的最大阻礙。AI人才頻頻告急，許多互聯(lián)網(wǎng)企業(yè)已經(jīng)開始進行AI人才爭奪戰(zhàn)中，洶涌的浪潮，有人不經(jīng)想問支撐AI人才千萬年薪的

發(fā)表于 12-28 17:30 ?971次閱讀

《自然》：中國打響AI人才爭奪戰(zhàn)

）發(fā)表綜述文章《中國打響AI人才爭奪戰(zhàn)》，對中國AI人才短缺問題予以關(guān)注。文章援引微軟研究院駐北京首席研究員戴維·威夫的觀點：“AI的未來將是數(shù)據(jù)

發(fā)表于 01-23 20:10 ?366次閱讀

戴姆勒入股北汽新能源豪賭中國市場新能源市場爭奪戰(zhàn)戴姆勒無優(yōu)勢

國外汽車巨頭紛紛布局新能源汽車市場，而中國市場更是成為了爭奪的焦點，前不久戴姆勒入股北汽新能源豪賭中國市場，然而新能源市場爭奪戰(zhàn)戴姆勒無優(yōu)勢。

發(fā)表于 06-20 11:24 ?2034次閱讀

中美AI人才爭奪，日本只能旁觀

日媒稱，世界范圍內(nèi)人工智能（AI）專家的爭奪戰(zhàn)愈演愈烈，包括無人駕駛汽車、消費者數(shù)據(jù)分析、語音識別和人臉識別系統(tǒng)等領域。據(jù)《日本經(jīng)濟新聞》6月24日報道，隨著經(jīng)濟數(shù)字化的發(fā)展，很多商務場合需要精通人工智能的技術(shù)人員。

發(fā)表于 08-12 09:29 ?440次閱讀

自動駕駛產(chǎn)業(yè)爭奪戰(zhàn)正在全國城市間打響

在汽車智能化時代，一場自動駕駛產(chǎn)業(yè)爭奪戰(zhàn)正在全國城市間打響，20座城市在自動駕駛政策、基礎設施建設、自動駕駛會議及賽事、企業(yè)資金扶持等層面紛紛出臺利好政策。

發(fā)表于 10-31 16:08 ?2812次閱讀

國產(chǎn)手機市場的爭奪還在繼續(xù) 華為小米手機業(yè)務走到了分水嶺

2018年對小米和華為來說是一個轉(zhuǎn)折點。國產(chǎn)手機市場的爭奪還在繼續(xù)，但是兩家的業(yè)務布局在悄然變化，手機業(yè)務對集團的戰(zhàn)略支撐，走到了分水嶺。

發(fā)表于 12-19 14:10 ?1206次閱讀

五巨頭打響人才爭奪戰(zhàn) AI領域人才稀缺

科技領域的AI人才爭奪戰(zhàn)早已拉開。就拿今年來說，Pinterest的首席技術(shù)官Vanja Josifovski跳槽到了Airbnb，而Pinterest聘請了沃爾瑪?shù)氖紫夹g(shù)官Jeremy King

發(fā)表于 01-03 14:39 ?652次閱讀

臺灣5G頻譜爭奪戰(zhàn)使運營商陷入了絕境

據(jù)臺灣媒體報道，在臺灣5G頻譜爭奪戰(zhàn)進入第25天、競標總金額突破1300億新臺幣后，終于有運營商承受不住，大聲疾呼臺灣地方政府、通訊監(jiān)管機構(gòu)NCC考慮國際案例、市場現(xiàn)狀，宣布中止競標，否則非產(chǎn)業(yè)和用戶之福。

發(fā)表于 01-17 10:21 ?600次閱讀

外企對國內(nèi)動力電池爭奪戰(zhàn)升級，鋁塑膜或?qū)⒂瓉頍岢?/a>

當前，全球新能源汽車產(chǎn)業(yè)發(fā)展方興未艾，猛烈的電動化浪潮席卷之下，各大整車企業(yè)對動力電池的爭奪戰(zhàn)也是暗流涌動。近段時間，歐洲三大豪門車企大眾、戴姆勒、寶馬紛紛掀起了爭相綁定中國電池生產(chǎn)企業(yè)的狂潮。

發(fā)表于 07-31 09:33 ?726次閱讀

 新火種AI|大模型時代，AI人才也是各家爭奪的焦點

AI人才爭奪戰(zhàn)，正式打響

發(fā)表于 04-11 20:57 ?412次閱讀

芯片巨頭人才戰(zhàn)：英偉達與三星的AI芯片人才爭奪

在全球AI芯片市場的激烈競爭中，各大芯片企業(yè)紛紛加入了一場以英偉達為中心的人才爭奪戰(zhàn)。這場戰(zhàn)爭不僅關(guān)乎技術(shù)的領先，更決定了誰能在未來AI芯片市場上占據(jù)主導地位。

發(fā)表于 06-22 14:11 ?792次閱讀

搜索歷史

AI大模型終于走到了數(shù)據(jù)爭奪戰(zhàn)

評論

中國晶圓廠今年將是人才爭奪戰(zhàn)關(guān)鍵年

x86和ARM的嵌入式市場爭奪

亞馬遜智能物流放大招打響跨境電商爭奪戰(zhàn)

谷歌在亞洲的首個AI中心的成立將加劇AI人才爭奪戰(zhàn)

開啟AI人才爭奪戰(zhàn) AI千萬年薪或成泡沫

《自然》：中國打響AI人才爭奪戰(zhàn)

戴姆勒入股北汽新能源豪賭中國市場新能源市場爭奪戰(zhàn)戴姆勒無優(yōu)勢

中美AI人才爭奪，日本只能旁觀

自動駕駛產(chǎn)業(yè)爭奪戰(zhàn)正在全國城市間打響

國產(chǎn)手機市場的爭奪還在繼續(xù) 華為小米手機業(yè)務走到了分水嶺

五巨頭打響人才爭奪戰(zhàn) AI領域人才稀缺

臺灣5G頻譜爭奪戰(zhàn)使運營商陷入了絕境

外企對國內(nèi)動力電池爭奪戰(zhàn)升級，鋁塑膜或?qū)⒂瓉頍岢?/a>

新火種AI|大模型時代，AI人才也是各家爭奪的焦點

芯片巨頭人才戰(zhàn)：英偉達與三星的AI芯片人才爭奪