從去年下半年ChatGPT橫空出世至今,大模型的熱度一直沒有減弱。AI好不好,基本上就看四點(diǎn):數(shù)據(jù)、算力、算法和應(yīng)用。智愿君決定用幾篇的內(nèi)容,聊聊這些話題。如果用烹飪來形容的話:數(shù)據(jù)是原材料柴米油鹽,算力是烹調(diào)工具鍋和火力,算法是烹飪的技法,而應(yīng)用就是如何讓這道菜受歡迎,允許原材料、技法的改良和變化,允許被包裝,最終被普及大眾接受和感知。
最先要聊的必須要有好的數(shù)據(jù)集。對于深度學(xué)習(xí)而言,好的數(shù)據(jù)集是基礎(chǔ)。如果輸入的數(shù)據(jù)質(zhì)量較低、不準(zhǔn)確或包含錯誤信息,那么即使使用優(yōu)秀的算法和模型,最終學(xué)習(xí)出來的結(jié)果也可能存在錯誤和不準(zhǔn)確性。數(shù)據(jù)的準(zhǔn)確性和質(zhì)量是確保機(jī)器學(xué)習(xí)模型能夠產(chǎn)生準(zhǔn)確和可靠結(jié)果的先決條件。正所謂垃圾進(jìn),垃圾出。所以要做好大模型,就要從源頭抓起。
1. 高質(zhì)量的數(shù)據(jù)資源
想做好數(shù)據(jù)集,尋找到高質(zhì)量的數(shù)據(jù)資源是第一步。AI學(xué)習(xí)的數(shù)據(jù)要有一些基本的質(zhì)量要求,否則后期處理工作量會翻倍。這里面包括:
-
-
數(shù)據(jù)的準(zhǔn)確性和真實(shí)性。如果數(shù)據(jù)存在大量的謊言,那么AI也自然就學(xué)會了說謊。
-
數(shù)據(jù)的邏輯性:如果數(shù)據(jù)的關(guān)聯(lián)缺少必要的因果關(guān)系和邏輯推理關(guān)系,在這種數(shù)據(jù)上希望訓(xùn)練成一個邏輯性很強(qiáng)的推理AI也是癡人說夢。
-
數(shù)據(jù)的平衡和公允性。當(dāng)然,這個是針對AI大模型最終用戶的預(yù)判來決定的。如果一個大模型默認(rèn)就是簡體中文的群體,那么要在這個群體范圍內(nèi)做到盡可能的數(shù)據(jù)公平和公允性,不會刻意制造地域、年齡、職業(yè)和能力差別情況下的失衡和不公平。這種數(shù)據(jù)的多樣性,也是最終模型魯棒性的體現(xiàn)。也會幫助最終的大模型更好地應(yīng)對現(xiàn)實(shí)世界中的變化和挑戰(zhàn)。
-
數(shù)據(jù)語言文明用語的重要性。要盡可能干凈,不能出現(xiàn)辱罵、偏見、歧視性的用語。
-
不同領(lǐng)域數(shù)據(jù)資源會有所不同,一些經(jīng)典的數(shù)據(jù)資源如下:
Wikipedia:
Wikipedia是一個由志愿者創(chuàng)建和編輯的在線百科全書,它包含了廣泛的知識領(lǐng)域和主題的文章。Wikipedia的數(shù)據(jù)資源在自然語言處理(NLP)和文本相關(guān)的任務(wù)中非常有價值。它提供了大量的結(jié)構(gòu)化和非結(jié)構(gòu)化文本數(shù)據(jù),包括文章、段落、標(biāo)題、鏈接等信息。Wikipedia的數(shù)據(jù)資源可用于語義理解、文本分類、實(shí)體識別、關(guān)系抽取、問答系統(tǒng)等NLP任務(wù)的訓(xùn)練和評估。Wikipedia數(shù)據(jù)資源的廣泛性和多樣性使其成為研究和開發(fā)NLP模型的重要數(shù)據(jù)來源。
Common Crawl:
Common Crawl是一個非營利性組織,旨在收集并提供互聯(lián)網(wǎng)上的網(wǎng)頁數(shù)據(jù)。它通過定期抓取互聯(lián)網(wǎng)上的網(wǎng)頁并存儲為大規(guī)模的數(shù)據(jù)集,提供了一個公共的、開放的互聯(lián)網(wǎng)快照。Common Crawl的數(shù)據(jù)資源是以網(wǎng)頁的形式提供的,包含了網(wǎng)頁的HTML內(nèi)容、鏈接、標(biāo)記等信息。這些數(shù)據(jù)對于自然語言處理、信息檢索、網(wǎng)頁分析、機(jī)器學(xué)習(xí)等任務(wù)非常有價值。研究人員和開發(fā)者可以利用Common Crawl的數(shù)據(jù)資源進(jìn)行文本抽取、語義分析、信息挖掘等任務(wù)的訓(xùn)練和研究。
World Bank Open Data:
世界銀行開放數(shù)據(jù)平臺提供了全球范圍內(nèi)的經(jīng)濟(jì)、社會和發(fā)展數(shù)據(jù)。這些數(shù)據(jù)涵蓋各種指標(biāo),包括國內(nèi)生產(chǎn)總值(GDP)、人口統(tǒng)計、教育、衛(wèi)生等。
ImageNet:
ImageNet是一個大規(guī)模圖像數(shù)據(jù)庫,包含數(shù)百萬個標(biāo)記圖像。每個圖像都與一個或多個類別標(biāo)簽相關(guān)聯(lián)。ImageNet的數(shù)據(jù)資源被廣泛用于計算機(jī)視覺任務(wù),如圖像分類、目標(biāo)檢測和圖像分割等。
IMDb:
IMDb(Internet Movie Database)是關(guān)于電影、電視節(jié)目、演員和其他相關(guān)信息的廣泛數(shù)據(jù)庫。它提供了詳細(xì)的影片信息、演員表、評分和評論等。
Kaggle:
Kaggle是一個數(shù)據(jù)科學(xué)競賽和交流平臺,提供大量的公開數(shù)據(jù)集供數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)從業(yè)者使用。這些數(shù)據(jù)集涵蓋各個領(lǐng)域,包括圖像識別、自然語言處理、金融、醫(yī)療等。
OpenStreetMap:
OpenStreetMap是一個開放的地圖數(shù)據(jù)項(xiàng)目,由全球志愿者創(chuàng)建和維護(hù)。它提供了地理數(shù)據(jù)和地圖信息,可用于各種導(dǎo)航、地理信息系統(tǒng)(GIS)和位置分析應(yīng)用。
NASA's Planetary Data System:
NASA的行星數(shù)據(jù)系統(tǒng)(Planetary Data System)收集和維護(hù)了來自太陽系行星探測任務(wù)的各種科學(xué)數(shù)據(jù)。這些數(shù)據(jù)包括行星表面圖像、空間探測器觀測數(shù)據(jù)、天體物理數(shù)據(jù)等。該數(shù)據(jù)資源對于行星科學(xué)研究和空間探索具有重要意義。
大家可能發(fā)現(xiàn)上述的數(shù)據(jù)資源大多為美國的資源。這一點(diǎn),相比之下,我國確實(shí)存在一定程度的差距。根據(jù)發(fā)改委高技術(shù)司,我國政府?dāng)?shù)據(jù)資源占全國數(shù)據(jù)資源的比重超過 3/4,開放的規(guī)模卻不足美國的 10%,個人和企業(yè)可以利用的規(guī)模更是不及美國的 7%,但這類數(shù)據(jù)的開放共享程度不高,全國開放數(shù)據(jù)集規(guī)模僅約為美國的 11%。而且我們的很多數(shù)據(jù)都在不同的垂直領(lǐng)域國企大廠,數(shù)據(jù)有待進(jìn)一步開放匯集,為開發(fā)更符合國內(nèi)需求的大模型提供基礎(chǔ)。但國際環(huán)境復(fù)雜多變,數(shù)據(jù)安全仍是當(dāng)前的重要考慮因素,所以如何拉通數(shù)據(jù)資源市場,促進(jìn)相關(guān)公共、企業(yè)、個人數(shù)據(jù)的進(jìn)一步放開,將為國內(nèi) AI 發(fā)展提供重要支撐,確實(shí)存在很大的挑戰(zhàn)。
2. 數(shù)據(jù)預(yù)處理和準(zhǔn)備
盡管數(shù)據(jù)資源很重要,但要在真正拿來訓(xùn)練前,還是需要做很多功課的,如果不排除數(shù)據(jù)中存在前后矛盾的情況,格式不一致的情況,來源不同,導(dǎo)致訓(xùn)練水土不服的情況。再加上不可避免的噪聲、異常、重復(fù)等數(shù)據(jù)問題,這就需要經(jīng)過專業(yè)化的預(yù)處理和數(shù)據(jù)準(zhǔn)備,比如如何從數(shù)據(jù)資源中采集數(shù)據(jù)?數(shù)據(jù)的價值觀設(shè)計?是否需要做進(jìn)一步的數(shù)據(jù)清洗?如何進(jìn)行數(shù)據(jù)標(biāo)注?如何管理這些數(shù)據(jù)?等等,接下來,我們就逐一展開聊一下:
數(shù)據(jù)采集:
數(shù)據(jù)采集是從數(shù)據(jù)資源中獲取數(shù)據(jù)的過程。它涉及到確定數(shù)據(jù)的來源、采集方法和采集范圍等。數(shù)據(jù)可以來自各種渠道,如公共數(shù)據(jù)集、開放API、傳感器、日志文件等。在數(shù)據(jù)采集過程中,需要考慮數(shù)據(jù)的可靠性、完整性和合法性,確保采集到的數(shù)據(jù)符合預(yù)期和需求。
數(shù)據(jù)價值觀設(shè)計:
數(shù)據(jù)的價值觀設(shè)計是指在數(shù)據(jù)采集和使用過程中明確和定義數(shù)據(jù)的意義和價值。這包括確定數(shù)據(jù)的目標(biāo)和目的,定義數(shù)據(jù)的質(zhì)量標(biāo)準(zhǔn)和指標(biāo)。數(shù)據(jù)的價值觀設(shè)計需要結(jié)合具體應(yīng)用場景和業(yè)務(wù)需求,確保數(shù)據(jù)的質(zhì)量和適用性。對于我國在做大模型的一些企業(yè),數(shù)據(jù)價值觀設(shè)計可能尤為重要,大模型生成的結(jié)果是否符合社會主義價值觀,是否符合正能量要求,是否避開敏感話題等,在數(shù)據(jù)預(yù)處理的時候,就要把控好。
數(shù)據(jù)清洗(Data Cleaning):
數(shù)據(jù)清洗是指對數(shù)據(jù)進(jìn)行處理和修正,以去除或糾正數(shù)據(jù)中的錯誤、缺失、重復(fù)或不一致等問題。數(shù)據(jù)清洗過程包括數(shù)據(jù)去噪、數(shù)據(jù)填充、數(shù)據(jù)一致性檢查和糾正等。通過數(shù)據(jù)清洗,可以提高數(shù)據(jù)的準(zhǔn)確性和一致性,消除對模型訓(xùn)練的負(fù)面影響。
數(shù)據(jù)標(biāo)注(Data Labeling):
數(shù)據(jù)標(biāo)注是指給數(shù)據(jù)附加標(biāo)簽或注釋,以指示數(shù)據(jù)的特征、類別或含義。數(shù)據(jù)標(biāo)注可以是結(jié)構(gòu)化的,如分類標(biāo)簽、實(shí)體標(biāo)注等,也可以是非結(jié)構(gòu)化的,如文本摘要、圖像描述等。數(shù)據(jù)標(biāo)注需要依賴專業(yè)的領(lǐng)域知識和標(biāo)注指南,并進(jìn)行質(zhì)量控制和質(zhì)量評估,以確保標(biāo)注結(jié)果的準(zhǔn)確性和一致性。在數(shù)據(jù)標(biāo)注和處理過程中,可以利用眾包平臺或協(xié)作工具來進(jìn)行大規(guī)模的數(shù)據(jù)標(biāo)注和校對。通過將任務(wù)分發(fā)給眾多標(biāo)注人員或協(xié)作團(tuán)隊(duì),可以加快數(shù)據(jù)處理的速度,并確保數(shù)據(jù)的準(zhǔn)確性和一致性。數(shù)據(jù)集眾包和協(xié)作可以有效應(yīng)對大規(guī)模數(shù)據(jù)處理的挑戰(zhàn)。
訓(xùn)練數(shù)據(jù)預(yù)處理:
數(shù)據(jù)預(yù)處理是對原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換、規(guī)范化和歸一化等操作,以便于后續(xù)的特征工程和模型訓(xùn)練。常見的數(shù)據(jù)預(yù)處理操作包括特征縮放、特征選擇、特征變換、數(shù)據(jù)降維等。數(shù)據(jù)預(yù)處理的目標(biāo)是提高數(shù)據(jù)的可解釋性、可處理性和模型訓(xùn)練的效果。除了結(jié)構(gòu)化數(shù)據(jù)(如表格數(shù)據(jù))之外,還存在大量的非結(jié)構(gòu)化數(shù)據(jù),如文本、圖像、音頻和視頻等。處理非結(jié)構(gòu)化數(shù)據(jù)需要使用相應(yīng)的技術(shù)和算法,如自然語言處理(NLP)、計算機(jī)視覺(CV)、語音識別等。對于非結(jié)構(gòu)化數(shù)據(jù)的預(yù)處理和準(zhǔn)備,需要使用特定的工具和庫,以及領(lǐng)域?qū)I(yè)知識。
數(shù)據(jù)增強(qiáng):
數(shù)據(jù)增強(qiáng)是指通過一系列的變換和擴(kuò)展操作來生成新的訓(xùn)練樣本,以增加數(shù)據(jù)的多樣性和豐富性。數(shù)據(jù)增強(qiáng)可以包括圖像翻轉(zhuǎn)、旋轉(zhuǎn)、平移、縮放等操作,或者對文本進(jìn)行重排、替換、增刪等操作。通過數(shù)據(jù)增強(qiáng),可以擴(kuò)展有限的數(shù)據(jù)集,減輕過擬合問題,提高模型的泛化能力和魯棒性。
數(shù)據(jù)質(zhì)量控制:
數(shù)據(jù)質(zhì)量控制是確保數(shù)據(jù)的準(zhǔn)確性、一致性和可靠性的過程。它包括數(shù)據(jù)異常值的檢測和處理、數(shù)據(jù)重復(fù)項(xiàng)的處理、缺失數(shù)據(jù)的填充等。數(shù)據(jù)質(zhì)量控制還涉及到對標(biāo)注數(shù)據(jù)的質(zhì)量進(jìn)行評估和審核,以確保標(biāo)注結(jié)果的可信度和一致性。為了評估數(shù)據(jù)預(yù)處理的效果和決策,可以使用一系列評估指標(biāo)和度量方法。例如,可以使用準(zhǔn)確率、召回率、F1分?jǐn)?shù)等指標(biāo)來評估數(shù)據(jù)標(biāo)注的質(zhì)量。此外,還可以使用數(shù)據(jù)分布的統(tǒng)計指標(biāo)、特征選擇的相關(guān)性等來評估數(shù)據(jù)預(yù)處理的效果。
數(shù)據(jù)特征工程:
數(shù)據(jù)特征工程是對原始數(shù)據(jù)進(jìn)行變換、提取和構(gòu)造特征的過程,以便于模型的學(xué)習(xí)和表達(dá)。這包括對數(shù)據(jù)進(jìn)行編碼、離散化、數(shù)值化、文本向量化等操作,以生成能夠被機(jī)器學(xué)習(xí)算法理解和處理的特征表示。良好的特征工程可以提高模型的表現(xiàn)和泛化能力。
數(shù)據(jù)集劃分:
將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集是模型訓(xùn)練和評估的重要步驟。訓(xùn)練集用于模型的參數(shù)更新和訓(xùn)練過程,驗(yàn)證集用于模型的調(diào)優(yōu)和超參數(shù)選擇,測試集用于模型的最終評估和性能指標(biāo)的計算。劃分?jǐn)?shù)據(jù)集時需要考慮樣本的分布、類別的平衡以及隨機(jī)性等因素,以保證結(jié)果的可靠性和泛化能力。在實(shí)際應(yīng)用中,訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集可能存在分布的偏移。這意味著測試數(shù)據(jù)集與訓(xùn)練數(shù)據(jù)集之間的特征分布存在差異,從而可能導(dǎo)致模型在測試集上的性能下降。為了解決這個問題,可以采取數(shù)據(jù)分布校正的方法,如領(lǐng)域自適應(yīng)、實(shí)例權(quán)重調(diào)整等,來使測試數(shù)據(jù)集更加貼近實(shí)際應(yīng)用場景,提高模型的泛化能力。
數(shù)據(jù)集平衡:
數(shù)據(jù)集平衡是指在訓(xùn)練數(shù)據(jù)中各個類別的樣本數(shù)量相對均衡。當(dāng)數(shù)據(jù)集存在類別不平衡的情況時,模型往往會偏向于出現(xiàn)樣本數(shù)量較多的類別,而忽略數(shù)量較少的類別。為了避免這種情況,可以采取過采樣、欠采樣、生成合成樣本等技術(shù)來平衡數(shù)據(jù)集,以保證各個類別的樣本能夠得到充分的訓(xùn)練和學(xué)習(xí)。
數(shù)據(jù)集集成:
數(shù)據(jù)集集成是將不同數(shù)據(jù)源的數(shù)據(jù)整合和融合成一個統(tǒng)一的數(shù)據(jù)集。在實(shí)際應(yīng)用中,常常需要從多個數(shù)據(jù)源中收集數(shù)據(jù),這些數(shù)據(jù)可能具有不同的格式、結(jié)構(gòu)和特征。數(shù)據(jù)集集成的過程包括數(shù)據(jù)匹配、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)合并等操作,以創(chuàng)建一個更全面、更豐富的數(shù)據(jù)集來支持模型訓(xùn)練和應(yīng)用。
數(shù)據(jù)管理:
數(shù)據(jù)管理涉及對數(shù)據(jù)資源的組織、存儲、訪問和更新等方面。數(shù)據(jù)應(yīng)該以適當(dāng)?shù)姆绞竭M(jìn)行組織和結(jié)構(gòu)化,以便于后續(xù)的數(shù)據(jù)處理和分析。這里的數(shù)據(jù)管理不是針對某一個數(shù)據(jù)集或者某一個數(shù)據(jù)預(yù)處理階段的管理,而是指對數(shù)據(jù)整個生命周期的管理和控制,包括數(shù)據(jù)策略制定、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全性和合規(guī)性等方面。通過數(shù)據(jù)治理,可以確保數(shù)據(jù)的一致性、準(zhǔn)確性和可信度,提高數(shù)據(jù)處理和模型應(yīng)用的可靠性和效果。
數(shù)據(jù)集并非一成不變,隨著時間的推移和實(shí)際應(yīng)用的需求,數(shù)據(jù)集可能需要進(jìn)行更新和迭代。這包括添加新的樣本、修改標(biāo)注、修正錯誤等操作。因此,在數(shù)據(jù)管理的過程中,數(shù)據(jù)的版本控制和追蹤是非常重要的。由于數(shù)據(jù)可能會經(jīng)歷多個階段的處理和改動,保留每個階段的數(shù)據(jù)版本能夠幫助追溯數(shù)據(jù)的來源、變化和處理過程,提高數(shù)據(jù)處理的可重現(xiàn)性和可追溯性。數(shù)據(jù)版本控制還有助于團(tuán)隊(duì)協(xié)作和復(fù)現(xiàn)研究結(jié)果。
對于大規(guī)模的數(shù)據(jù)集和復(fù)雜的數(shù)據(jù)處理流程,數(shù)據(jù)文檔和元數(shù)據(jù)管理起著重要的作用。通過記錄和管理數(shù)據(jù)的文檔、描述、屬性和關(guān)系等元數(shù)據(jù)信息,可以方便地了解數(shù)據(jù)集的結(jié)構(gòu)、含義和使用方式。數(shù)據(jù)文檔和元數(shù)據(jù)管理有助于數(shù)據(jù)的搜索、索引和共享,減少數(shù)據(jù)處理的時間和成本。同時,它還可以提供數(shù)據(jù)的可追溯性和可重復(fù)性,支持科學(xué)研究和業(yè)務(wù)決策的透明性。
數(shù)據(jù)管理還包括數(shù)據(jù)備份和恢復(fù)的問題。數(shù)據(jù)備份和恢復(fù)是保障數(shù)據(jù)安全性和可用性的重要措施。在數(shù)據(jù)處理過程中,及時對數(shù)據(jù)進(jìn)行備份,并采取合適的存儲和恢復(fù)策略,以應(yīng)對數(shù)據(jù)丟失、損壞或泄露等風(fēng)險。數(shù)據(jù)備份也有助于追溯數(shù)據(jù)的歷史狀態(tài),支持?jǐn)?shù)據(jù)版本控制和數(shù)據(jù)審計的需求。
數(shù)據(jù)管理還包括安全性和隱私保護(hù)等問題,確保數(shù)據(jù)的安全性和合規(guī)性。這包括對敏感信息的處理、數(shù)據(jù)脫敏、匿名化和數(shù)據(jù)訪問權(quán)限的控制等。在數(shù)據(jù)處理和使用過程中,需要確保數(shù)據(jù)的訪問和權(quán)限受到適當(dāng)?shù)墓芾砗涂刂啤_@包括設(shè)定數(shù)據(jù)訪問權(quán)限、加密數(shù)據(jù)傳輸、監(jiān)控數(shù)據(jù)訪問和使用情況等措施,以保護(hù)數(shù)據(jù)的安全性和隱私性。
數(shù)據(jù)的監(jiān)控和維護(hù)也是數(shù)據(jù)生命周期管理的重要環(huán)節(jié)。持續(xù)地監(jiān)控數(shù)據(jù)的質(zhì)量、準(zhǔn)確性和完整性,及時發(fā)現(xiàn)和解決數(shù)據(jù)質(zhì)量問題,確保數(shù)據(jù)的可靠性和可用性。數(shù)據(jù)監(jiān)控也可以幫助我們評估模型的穩(wěn)定性和魯棒性,進(jìn)行模型的迭代和優(yōu)化。
數(shù)據(jù)處理自動化
在整個數(shù)據(jù)預(yù)處理過程中,合理采用自動化數(shù)據(jù)處理會事半功倍??梢越?shù)據(jù)管道和自動化工作流。數(shù)據(jù)管道是將不同的數(shù)據(jù)處理步驟和操作串聯(lián)起來,形成一個有序的數(shù)據(jù)處理流程。自動化工作流可以利用腳本、工具或平臺來自動執(zhí)行數(shù)據(jù)處理任務(wù),減少手動操作和減輕重復(fù)性工作的負(fù)擔(dān)。在進(jìn)行數(shù)據(jù)預(yù)處理和數(shù)據(jù)準(zhǔn)備時,可以利用各種工具和技術(shù)來簡化和加速工作流程。例如,使用Python編程語言的數(shù)據(jù)處理庫(如NumPy、Pandas)和機(jī)器學(xué)習(xí)庫(如Scikit-learn、TensorFlow、PyTorch)可以方便地進(jìn)行數(shù)據(jù)操作和模型構(gòu)建。ETL(抽取、轉(zhuǎn)換、加載)工具可以幫助提取數(shù)據(jù)、進(jìn)行轉(zhuǎn)換和整合,并加載到目標(biāo)系統(tǒng)中。此外,還有專門用于數(shù)據(jù)清洗和特征工程的工具(如OpenRefine、Featuretools)、自動化工作流平臺(如Apache Airflow、Kubeflow)等,這些工具可以減少手動操作、減輕人工工作的負(fù)擔(dān),并提高數(shù)據(jù)處理的一致性和準(zhǔn)確性。也可以提高數(shù)據(jù)處理的效率和可靠性。
在數(shù)據(jù)管理過程中,數(shù)據(jù)可視化和探索性分析是非常有益的工具。通過可視化方法,可以直觀地展現(xiàn)數(shù)據(jù)的分布、關(guān)系和特征,幫助發(fā)現(xiàn)數(shù)據(jù)中的模式、異常和趨勢。探索性分析可以幫助我們更好地理解數(shù)據(jù)集,指導(dǎo)后續(xù)的數(shù)據(jù)處理和模型構(gòu)建。通過繪制圖表、熱力圖、散點(diǎn)圖等可視化方式,可以直觀地展示數(shù)據(jù)的分布、關(guān)系和變化趨勢。常見的數(shù)據(jù)可視化工具包括Matplotlib、Seaborn、Tableau等。
總結(jié)起來,數(shù)據(jù)預(yù)處理和數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域中不可或缺的環(huán)節(jié)。通過合理的數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、數(shù)據(jù)整合和數(shù)據(jù)轉(zhuǎn)換等步驟,可以獲取高質(zhì)量的數(shù)據(jù),并為后續(xù)的分析、建模和應(yīng)用打下堅(jiān)實(shí)的基礎(chǔ)。在處理數(shù)據(jù)的過程中,需要考慮數(shù)據(jù)質(zhì)量、數(shù)據(jù)隱私、可重復(fù)性、資源管理、培訓(xùn)和知識傳承等方面的問題和挑戰(zhàn)。通過綜合應(yīng)用適當(dāng)?shù)募夹g(shù)、方法和工具,可以克服這些挑戰(zhàn),并獲得可信、高效和可解釋的數(shù)據(jù)處理結(jié)果。
3. 數(shù)據(jù)預(yù)處理的生態(tài)企業(yè)
專注于數(shù)據(jù)預(yù)處理的公司有很多,大多數(shù)都是初創(chuàng)公司。比如:Scale AI、Dataloop、SuperAnnotate、Labelbox、Snorkel、V7、Appen 等。這塊兒的工作在起步階段大量依賴于外包人工標(biāo)記數(shù)據(jù),類似于包工頭的角色,所以有豐富外包管理經(jīng)驗(yàn)的公司,轉(zhuǎn)型做數(shù)據(jù)預(yù)處理,也相對比較容易上手。
這塊兒當(dāng)前做的最為突出的就是Alexandr Wang的Scale AI。成立于2016 年,當(dāng)前估值 73 億美金,ARR (年度重復(fù)收入)占比不高,只有 3 億美金。Scale AI 核心業(yè)務(wù)為數(shù)據(jù)標(biāo)注,從自動駕駛場景起家,后切入政府、電商、機(jī)器人、大模型等場景,分別對應(yīng)著過去 AI 行業(yè)幾次大機(jī)會的出現(xiàn)。Scale 從自動駕駛領(lǐng)域的標(biāo)注起家,在自動駕駛、地圖等行業(yè)表現(xiàn)很好,兩年前,公司 80-90% 的訂單都來自自動駕駛(2D、3D、激光雷達(dá)等),該比例近年有所下降。Scale AI 在每波大趨勢到來時都能快速捕捉機(jī)會,推出相應(yīng)的產(chǎn)品,在細(xì)分領(lǐng)域迅速做到極高的市場份額。
除了專門做數(shù)據(jù)預(yù)處理的創(chuàng)業(yè)公司之外,很大大廠都在自建數(shù)據(jù)標(biāo)注團(tuán)隊(duì),或者自建平臺以掌握預(yù)處理數(shù)據(jù)的掌控權(quán)。如果這些大廠,在商業(yè)模式的運(yùn)作上,降維打擊這些創(chuàng)業(yè)公司,很有可能會擠壓創(chuàng)業(yè)公司的市場空間。這個未來存在一定程度的博弈。
數(shù)據(jù)預(yù)處理賽道有規(guī)模效應(yīng)??蛻魧?shù)據(jù)預(yù)處理的關(guān)注點(diǎn)主要在“質(zhì)量”和“效率”兩個方面,由于數(shù)據(jù)預(yù)處理愛很多方面,特別是數(shù)據(jù)標(biāo)注領(lǐng)域,不是高技術(shù)含量的工作,因此經(jīng)驗(yàn)對質(zhì)量和效率的提升就起到關(guān)鍵作用。這里的經(jīng)驗(yàn)又包括工人標(biāo)注數(shù)據(jù)的經(jīng)驗(yàn),以及 整套流程和管理體系的經(jīng)驗(yàn)。規(guī)模越大,預(yù)處理的數(shù)據(jù)量越多,經(jīng)驗(yàn)就越成熟、越豐富,預(yù)處理數(shù)據(jù)的質(zhì)量和效率就越高,這里是個正向飛輪。所以誰作為頭部玩家跑的最快,就越容易形成差異化的競爭優(yōu)勢,這個和OpenAI的路數(shù)是一樣的。
4. 數(shù)據(jù)預(yù)處理——充滿生命力的生態(tài)系統(tǒng)根據(jù)Grand View Research的報告,預(yù)計到2028年,全球數(shù)據(jù)預(yù)處理市場的價值將達(dá)到1,848億美元。MarketsandMarkets的報告預(yù)測,到2026年,全球數(shù)據(jù)預(yù)處理市場的價值將達(dá)到1,759億美元,以每年約18.2%的復(fù)合年增長率增長。Allied Market Research的報告預(yù)測,到2027年,全球數(shù)據(jù)預(yù)處理市場的價值將超過1,500億美元。
不管是哪個市場預(yù)測,數(shù)據(jù)預(yù)處理都有著令人振奮的未來前景。數(shù)據(jù)預(yù)處理公司將如忙碌的蜜蜂一樣,不斷采集、清洗、標(biāo)注和優(yōu)化海量的原始數(shù)據(jù)。他們將發(fā)揮關(guān)鍵作用,為人工智能的成長提供養(yǎng)分,將原始數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量的訓(xùn)練數(shù)據(jù),為深度學(xué)習(xí)模型提供堅(jiān)實(shí)的基礎(chǔ)。
隨著時間的推移,這個生態(tài)系統(tǒng)將變得更加完善和成熟。數(shù)據(jù)預(yù)處理的流程將變得更加高效、精確和可靠,也會更加自動化,甚至也會變得更為智能。相信這個生態(tài)系統(tǒng)將激發(fā)出更多創(chuàng)新的想法和應(yīng)用,讓人們更好地利用數(shù)據(jù)驅(qū)動的智能系統(tǒng)來解決現(xiàn)實(shí)世界的各種挑戰(zhàn)。讓我們拭目以待吧!
-
開源技術(shù)
+關(guān)注
關(guān)注
0文章
389瀏覽量
7978 -
OpenHarmony
+關(guān)注
關(guān)注
25文章
3732瀏覽量
16451
原文標(biāo)題:河套IT TALK 88:(原創(chuàng))數(shù)據(jù)預(yù)處理:成功AI大模型的基石
文章出處:【微信號:開源技術(shù)服務(wù)中心,微信公眾號:共熵服務(wù)中心】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論