0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

還在愁到哪里找到需要的機(jī)器學(xué)習(xí)數(shù)據(jù)集嗎?

DPVg_AI_era ? 來源:lp ? 2019-03-29 11:45 ? 次閱讀

本文介紹一個機(jī)器學(xué)習(xí)大型數(shù)據(jù)集的匯總網(wǎng)站,網(wǎng)站目前提供約 70 個最新數(shù)據(jù)集,涵蓋了計算機(jī)視覺、自然語言理解和音頻三大領(lǐng)域。

還在愁到哪里找到需要的機(jī)器學(xué)習(xí)數(shù)據(jù)集嗎?

每年都有很多大型、高質(zhì)量的數(shù)據(jù)集發(fā)布,其中大多數(shù)數(shù)據(jù)集都發(fā)布在各自的網(wǎng)站上,通過谷歌搜索很難找到所有這些數(shù)據(jù)集。

現(xiàn)在,一位名叫Nikola Ple?a的開發(fā)人員做了一個項目,將所有機(jī)器學(xué)習(xí)的大型數(shù)據(jù)集收集在一個網(wǎng)站上,方便大家取用。

網(wǎng)站一經(jīng)發(fā)布,好評如潮。網(wǎng)站目前提供約70個數(shù)據(jù)集,涵蓋了計算機(jī)視覺、自然語言理解和音頻三大領(lǐng)域,包括每個數(shù)據(jù)集的鏈接、簡介、許可類型、論文等,并且作者表示將繼續(xù)增加數(shù)據(jù)集數(shù)量。

傳送門:

https://www.datasetlist.com/

下面,我們分別介紹CV、NLP的最新10大數(shù)據(jù)集,以及4個音頻數(shù)據(jù)集。

計算機(jī)視覺(46個)

1. IBM人臉多樣性數(shù)據(jù)集

IBM的人臉多樣性(DiF)數(shù)據(jù)集是一個龐大而多樣化的數(shù)據(jù)集,旨在促進(jìn)人臉識別技術(shù)中公平性和準(zhǔn)確性的研究。DiF是第一個此類數(shù)據(jù)集,包含100萬張帶注釋的人臉圖像。

2. GQA

GQA數(shù)據(jù)集包含2200萬個關(guān)于各種日常圖像的問題。每個圖像都與圖像的對象、屬性和關(guān)系的場景圖相關(guān)聯(lián),這是一個基于Visual Genome的新的清晰版本數(shù)據(jù)集。

3. NVIDIA Flickr-Faces-HQ數(shù)據(jù)集

該數(shù)據(jù)集由70000張分辨率為1024×1024的高質(zhì)量PNG圖像組成,并且在人物的年齡、種族和圖像背景方面差異很大。數(shù)據(jù)集也很好地覆蓋了人臉的附件,如眼鏡,太陽鏡,帽子等。

4. Google Open Images V4

Open Images是一個包含約900萬個URL圖像的數(shù)據(jù)集,這些圖像具有包含數(shù)千個類別的圖像級標(biāo)簽和邊界框注釋。

5. Youtube-8M 2018

YouTube- 8M是一個大型的帶標(biāo)簽的視頻數(shù)據(jù)集,由數(shù)百萬個YouTube視頻ID和來自4700多個視覺實體的不同詞匯表的相關(guān)標(biāo)簽組成,包含大量的視頻畫面信息、音頻信息、標(biāo)簽信息。

6. Berkeley Deep Drive (BDD100K)

該數(shù)據(jù)集包含超過100k個駕駛體驗視頻,每個視頻長度為40秒,幀數(shù)為每秒30幀??倛D像數(shù)比百度ApolloScape(2018年3月發(fā)布)大800倍,比Mapillary大4800倍,比KITTI大8000倍。

7. ApolloScape

ApolloScape是一個此前的類似數(shù)據(jù)集如KITTI和CityScapes更大、更復(fù)雜的數(shù)據(jù)集。ApolloScape提供了高分辨率高10倍以上的圖像,并逐像素標(biāo)注,包括26種不同的可識別對象,如汽車、自行車、行人和建筑物。隨著行人和車輛數(shù)量的增加,數(shù)據(jù)集提供了多個級別的場景復(fù)雜性,在給定場景中最多多達(dá)100輛車輛,以及更廣泛的具有挑戰(zhàn)性的環(huán)境,如惡劣天氣或極端光照條件。

8. Tencent ML - Images

騰訊發(fā)布的Tencent ML - Images是目前最大的開源多標(biāo)簽圖像數(shù)據(jù)集,包括17,609,752個訓(xùn)練圖像和88739個驗證圖像URL,注釋多達(dá)11,166個類別。

9. Fashion MNIST

Fashion-MNIST是Zalando文章圖像的一個數(shù)據(jù)集,包括60,000個示例的訓(xùn)練集和10,000個示例的測試集。每個示例都是一個28x28的灰度圖像,與10個類別的標(biāo)簽相關(guān)聯(lián)。

10. MegaFace

MF2訓(xùn)練數(shù)據(jù)集是身份數(shù)量上最大的公開可用的面部識別數(shù)據(jù)集,有470萬張面部圖像,672K個身份,以及各自的邊界框。所有圖片均來自Flickr,并在知識共享協(xié)議下許可。

自然語言理解(18個)

1. 斯坦福問答數(shù)據(jù)集(SQuAD)

斯坦福問答數(shù)據(jù)集(Stanford Question answer Dataset, SQuAD)是一個全新的閱讀理解數(shù)據(jù)集,由眾包工作者根據(jù)維基百科文章提出的問題組成,其中每個問題的答案都對應(yīng)閱讀文章的一段文本。SQuAD包含500多篇文章的10萬對以上的問答對,因此規(guī)模明顯大于之前的閱讀理解數(shù)據(jù)集。SQuAD2.0將SQuAD1.1中的10萬個問題與5萬多個新的、無法回答的問題(由眾包工作者提出)結(jié)合起來,使之看起來與可回答的問題相似。

2. MultiNLI

多體裁自然語言推理語料庫(Multi-Genre Natural Language Inference, MultiNLI)是一個由433k個句子對組成的源文本集合語料庫,這些句子對都帶有文本蘊(yùn)涵信息。MultiNLI語料庫是在SNLI語料庫的基礎(chǔ)上建立的,但不同之處在于它涵蓋了一系列口語和書面文本的體裁,并支持獨特的跨體裁評估。

3. CoQA

CoQA是一個用于構(gòu)建會話問答系統(tǒng)的大型數(shù)據(jù)集。CoQA包含127k個問題和答案,來自7個不同領(lǐng)域的8k個文本段落的對話。

4. Spider 1.0

Spider是一個大型復(fù)雜的跨域語義分析和text-to-SQL的數(shù)據(jù)集。Spider由10181個問題和5693個獨特的復(fù)雜SQL查詢組成,這些查詢來自200個數(shù)據(jù)庫,覆蓋138個不同的域。

5. HotpotQA

HotpotQA是一個以自然的、multi-hop的問題為特征的問答數(shù)據(jù)集,具有強(qiáng)大的支持事實的監(jiān)督,以實現(xiàn)更易于解釋的問答系統(tǒng)。該數(shù)據(jù)集由113,000對基于Wikipedia的QA對組成。

6. Question Pairs (Quora)

包含超過400,000行潛在的問題對。

7. Yelp open dataset

Yelp數(shù)據(jù)集是用于個人、教育和學(xué)術(shù)目的的業(yè)務(wù)、評論和用戶數(shù)據(jù)的子集??稍贘SON和SQL文件中使用。

8. Facebook bAbI

一個用于自動文本理解和推理的數(shù)據(jù)集。

9. MS MARCO

微軟機(jī)器閱讀理解數(shù)據(jù)集(MS MARCO)是一個用于閱讀理解和問題回答的新型大型數(shù)據(jù)集。在MS MARCO中,所有問題都是從真實的匿名用戶查詢中提取的。數(shù)據(jù)集中的答案來自上下文段落,這些段落使用Bing搜索引擎從真實的web文檔中提取。如果他們能夠總結(jié)出答案,那么查詢的答案就是人工生成的。

10. NewsQA

NewsQA數(shù)據(jù)集的目的是幫助研究社區(qū)構(gòu)建能夠回答需要人類水平理解和推理技能的問題的算法。該數(shù)據(jù)集包含來自眾包的120K閱讀理解Q&A對。

音頻(4個)

1. Mozilla Common Voice

Mozilla擁有可供使用的最大的人類語音數(shù)據(jù)集,包括18種不同的語言,從4.2萬多名貢獻(xiàn)者那里收集了近1400小時的錄音語音數(shù)據(jù)。

2. NSynth

這是一個大規(guī)模、高質(zhì)量的注釋音符數(shù)據(jù)集。NSynth數(shù)據(jù)集是一個音頻數(shù)據(jù)集,包含~300k個音符,每個音符都有一個獨特的音調(diào)、音色和包絡(luò)。

3. Google Audioset

AudioSet由632個音頻事件類的擴(kuò)展本體和來自YouTube視頻的2084320個帶有人類標(biāo)記的10秒聲音片段組成。本體被指定為事件類別的層次圖,涵蓋廣泛的人類和動物聲音、樂器和流派,以及常見的日常環(huán)境聲音。

4. LibriSpeech

LibriSpeech是一個有聲圖書數(shù)據(jù)集,包含文本和語音。數(shù)據(jù)集包含多位講者朗讀的各類有聲讀物,時長近500小時。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:收藏:全網(wǎng)最大機(jī)器學(xué)習(xí)數(shù)據(jù)集,視覺、NLP、音頻都在這了

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    學(xué)習(xí)protel了,不知道該學(xué)習(xí)是99還是***,更不知道在哪里找

    學(xué)習(xí)protel了,不知道該學(xué)習(xí)是99還是***,更不知道在哪里找到適合win7的版本,高手 大蝦幫忙啊
    發(fā)表于 03-15 02:07

    _cror_ 在INTRINS.H 哪里找代碼?

    比如有個庫函數(shù)_cror_在INTRINS.H文件中,但是它并沒有寫它怎么實現(xiàn)的啊,如果我想?yún)⒖紟旌瘮?shù)怎么寫的該到哪里找呢。謝謝
    發(fā)表于 01-06 16:09

    求各位大神幫我看一下這個圖標(biāo)在哪里找到

    謝謝各位大神,幫著小弟點一下這個圖標(biāo)哪里找到。
    發(fā)表于 08-26 19:31

    這個是什么。在哪里找到???拜托,告訴我一下行嗎。

    這是個溫度采集的程序框圖,其中有這個我不知道從哪里找到。
    發(fā)表于 04-05 15:38

    請問這個圖標(biāo)是真么意思 在哪里找到

    請問這個圖標(biāo)是真么意思 在哪里找到
    發(fā)表于 05-20 20:22

    新手求問,下面右邊的圖標(biāo)是什么,在哪里找到

    新手求問,下面右邊的圖標(biāo)是什么,在哪里找到
    發(fā)表于 05-27 09:50

    剛剛開始學(xué)Altium,不知道這個封裝要到哪里找

    `別人給了一個原理圖給我,但有一個二極管的封裝找不到,哪位大神能告訴我應(yīng)該到哪里找這個封裝`
    發(fā)表于 12-07 21:58

    3D Curve 是什么,在哪里找到

    求問,這個是什么?在哪里找到的。謝謝。
    發(fā)表于 04-21 15:31

    tdms文件輸出控件 在哪里找到

    `哪位大神知道這個控件在哪里找到`
    發(fā)表于 04-14 10:12

    哪里找到中斷向量名稱?

    嗨,Noob問題:在哪里找到中斷向量名?到目前為止,我一直依賴于數(shù)據(jù)表中的演示代碼,但是我找不到ADC向量。他們在某個文件里嗎?我猜:沒用。謝謝!
    發(fā)表于 10-31 13:43

    在網(wǎng)上下載的TD軟件,安裝后沒有License文件到哪里找?

    網(wǎng)上下載的TD軟件,安裝后沒有License文件,到哪里找?
    發(fā)表于 08-11 06:58

    機(jī)器學(xué)習(xí)應(yīng)用及數(shù)據(jù)

    本文介紹了包括圖像分類、交易預(yù)測、情感分類、推薦系統(tǒng)、股票預(yù)測等在內(nèi)的若干個機(jī)器學(xué)習(xí)應(yīng)用及數(shù)據(jù)。
    的頭像 發(fā)表于 04-21 11:01 ?4105次閱讀

    PLC網(wǎng)關(guān)采集PLC數(shù)據(jù)之后數(shù)據(jù)都放到哪里去了呢

    PLC網(wǎng)關(guān)采集PLC數(shù)據(jù)之后,數(shù)據(jù)都放到哪里去了呢
    發(fā)表于 11-06 16:01 ?2159次閱讀
    PLC網(wǎng)關(guān)采集PLC<b class='flag-5'>數(shù)據(jù)</b>之后<b class='flag-5'>數(shù)據(jù)</b>都放<b class='flag-5'>到哪里</b>去了呢

    機(jī)器學(xué)習(xí)算法的介紹

    哲學(xué)要回答的基本問題是從哪里來、我是誰、到哪里去,尋找答案的過程或許可以借鑒機(jī)器學(xué)習(xí)的套路:組織數(shù)據(jù)->挖掘知識->預(yù)測未來。組織
    的頭像 發(fā)表于 06-05 14:17 ?956次閱讀

    python idle在哪里找到

    于Python 1.5版本中推出,并且隨著Python的發(fā)展一直得到改進(jìn)和優(yōu)化。目前,IDLE已經(jīng)成為了很多Python初學(xué)者學(xué)習(xí)和使用的首選工具之一。 那么,如何找到Python IDLE呢?
    的頭像 發(fā)表于 11-29 14:39 ?1116次閱讀