一、公開數(shù)據(jù)庫
常用數(shù)據(jù)公開網(wǎng)站:
UCI:經(jīng)典的機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘數(shù)據(jù)集,包含分類、聚類、回歸等問題下的多個(gè)數(shù)據(jù)集。很經(jīng)典也比較古老,但依然活躍在科研學(xué)者的視線中。
國家數(shù)據(jù):數(shù)據(jù)來源中華人民共和國國家統(tǒng)計(jì)局,包含了我國經(jīng)濟(jì)民生等多個(gè)方面的數(shù)據(jù),并且在月度、季度、年度都有覆蓋,全面又權(quán)威。
亞馬遜:來自亞馬遜的跨科學(xué)云數(shù)據(jù)平臺(tái),包含化學(xué)、生物、經(jīng)濟(jì)等多個(gè)領(lǐng)域的數(shù)據(jù)集。
figshare:研究成果共享平臺(tái),在這里可以找到來自世界的大牛們的研究成果分享,獲取其中的研究數(shù)據(jù)。
github:一個(gè)非常全面的數(shù)據(jù)獲取渠道,包含各個(gè)細(xì)分領(lǐng)域的數(shù)據(jù)庫資源,自然科學(xué)和社會(huì)科學(xué)的覆蓋都很全面,適合做研究和數(shù)據(jù)分析的人員。
二、利用爬蟲可以獲得有價(jià)值數(shù)據(jù)
這里給出了一些網(wǎng)站平臺(tái),我們可以使用爬蟲爬取網(wǎng)站上的數(shù)據(jù),某些網(wǎng)站上也給出獲取數(shù)據(jù)的API接口,但需要付費(fèi)。
1.財(cái)經(jīng)數(shù)據(jù),2.網(wǎng)貸數(shù)據(jù);3.公司年報(bào);4.創(chuàng)投數(shù)據(jù);5.社交平臺(tái);6.就業(yè)招聘;7.餐飲食品;8.交通旅游;9.電商平臺(tái);10.影音數(shù)據(jù);11.房屋信息;12.購車租車;13.新媒體數(shù)據(jù);14.分類信息。
三、數(shù)據(jù)交易平臺(tái)
由于現(xiàn)在數(shù)據(jù)的需求很大,也催生了很多做數(shù)據(jù)交易的平臺(tái),當(dāng)然,出去付費(fèi)購買的數(shù)據(jù),在這些平臺(tái),也有很多免費(fèi)的數(shù)據(jù)可以獲取。
優(yōu)易數(shù)據(jù):由國家信息中心發(fā)起,擁有國家級(jí)信息資源的數(shù)據(jù)平臺(tái),國內(nèi)領(lǐng)先的數(shù)據(jù)交易平臺(tái)。平臺(tái)有B2B、B2C兩種交易模式,包含政務(wù)、社會(huì)、社交、教育、消費(fèi)、交通、能源、金融、健康等多個(gè)領(lǐng)域的數(shù)據(jù)資源。
數(shù)據(jù)堂:專注于互聯(lián)網(wǎng)綜合數(shù)據(jù)交易,提供數(shù)據(jù)交易、處理和數(shù)據(jù)API服務(wù),包含語音識(shí)別、醫(yī)療健康、交通地理、電子商務(wù)、社交網(wǎng)絡(luò)、圖像識(shí)別等方面的數(shù)據(jù)。
四、網(wǎng)絡(luò)指數(shù)
百度指數(shù):指數(shù)查詢平臺(tái),可以根據(jù)指數(shù)的變化查看某個(gè)主題在各個(gè)時(shí)間段受關(guān)注的情況,進(jìn)行趨勢(shì)分析、輿情預(yù)測(cè)有很好的指導(dǎo)作用。除了關(guān)注趨勢(shì)之外,還有需求分析、人群畫像等精準(zhǔn)分析的工具,對(duì)于市場調(diào)研來說具有很好的參考意義。同樣的另外兩個(gè)搜索引擎搜狗、360也有類似的產(chǎn)品,都可以作為參考。
阿里指數(shù):國內(nèi)權(quán)威的商品交易分析工具,可以按地域、按行業(yè)查看商品搜索和交易數(shù)據(jù),基于淘寶、天貓和1688平臺(tái)的交易數(shù)據(jù)基本能夠看出國內(nèi)商品交易的概況,對(duì)于趨勢(shì)分析、行業(yè)觀察意義不小。
友盟指數(shù):友盟在移動(dòng)互聯(lián)網(wǎng)應(yīng)用數(shù)據(jù)統(tǒng)計(jì)和分析具有較為全面的統(tǒng)計(jì)和分析,對(duì)于研究移動(dòng)端產(chǎn)品、做市場調(diào)研、用戶行為分析很有幫助。除了友盟指數(shù),友盟的互聯(lián)網(wǎng)報(bào)告同樣是了解互聯(lián)網(wǎng)趨勢(shì)的優(yōu)秀讀物。
五、網(wǎng)絡(luò)采集器
網(wǎng)絡(luò)采集器是通過軟件的形式實(shí)現(xiàn)簡單快捷地采集網(wǎng)絡(luò)上分散的內(nèi)容,具有很好的內(nèi)容收集作用,而且不需要技術(shù)成本,被很多用戶作為初級(jí)的采集工具。
造數(shù):新一代智能云爬蟲。爬蟲工具中最快的,比其他同類產(chǎn)品快9倍。擁有千萬IP,可以輕松發(fā)起無數(shù)請(qǐng)求,數(shù)據(jù)保存在云端,安全方便、簡單快捷。
火車采集器:一款專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理、分析,挖掘軟件,可以靈活迅速地抓取網(wǎng)頁上散亂分布的數(shù)據(jù)信息。
八爪魚:簡單實(shí)用的采集器,功能齊全,操作簡單,不用寫規(guī)則。特有的云采集,關(guān)機(jī)也可以在云服務(wù)器上運(yùn)行采集任務(wù)。
-
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8908瀏覽量
137710
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論