0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大數(shù)據(jù)獲取方法有哪些

工程師 ? 來源:未知 ? 作者:姚遠(yuǎn)香 ? 2018-12-19 15:41 ? 次閱讀

一、公開數(shù)據(jù)庫

常用數(shù)據(jù)公開網(wǎng)站:

UCI:經(jīng)典的機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘數(shù)據(jù)集,包含分類、聚類、回歸等問題下的多個(gè)數(shù)據(jù)集。很經(jīng)典也比較古老,但依然活躍在科研學(xué)者的視線中。

國家數(shù)據(jù):數(shù)據(jù)來源中華人民共和國國家統(tǒng)計(jì)局,包含了我國經(jīng)濟(jì)民生等多個(gè)方面的數(shù)據(jù),并且在月度、季度、年度都有覆蓋,全面又權(quán)威。

亞馬遜:來自亞馬遜的跨科學(xué)云數(shù)據(jù)平臺(tái),包含化學(xué)、生物、經(jīng)濟(jì)等多個(gè)領(lǐng)域的數(shù)據(jù)集。

figshare:研究成果共享平臺(tái),在這里可以找到來自世界的大牛們的研究成果分享,獲取其中的研究數(shù)據(jù)。

github:一個(gè)非常全面的數(shù)據(jù)獲取渠道,包含各個(gè)細(xì)分領(lǐng)域的數(shù)據(jù)庫資源,自然科學(xué)和社會(huì)科學(xué)的覆蓋都很全面,適合做研究和數(shù)據(jù)分析的人員。

二、利用爬蟲可以獲得有價(jià)值數(shù)據(jù)

這里給出了一些網(wǎng)站平臺(tái),我們可以使用爬蟲爬取網(wǎng)站上的數(shù)據(jù),某些網(wǎng)站上也給出獲取數(shù)據(jù)的API接口,但需要付費(fèi)。

1.財(cái)經(jīng)數(shù)據(jù),2.網(wǎng)貸數(shù)據(jù);3.公司年報(bào);4.創(chuàng)投數(shù)據(jù);5.社交平臺(tái);6.就業(yè)招聘;7.餐飲食品;8.交通旅游;9.電商平臺(tái);10.影音數(shù)據(jù);11.房屋信息;12.購車租車;13.新媒體數(shù)據(jù);14.分類信息。

三、數(shù)據(jù)交易平臺(tái)

由于現(xiàn)在數(shù)據(jù)的需求很大,也催生了很多做數(shù)據(jù)交易的平臺(tái),當(dāng)然,出去付費(fèi)購買的數(shù)據(jù),在這些平臺(tái),也有很多免費(fèi)的數(shù)據(jù)可以獲取。

優(yōu)易數(shù)據(jù):由國家信息中心發(fā)起,擁有國家級(jí)信息資源的數(shù)據(jù)平臺(tái),國內(nèi)領(lǐng)先的數(shù)據(jù)交易平臺(tái)。平臺(tái)有B2B、B2C兩種交易模式,包含政務(wù)、社會(huì)、社交、教育、消費(fèi)、交通、能源、金融、健康等多個(gè)領(lǐng)域的數(shù)據(jù)資源。

數(shù)據(jù)堂:專注于互聯(lián)網(wǎng)綜合數(shù)據(jù)交易,提供數(shù)據(jù)交易、處理和數(shù)據(jù)API服務(wù),包含語音識(shí)別、醫(yī)療健康、交通地理、電子商務(wù)、社交網(wǎng)絡(luò)、圖像識(shí)別等方面的數(shù)據(jù)。

四、網(wǎng)絡(luò)指數(shù)

百度指數(shù):指數(shù)查詢平臺(tái),可以根據(jù)指數(shù)的變化查看某個(gè)主題在各個(gè)時(shí)間段受關(guān)注的情況,進(jìn)行趨勢(shì)分析、輿情預(yù)測(cè)有很好的指導(dǎo)作用。除了關(guān)注趨勢(shì)之外,還有需求分析、人群畫像等精準(zhǔn)分析的工具,對(duì)于市場調(diào)研來說具有很好的參考意義。同樣的另外兩個(gè)搜索引擎搜狗、360也有類似的產(chǎn)品,都可以作為參考。

阿里指數(shù):國內(nèi)權(quán)威的商品交易分析工具,可以按地域、按行業(yè)查看商品搜索和交易數(shù)據(jù),基于淘寶、天貓和1688平臺(tái)的交易數(shù)據(jù)基本能夠看出國內(nèi)商品交易的概況,對(duì)于趨勢(shì)分析、行業(yè)觀察意義不小。

友盟指數(shù):友盟在移動(dòng)互聯(lián)網(wǎng)應(yīng)用數(shù)據(jù)統(tǒng)計(jì)和分析具有較為全面的統(tǒng)計(jì)和分析,對(duì)于研究移動(dòng)端產(chǎn)品、做市場調(diào)研、用戶行為分析很有幫助。除了友盟指數(shù),友盟的互聯(lián)網(wǎng)報(bào)告同樣是了解互聯(lián)網(wǎng)趨勢(shì)的優(yōu)秀讀物。

五、網(wǎng)絡(luò)采集器

網(wǎng)絡(luò)采集器是通過軟件的形式實(shí)現(xiàn)簡單快捷地采集網(wǎng)絡(luò)上分散的內(nèi)容,具有很好的內(nèi)容收集作用,而且不需要技術(shù)成本,被很多用戶作為初級(jí)的采集工具。

造數(shù):新一代智能云爬蟲。爬蟲工具中最快的,比其他同類產(chǎn)品快9倍。擁有千萬IP,可以輕松發(fā)起無數(shù)請(qǐng)求,數(shù)據(jù)保存在云端,安全方便、簡單快捷。

火車采集器:一款專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理、分析,挖掘軟件,可以靈活迅速地抓取網(wǎng)頁上散亂分布的數(shù)據(jù)信息。

八爪魚:簡單實(shí)用的采集器,功能齊全,操作簡單,不用寫規(guī)則。特有的云采集,關(guān)機(jī)也可以在云服務(wù)器上運(yùn)行采集任務(wù)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8908

    瀏覽量

    137710
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    大數(shù)據(jù)的3V、4V、7V,到底是什么意思?

    大數(shù)據(jù),顧名思義,就是大量的數(shù)據(jù)。更專業(yè)來說,大數(shù)據(jù),是一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)軟件工具能力范圍的
    的頭像 發(fā)表于 12-06 01:01 ?314次閱讀
    <b class='flag-5'>大數(shù)據(jù)</b>的3V、4V、7V,到底是什么意思?

    ADS1675最大數(shù)據(jù)吞吐率是是多少?

    ADS1675 24bit的ADC的采樣率最大是4Msps,請(qǐng)問這款adc的最大數(shù)據(jù)吞吐率是是多少?怎么算的,在datasheet中有明確寫出來嗎
    發(fā)表于 11-28 07:56

    智慧城市與大數(shù)據(jù)的關(guān)系

    智慧城市與大數(shù)據(jù)之間存在著密切的關(guān)系,這種關(guān)系體現(xiàn)在大數(shù)據(jù)對(duì)智慧城市建設(shè)的支撐和推動(dòng)作用,以及智慧城市產(chǎn)生的大量數(shù)據(jù)對(duì)大數(shù)據(jù)技術(shù)的應(yīng)用需求。 大數(shù)據(jù)
    的頭像 發(fā)表于 10-24 15:27 ?828次閱讀

    鎖相放大器參考信號(hào)的獲取方法

    鎖相放大器參考信號(hào)的獲取方法主要依賴于對(duì)被測(cè)信號(hào)特性的了解以及實(shí)驗(yàn)的具體需求。以下是一些常用的獲取參考信號(hào)的方法: 1. 已知信號(hào)源生成 直接生成 :如果已知被測(cè)信號(hào)的頻率或波形,可以
    的頭像 發(fā)表于 09-05 10:58 ?483次閱讀

    使用CYW20829的BLE進(jìn)行最大數(shù)據(jù)發(fā)送應(yīng)用,BLE丟失數(shù)據(jù)如何解決?

    我目前正在使用 CYW20829 的 BLE 進(jìn)行最大數(shù)據(jù)發(fā)送應(yīng)用,我使用的是 FREERTOS(例程 Bluetooth_LE_GATT_Throughput_Server 是我的參考),藍(lán)牙被
    發(fā)表于 07-23 07:56

    大數(shù)據(jù)在軍事方面的應(yīng)用

    智慧華盛恒輝大數(shù)據(jù)在軍事方面的應(yīng)用廣泛且深入,涵蓋了戰(zhàn)爭決策、情報(bào)分析、裝備研發(fā)、后勤保障、科研方法、管理水平、作戰(zhàn)能力和信息化建設(shè)等多個(gè)方面。以下是對(duì)這些應(yīng)用的詳細(xì)歸納: 智慧華盛恒輝一、戰(zhàn)爭決策
    的頭像 發(fā)表于 07-16 09:44 ?1199次閱讀

    大數(shù)據(jù)采集系統(tǒng)分為幾類

    大數(shù)據(jù)采集系統(tǒng)是大數(shù)據(jù)生態(tài)系統(tǒng)中的重要組成部分,它負(fù)責(zé)從各種數(shù)據(jù)源收集、整合和存儲(chǔ)數(shù)據(jù)。根據(jù)不同的數(shù)據(jù)源、采集
    的頭像 發(fā)表于 07-01 15:44 ?1685次閱讀

    數(shù)據(jù)采集方法哪些?工具有哪些?

    數(shù)據(jù)采集是數(shù)據(jù)分析和數(shù)據(jù)科學(xué)的基礎(chǔ),它涉及到從各種來源收集、整理和存儲(chǔ)數(shù)據(jù)的過程。以下是一些常見的數(shù)據(jù)采集
    的頭像 發(fā)表于 07-01 15:35 ?1569次閱讀

    大數(shù)據(jù)在軍事方面的應(yīng)用哪些

    智慧華盛恒輝大數(shù)據(jù)在軍事方面的應(yīng)用涵蓋了多個(gè)方面,這些應(yīng)用不僅提高了軍事管理的效率和水平,也極大地提升了軍隊(duì)的作戰(zhàn)能力和情報(bào)獲取能力。以下是大數(shù)據(jù)在軍事方面的主要應(yīng)用: 智慧華盛恒輝戰(zhàn)爭決策輔助
    的頭像 發(fā)表于 06-23 10:34 ?1163次閱讀

    大數(shù)據(jù)在軍事訓(xùn)練領(lǐng)域的應(yīng)用哪些

    智慧華盛恒輝大數(shù)據(jù)在軍事訓(xùn)練領(lǐng)域的應(yīng)用廣泛且深入,以下是具體的應(yīng)用點(diǎn)及其歸納: 智慧華盛恒輝個(gè)性化訓(xùn)練計(jì)劃: 通過收集和分析每個(gè)士兵的訓(xùn)練數(shù)據(jù),如射擊命中率、行軍速度、體能訓(xùn)練成績等,可以為每個(gè)士兵
    的頭像 發(fā)表于 06-23 10:21 ?739次閱讀

    大數(shù)據(jù)在部隊(duì)管理中的運(yùn)用哪些

    智慧華盛恒輝大數(shù)據(jù)在部隊(duì)管理中的運(yùn)用主要體現(xiàn)在以下幾個(gè)方面: 決策支持: 智慧華盛恒輝部隊(duì)管理可以利用大數(shù)據(jù)技術(shù),對(duì)海量的數(shù)據(jù)進(jìn)行分析,為決策提供有力的數(shù)據(jù)支撐。這有助于實(shí)現(xiàn)用
    的頭像 發(fā)表于 06-23 09:53 ?1249次閱讀

    ESP32-C3主機(jī)獲取不到廣播數(shù)據(jù)怎么解決?

    ;adv_data_len); 主機(jī)掃描廣播時(shí)可以獲取ble_adv, 但打印ble_adv 時(shí)發(fā)現(xiàn)大多數(shù)時(shí)候沒有除名稱外的廣播數(shù)據(jù). 問題特征:只有第一次掃描可以掃到廣播數(shù)據(jù), 之后無法
    發(fā)表于 06-14 07:36

    請(qǐng)問對(duì)雷達(dá)獲取的原始數(shù)據(jù)進(jìn)行歸一化處理的具體方法是什么?

    你好,我想知道原始數(shù)據(jù) [-1,1] 歸一化的詳細(xì)方法。 從 mcu 寄存器接收到的原始數(shù)據(jù)和從雷達(dá)融合軟件獲取的原始數(shù)據(jù)都是 4 位小數(shù),
    發(fā)表于 05-31 06:05

    CYBT-343026傳輸大數(shù)據(jù)時(shí)會(huì)丟數(shù)據(jù)的原因?

    我正在使用 CYBT-343026 (CYW-20706 Silicon) 模塊。 我根據(jù) SPP 樣本制作了一個(gè)操作 SPP 的應(yīng)用程序。 但是,傳輸大數(shù)據(jù)時(shí)有時(shí)會(huì)丟失數(shù)據(jù)。 它從
    發(fā)表于 03-01 15:04

    大數(shù)據(jù)技術(shù)是干嘛的 大數(shù)據(jù)核心技術(shù)哪些

    的核心技術(shù),包括數(shù)據(jù)采集、存儲(chǔ)與管理、處理與分析等方面。 一、大數(shù)據(jù)技術(shù)背景和概念 1.1 背景 隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,人們可以通過各種途徑產(chǎn)生、獲取和傳輸數(shù)據(jù),使
    的頭像 發(fā)表于 01-31 11:07 ?3782次閱讀