0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何使用表格做爬蟲(chóng)

Wildesbeast ? 來(lái)源:今日頭條 ? 作者:Python之眼 ? 2020-02-03 15:15 ? 次閱讀

很多人不知道,其實(shí)我們最常用的表格,在某些情況下也是可以用來(lái)做爬蟲(chóng)的,而且爬下來(lái)的數(shù)據(jù)規(guī)整,不需要花太多時(shí)間進(jìn)行數(shù)據(jù)清洗,來(lái)看看是怎么實(shí)現(xiàn)的。

一、Microsoft Excel

首先教大家一個(gè)用Excel爬取數(shù)據(jù)的方法,這里用的Microsoft Excel 2013版本,下面手把手開(kāi)始教學(xué)~

(1)新建Excel,打開(kāi)它,如下圖所示

(2)點(diǎn)擊“數(shù)據(jù)”——“自網(wǎng)站”

(3)在彈出的對(duì)話框中輸入目標(biāo)網(wǎng)址,這里以全國(guó)實(shí)時(shí)空氣質(zhì)量網(wǎng)站為例,點(diǎn)擊轉(zhuǎn)到,再導(dǎo)入

選擇導(dǎo)入位置,確定

(4)結(jié)果如下圖所示,怎么樣,是不是很贊?

(5)如果要實(shí)時(shí)更新數(shù)據(jù),可以在“數(shù)據(jù)”——“全部更新”——“連接屬性”中進(jìn)行設(shè)置,輸入更新頻率即可

非誠(chéng)勿擾:正在學(xué)習(xí)python的小伙伴或者打算學(xué)習(xí)的,可以私信小編“01”領(lǐng)取資料!

二、Google Sheet

使用Google Sheet爬取數(shù)據(jù)前,要保證三點(diǎn):使用Chrome瀏覽器、擁有Google賬號(hào)、電腦可以科學(xué)上網(wǎng)。如果這三個(gè)條件具備了的話,下面我們就開(kāi)始吧~

(1)打開(kāi)Google Sheet網(wǎng)站:http://www.google.cn/sheets/about/

(2)在首頁(yè)上點(diǎn)擊“轉(zhuǎn)到Google表格”,然后登錄自己的賬號(hào),可以看到如下界面,再點(diǎn)擊“+”創(chuàng)建新的表格

新建的表格如下:

(3)打開(kāi)要爬取的目標(biāo)網(wǎng)站,一個(gè)全國(guó)實(shí)時(shí)空氣質(zhì)量網(wǎng)站http://www.pm25.in/rank,目標(biāo)網(wǎng)站上的表格結(jié)構(gòu)如下圖所示

(4)回到Google sheet頁(yè)面,使用函數(shù)=IMPORTHTML(網(wǎng)址, 查詢, 索引),“網(wǎng)址”就是要爬取數(shù)據(jù)的目標(biāo)網(wǎng)站,“查詢”中輸入“l(fā)ist”或“table”,這個(gè)取決于數(shù)據(jù)的具體結(jié)構(gòu)類型,“索引”填阿拉伯?dāng)?shù)字,從1開(kāi)始,對(duì)應(yīng)著網(wǎng)站中定義的哪一份表格或列表

對(duì)于我們要爬取的網(wǎng)站,我們?cè)贕oogle sheet的A1單元格中輸入函數(shù)

=IMPORTHTML("http://www.pm25.in/rank","table",1),回車后就爬得數(shù)據(jù)啦

(5)將爬取好的表格存到本地

是不是感覺(jué)超級(jí)簡(jiǎn)單?

當(dāng)然,沒(méi)有學(xué)習(xí)成本的技能缺陷也是很明顯的,就是在網(wǎng)頁(yè)的數(shù)據(jù)排列沒(méi)那么規(guī)則的時(shí)候,或者說(shuō)多個(gè)頁(yè)面的數(shù)據(jù),以上的方法就失效了,這個(gè)時(shí)候Python就展現(xiàn)出它強(qiáng)大的威力了。

不過(guò),話說(shuō)回來(lái),這么裝逼的技能,而且不需要學(xué)習(xí)成本,掌握了有什么不好呢,沒(méi)準(zhǔn)什么時(shí)候就能用上了。

最后多說(shuō)一句,小編是一名python開(kāi)發(fā)工程師,這里有我自己整理了一套最新的python系統(tǒng)學(xué)習(xí)教程,包括從基礎(chǔ)的python腳本到web開(kāi)發(fā)、爬蟲(chóng)、數(shù)據(jù)分析、數(shù)據(jù)可視化、機(jī)器學(xué)習(xí)等。想要這些資料的可以關(guān)注小編,并在后臺(tái)私信小編:“01”即可領(lǐng)取。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 瀏覽器
    +關(guān)注

    關(guān)注

    1

    文章

    1032

    瀏覽量

    35443
  • Excel
    +關(guān)注

    關(guān)注

    4

    文章

    222

    瀏覽量

    55561
  • 爬蟲(chóng)
    +關(guān)注

    關(guān)注

    0

    文章

    82

    瀏覽量

    6956
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Chart FX之DataGrid電子表格

    在Chart FX 中有一個(gè)名為 DataGrid 的電子表格,允許用戶以電子表格的方式查看圖表中包含的所有series 和points 。默認(rèn)情況下,DataGrid 是只讀的,但是開(kāi)發(fā)人員可以
    的頭像 發(fā)表于 01-06 10:59 ?98次閱讀
    Chart FX之DataGrid電子<b class='flag-5'>表格</b>

    IP地址數(shù)據(jù)信息和爬蟲(chóng)攔截的關(guān)聯(lián)

    IP地址數(shù)據(jù)信息和爬蟲(chóng)攔截的關(guān)聯(lián)主要涉及到兩方面的內(nèi)容,也就是數(shù)據(jù)信息和爬蟲(chóng)。IP 地址數(shù)據(jù)信息的內(nèi)容豐富,包括所屬地域、所屬網(wǎng)絡(luò)運(yùn)營(yíng)商、訪問(wèn)時(shí)間序列、訪問(wèn)頻率等。 從IP地址信息中可以窺見(jiàn)
    的頭像 發(fā)表于 12-23 10:13 ?78次閱讀

    多維表格數(shù)據(jù)庫(kù)Teable的適用場(chǎng)景?

    Teable多維表格數(shù)據(jù)庫(kù)是一款功能強(qiáng)大的云端數(shù)據(jù)庫(kù)和協(xié)作工具,結(jié)合了電子表格的靈活性和數(shù)據(jù)庫(kù)的強(qiáng)大功能,適用企業(yè)內(nèi)部項(xiàng)目管理 數(shù)據(jù)收集與整理 內(nèi)容管理與創(chuàng)意協(xié)作 客戶關(guān)系管理 項(xiàng)目跟蹤與分析 IT與工程管理等
    的頭像 發(fā)表于 10-31 15:48 ?237次閱讀

    傳統(tǒng)電子表格Excel和Teable多維表格數(shù)據(jù)庫(kù)的區(qū)別?

    傳統(tǒng)Excel是一款功能強(qiáng)大的電子表格軟件,它的數(shù)據(jù)處理 分析以及圖表制作等功能給工作帶來(lái)了很多便利,但也有自身的局限性,本文介紹的多維表格Teable數(shù)據(jù)庫(kù)將在傳統(tǒng)電子表格Excel的特性上,增強(qiáng)數(shù)據(jù)處理能力,提升工作效率.
    的頭像 發(fā)表于 10-23 16:44 ?390次閱讀

    多維表格屬于低代碼平臺(tái)嗎?

    Teable多維表格數(shù)據(jù)庫(kù)是一款功能強(qiáng)大的云端數(shù)據(jù)庫(kù)和協(xié)作工具,結(jié)合了電子表格的靈活性和數(shù)據(jù)庫(kù)的強(qiáng)大功能,適用企業(yè)內(nèi)部項(xiàng)目管理 數(shù)據(jù)收集與整理 內(nèi)容管理與創(chuàng)意協(xié)作 客戶關(guān)系管理 項(xiàng)目跟蹤與分析 IT與工程管理等
    的頭像 發(fā)表于 10-17 14:22 ?259次閱讀

    全球視野下的海外爬蟲(chóng)IP:趨勢(shì)、機(jī)遇與風(fēng)險(xiǎn)

    在全球視野下,海外爬蟲(chóng)IP的使用呈現(xiàn)出一系列趨勢(shì),同時(shí)也伴隨著機(jī)遇與風(fēng)險(xiǎn)。
    的頭像 發(fā)表于 10-15 07:54 ?239次閱讀

    何為Teable多維表格數(shù)據(jù)庫(kù),它僅僅是一個(gè)在線的智能表格嗎?

    表格是一種創(chuàng)新的數(shù)據(jù)管理和協(xié)作工具,它結(jié)合了傳統(tǒng)電子表格的直觀界面與關(guān)系數(shù)據(jù)庫(kù)的強(qiáng)大功能。用戶不僅可以像在Excel中一樣在二維表格內(nèi)記錄和編輯數(shù)據(jù),還能享受到基于數(shù)據(jù)結(jié)構(gòu)的靈活管理方式。
    的頭像 發(fā)表于 10-14 16:13 ?482次閱讀

    AM/DM37x功率估算電子表格

    電子發(fā)燒友網(wǎng)站提供《AM/DM37x功率估算電子表格.pdf》資料免費(fèi)下載
    發(fā)表于 10-12 09:33 ?0次下載
    AM/DM37x功率估算電子<b class='flag-5'>表格</b>

    AM35x功率估算電子表格

    電子發(fā)燒友網(wǎng)站提供《AM35x功率估算電子表格.pdf》資料免費(fèi)下載
    發(fā)表于 10-12 09:11 ?0次下載
    AM35x功率估算電子<b class='flag-5'>表格</b>

    海外爬蟲(chóng)IP的合法邊界:合規(guī)性探討與實(shí)踐

    海外爬蟲(chóng)IP的合法邊界主要涉及合規(guī)性探討與實(shí)踐。
    的頭像 發(fā)表于 10-12 07:56 ?250次閱讀

    如何利用海外爬蟲(chóng)IP進(jìn)行數(shù)據(jù)抓取

    利用海外爬蟲(chóng)IP進(jìn)行數(shù)據(jù)抓取需要綜合考慮多個(gè)方面。
    的頭像 發(fā)表于 10-12 07:54 ?242次閱讀

    詳細(xì)解讀爬蟲(chóng)多開(kāi)代理IP的用途,以及如何配置!

    爬蟲(chóng)多開(kāi)代理IP是一種在爬蟲(chóng)開(kāi)發(fā)中常用的技術(shù)策略,主要用于提高數(shù)據(jù)采集效率、避免IP被封禁以及獲取地域特定的數(shù)據(jù)。
    的頭像 發(fā)表于 09-14 07:55 ?528次閱讀

    網(wǎng)絡(luò)爬蟲(chóng),Python和數(shù)據(jù)分析

    電子發(fā)燒友網(wǎng)站提供《網(wǎng)絡(luò)爬蟲(chóng),Python和數(shù)據(jù)分析.pdf》資料免費(fèi)下載
    發(fā)表于 07-13 09:27 ?2次下載

    用pycharm進(jìn)行python爬蟲(chóng)的步驟

    以下是使用PyCharm進(jìn)行Python爬蟲(chóng)的步驟: 安裝PyCharm和Python 首先,您需要安裝PyCharm和Python。PyCharm是一個(gè)流行的Python集成開(kāi)發(fā)環(huán)境(IDE),它
    的頭像 發(fā)表于 07-11 10:11 ?913次閱讀

    全球新聞網(wǎng)封鎖OpenAI和谷歌AI爬蟲(chóng)

    分析結(jié)果顯示,至2023年底,超半數(shù)(57%)的傳統(tǒng)印刷媒體如《紐約時(shí)報(bào)》等已關(guān)閉OpenAI爬蟲(chóng),反之電視廣播以及數(shù)字原生媒體相應(yīng)地分別為48%和31%。而對(duì)于谷歌人工智能爬蟲(chóng),32%的印刷媒體采取相同措施,電視廣播和數(shù)字原生媒體的比率分別為19%和17%。
    的頭像 發(fā)表于 02-27 15:31 ?891次閱讀