午夜无码乱码在线观看,一本到高清视频在线手机观看

上個(gè)月初，我入職了一家公司，正式開啟了我的爬蟲職業(yè)生涯。雖然之前自學(xué)或者說(shuō)自己鉆研并編寫了很多爬蟲，不過(guò)當(dāng)我第一次見到一個(gè)完成的爬蟲系統(tǒng)的時(shí)候，坦白說(shuō)，還是覺(jué)得挺不可思議的，我大概花了2到3個(gè)禮拜對(duì)這個(gè)系統(tǒng)進(jìn)行了熟悉，現(xiàn)在在保持對(duì)原系統(tǒng)的進(jìn)行維護(hù)的同時(shí)，正著手對(duì)其進(jìn)行性能優(yōu)化。隨著理解的深入，我越發(fā)覺(jué)得爬蟲工程師的瓶頸其實(shí)并不是JS、css之類的前端反混淆技術(shù)，也不是requests、BeautifulSoup之類的網(wǎng)頁(yè)獲取解析技術(shù)，當(dāng)然也不是僅僅對(duì)爬蟲框架的使用。這些技術(shù)固然是必須的，但是真正的上升瓶頸還是工程師的素養(yǎng)：如何寫出一個(gè)高性能可擴(kuò)展的爬蟲系統(tǒng)？系統(tǒng)如何兼容數(shù)百個(gè)甚至數(shù)千個(gè)不同類型的爬取對(duì)象（網(wǎng)站）？如何管理這些爬蟲？如何高效的并發(fā)這些爬蟲？如何處理爬取之后的數(shù)據(jù)？各個(gè)子系統(tǒng)之間如何交流？和這些問(wèn)題比起來(lái)，對(duì)某個(gè)特定網(wǎng)站的爬取的問(wèn)題只能算是個(gè)入門級(jí)問(wèn)題。

對(duì)爬蟲工程師的理解

我之前寫了很多關(guān)于爬蟲的文章，涉及了各種各樣的爬取策略；也爬了不少主流非主流的網(wǎng)站。從我剛?cè)腴T爬蟲到現(xiàn)在，每一個(gè)爬蟲對(duì)應(yīng)的文章都可以在我的博客上找到，不論是最最簡(jiǎn)單的抓取，還是scrapy的使用。

然而爬了這么多網(wǎng)站，按理說(shuō)應(yīng)付一位爬蟲工程師的工作應(yīng)該綽綽有余吧？當(dāng)然不是，正如我上文所說(shuō)，在整個(gè)爬蟲系統(tǒng)中，如何抓取某個(gè)特定的網(wǎng)站其實(shí)是最小的任務(wù)模塊。而對(duì)于一個(gè)有爬蟲需求的公司而言，一個(gè)能夠長(zhǎng)期穩(wěn)定運(yùn)行的爬蟲系統(tǒng)才是基本需求。

我從另外一個(gè)角度解釋一下這個(gè)問(wèn)題，如果我們將“爬取某個(gè)頁(yè)面”稱為一個(gè)爬蟲任務(wù)。那么一般而言，我們會(huì)需要定期執(zhí)行這個(gè)爬蟲任務(wù)以滿足業(yè)務(wù)上的需求。比如說(shuō)，我這有一個(gè)爬蟲任務(wù)是“爬取某只股票的當(dāng)前價(jià)格”，那么我可能會(huì)要求每10s執(zhí)行一次這個(gè)爬蟲任務(wù)以達(dá)到匯至股價(jià)走勢(shì)的目的。問(wèn)題就來(lái)了，爬蟲系統(tǒng)如何保證每10s執(zhí)行這個(gè)爬蟲任務(wù)呢？time.sleep（10）？ crontab？open_signal？send_task？

最簡(jiǎn)單的，你可以讓程序執(zhí)行一次爬蟲任務(wù)后sleep10秒，然后無(wú)限重復(fù)這個(gè)循環(huán)。嗯，如果只有一個(gè)任務(wù)，理論上是可行的，此時(shí)這個(gè)程序就是一種爬蟲系統(tǒng)。那么比這種解決方案略微高端一點(diǎn)的就是寫一個(gè)定時(shí)任務(wù)，每10秒執(zhí)行一下，這下連爬蟲系統(tǒng)都省了。

但是如果這種爬蟲任務(wù)有很多呢？比如說(shuō)，我要繪制1000個(gè)不同股票的股價(jià)走勢(shì)圖。簡(jiǎn)單一點(diǎn)的可以將爬蟲任務(wù)改成可接受參數(shù)式的，每10s中傳入1000個(gè)參數(shù)（股票代碼）并用多進(jìn)程或異步執(zhí)行這些任務(wù)。用scrapy也可以解決這個(gè)問(wèn)題，scrapy其實(shí)非常適合這個(gè)場(chǎng)景，但是scrapy沒(méi)有定時(shí)任務(wù)，這個(gè)時(shí)候可能又會(huì)需要用到scrapyd和celery。接著，如果有100W個(gè)爬蟲任務(wù)呢？雖然有些爬蟲只需要簡(jiǎn)單調(diào)整一下參數(shù)，這些任務(wù)可以當(dāng)成同一類爬蟲，但即使去除這些同類型爬蟲，仍然會(huì)剩下不同類型的爬蟲任務(wù)，比如說(shuō)30W？那么這30W個(gè)任務(wù)我們?cè)趺刺幚?，不可能在一個(gè)scrapy里寫30W個(gè)spider？然后還會(huì)涉及到調(diào)度，因?yàn)槊總€(gè)爬蟲的抓取頻率可能是不一樣的；管理，爬蟲任務(wù)可能會(huì)根據(jù)產(chǎn)品需求出現(xiàn)增刪的情況；爬取結(jié)果處理，比如說(shuō)去重（對(duì)100W個(gè)結(jié)果去重本身也是個(gè)不小的事情）、存儲(chǔ)等等。

另外，一個(gè)健康的爬蟲生態(tài)，一般還需要一個(gè)代理池，一個(gè)網(wǎng)頁(yè)渲染服務(wù)器，像爬微博的話可能還需要Cookie池，然后這個(gè)系統(tǒng)本身應(yīng)該是高可用高可擴(kuò)展的。隨著爬蟲任務(wù)數(shù)量的增加，各個(gè)地方都有可能產(chǎn)生性能瓶頸。這也是我為什么說(shuō)，爬取任務(wù)其實(shí)是最小的一環(huán)，對(duì)于單次任務(wù)的執(zhí)行速度，甚至有時(shí)候它的成敗都不是關(guān)鍵。

插一句，scrapy仍然是一個(gè)很強(qiáng)大很厲害的框架，它是我目前認(rèn)知里最牛逼的爬蟲框架。它的厲害不在于它可以方便的編寫一個(gè)爬蟲，而是它的模塊定制功能，你可以根據(jù)實(shí)際的產(chǎn)品需求，通過(guò)調(diào)整中間件或者調(diào)度器方便的實(shí)現(xiàn)你想要的功能。

但是有時(shí)候偶爾會(huì)出現(xiàn)一些反爬特別厲害的網(wǎng)站，這個(gè)時(shí)候就需要對(duì)其進(jìn)行單獨(dú)的研究了。另外，我以為手機(jī)端抓取其實(shí)是一個(gè)很關(guān)鍵的手段，現(xiàn)在的手機(jī)性能強(qiáng)大，能做的事情實(shí)在是太多了，只是大多數(shù)時(shí)候被人忽略了。個(gè)人以為這可能會(huì)變成今后一個(gè)主流的抓取手段。今后我也會(huì)開始學(xué)習(xí)這方面的知識(shí)。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

工程師

工程師

+關(guān)注

關(guān)注
59

文章
1571

瀏覽量
68574

評(píng)論

相關(guān)推薦

不同時(shí)期的硬件工程師，最怕發(fā)生的事 #電子工程師 #硬件工程師 #內(nèi)容過(guò)于真實(shí) #YXC晶振 #揚(yáng)興科技

電子工程師

揚(yáng)興科技

發(fā)布于 :2025年01月07日 18:41:12

當(dāng)你的工程師朋友失聯(lián)時(shí)，別氣，ta真的是在忙工作 #搞笑 #電子愛(ài)好者 #硬件工程師 #晶振 #揚(yáng)興科技

硬件工程師

揚(yáng)興科技

發(fā)布于 :2024年10月30日 18:39:16

硬件工程師VS軟件工程師|硬件工程師看到這都淚目了！#硬件設(shè)計(jì) #硬件工程師 #電子工程師 #軟件工程師

硬件工程師

安泰小課堂

發(fā)布于 :2024年09月25日 18:47:52

FPGA算法工程師、邏輯工程師、原型驗(yàn)證工程師有什么區(qū)別？

邏輯工程師和 FPGA 原型驗(yàn)證工程師在工作重點(diǎn)和職責(zé)上存在一定的區(qū)別： FPGA 算法工程師：主要關(guān)注算法的設(shè)計(jì)和優(yōu)化，以在 FPGA 平臺(tái)上實(shí)現(xiàn)高效的計(jì)算和處理。他們需要深入理解

發(fā)表于 09-23 18:26

正是拼的年紀(jì)|65歲電子工程師上班VLOG #65歲退休 #電子工程師 #搞笑 #上班vlog

電子工程師

安泰小課堂
發(fā)布于 :2024年07月25日 11:31:02

用二創(chuàng)，1:1復(fù)刻工程師的職場(chǎng)現(xiàn)狀

工程師

揚(yáng)興科技
發(fā)布于 :2024年07月19日 18:30:07

3分鐘帶你深度理解|什么是諧振？共振真的能穿墻嗎？#諧振 #共振 #電子學(xué) #電子工程師

電子工程師諧振

安泰小課堂
發(fā)布于 :2024年06月11日 18:05:13

干硬件這一行，各種辛酸只有同行才懂吧 ? #電路設(shè)計(jì) #電子愛(ài)好者 #硬件工程師 #電子工程師

硬件工程師

揚(yáng)興科技
發(fā)布于 :2024年05月29日 18:23:29

嵌入式軟件工程師和硬件工程師的區(qū)別?

、機(jī)器人等。定義和工作職責(zé) 嵌入式軟件工程師的主要職責(zé)包括但不限于：設(shè)計(jì)、開發(fā)、測(cè)試和調(diào)試嵌入式軟件應(yīng)用程序，以滿足特定硬件和軟件要求。他們需要理解并掌握嵌入式系統(tǒng)的基本原理，熟悉相關(guān)硬件接口

發(fā)表于 05-16 11:00

電子工程師常見面試題(二)看看你能答對(duì)幾道吧#電子工程師 #電子工程師面試 #電子信息 #電工

電子工程師

安泰小課堂
發(fā)布于 :2024年05月13日 17:29:54

“班長(zhǎng)！說(shuō)好畢業(yè)后當(dāng)硬件工程師，你怎么..." #搞笑 #電子行業(yè) #電子工程師 #晶振 #揚(yáng)興科技

電子工程師

揚(yáng)興科技
發(fā)布于 :2024年05月04日 01:33:18

大廠電子工程師常見面試題#電子工程師 #硬件工程師 #電路知識(shí) #面試題

電子工程師電路

安泰小課堂
發(fā)布于 :2024年04月30日 17:33:15

一位硬件工程師的歷練之路：從入門學(xué)習(xí)理論到... #搞笑 #硬件工程師 #電子工程師 #揚(yáng)興科技

硬件工程師揚(yáng)興科技

揚(yáng)興科技
發(fā)布于 :2024年03月13日 17:50:21

企業(yè)老工程師和高校老師有啥區(qū)別

電子工程師硬件

電子發(fā)燒友網(wǎng)官方
發(fā)布于 :2024年02月28日 17:50:00

如何搞崩一個(gè)硬件工程師心態(tài)？試試對(duì)ta說(shuō)這幾句

硬件工程師

揚(yáng)興科技
發(fā)布于 :2024年02月20日 18:05:49

搜索歷史

如何理解爬蟲工程師

評(píng)論

不同時(shí)期的硬件工程師，最怕發(fā)生的事 #電子工程師 #硬件工程師 #內(nèi)容過(guò)于真實(shí) #YXC晶振 #揚(yáng)興科技

當(dāng)你的工程師朋友失聯(lián)時(shí)，別氣，ta真的是在忙工作 #搞笑 #電子愛(ài)好者 #硬件工程師 #晶振 #揚(yáng)興科技

硬件工程師VS軟件工程師|硬件工程師看到這都淚目了！#硬件設(shè)計(jì) #硬件工程師 #電子工程師 #軟件工程師

FPGA算法工程師、邏輯工程師、原型驗(yàn)證工程師有什么區(qū)別？

正是拼的年紀(jì)|65歲電子工程師上班VLOG #65歲退休 #電子工程師 #搞笑 #上班vlog

用二創(chuàng)，1:1復(fù)刻工程師的職場(chǎng)現(xiàn)狀

3分鐘帶你深度理解|什么是諧振？共振真的能穿墻嗎？#諧振 #共振 #電子學(xué) #電子工程師

干硬件這一行，各種辛酸只有同行才懂吧 ? #電路設(shè)計(jì) #電子愛(ài)好者 #硬件工程師 #電子工程師

嵌入式軟件工程師和硬件工程師的區(qū)別?

電子工程師常見面試題(二)看看你能答對(duì)幾道吧#電子工程師 #電子工程師面試 #電子信息 #電工

“班長(zhǎng)！說(shuō)好畢業(yè)后當(dāng)硬件工程師，你怎么..." #搞笑 #電子行業(yè) #電子工程師 #晶振 #揚(yáng)興科技

大廠電子工程師常見面試題#電子工程師 #硬件工程師 #電路知識(shí) #面試題

一位硬件工程師的歷練之路：從入門學(xué)習(xí)理論到... #搞笑 #硬件工程師 #電子工程師 #揚(yáng)興科技

企業(yè)老工程師和高校老師有啥區(qū)別

如何搞崩一個(gè)硬件工程師心態(tài)？試試對(duì)ta說(shuō)這幾句