python為什么叫爬蟲
作為一門編程語言而言,Python是純粹的自由軟件,以簡潔清晰的語法和強制使用空白符進行語句縮進的特點從而深受程序員的喜愛。舉一個例子:完成一個任務的話,c語言一共要寫1000行代碼,java要寫100行,而python則只需要寫20行的代碼。使用python來完成編程任務的話編寫的代碼量更少,代碼簡潔簡短可讀性更強,一個團隊進行開發(fā)的時候讀別人的代碼會更快,開發(fā)效率會更高,使工作變得更加高效。
這是一門非常適合開發(fā)網(wǎng)絡爬蟲的編程語言,而且相比于其他靜態(tài)編程語言,Python抓取網(wǎng)頁文檔的接口更簡潔;相比于其他動態(tài)腳本語言,Python的urllib2包提供了較為完整的訪問網(wǎng)頁文檔的API。此外,python中有優(yōu)秀的第三方包可以高效實現(xiàn)網(wǎng)頁抓取,并可用極短的代碼完成網(wǎng)頁的標簽過濾功能。
python爬蟲的構(gòu)架組成如下圖:
1、URL管理器:管理待爬取的url集合和已爬取的url集合,傳送待爬取的url給網(wǎng)頁下載器;
2、網(wǎng)頁下載器:爬取url對應的網(wǎng)頁,存儲成字符串,傳送給網(wǎng)頁解析器;
3、網(wǎng)頁解析器:解析出有價值的數(shù)據(jù),存儲下來,同時補充url到URL管理器。
而python的工作流程則如下圖:
(Python爬蟲通過URL管理器,判斷是否有待爬URL,如果有待爬URL,通過調(diào)度器進行傳遞給下載器,下載URL內(nèi)容,并通過調(diào)度器傳送給解析器,解析URL內(nèi)容,并將價值數(shù)據(jù)和新URL列表通過調(diào)度器傳遞給應用程序,并輸出價值信息的過程。)
Python是一門非常適合開發(fā)網(wǎng)絡爬蟲的編程語言,提供了如urllib、re、json、pyquery等模塊,同時又有很多成型框架,如Scrapy框架、PySpider爬蟲系統(tǒng)等,本身又是十分的簡潔方便所以是網(wǎng)絡爬蟲首選編程語言!
-
python
+關(guān)注
關(guān)注
56文章
4798瀏覽量
84810 -
爬蟲
+關(guān)注
關(guān)注
0文章
82瀏覽量
6933
發(fā)布評論請先 登錄
相關(guān)推薦
評論