幾乎所有玩爬蟲的人,一定會(huì)用requests庫,這個(gè)庫的作者是大名鼎鼎的Kenneth Reitz 。牛逼的一塌糊涂,最近我瀏覽它的網(wǎng)站,發(fā)現(xiàn)他又出新招,一個(gè)把爬蟲下載器和解析器聯(lián)合在一起的庫,對(duì)爬蟲界又是一大福音啊,一起來學(xué)習(xí)一下吧.
01
Requests-Html
這個(gè)庫它是requests庫的姊妹篇,一般來說我們爬蟲,我會(huì)直接在下載完網(wǎng)頁之后,再去安裝一些解析庫來解析網(wǎng)頁,解析庫又有很多種,增加了我們的學(xué)習(xí)成本。
有沒有一種庫把這兩者融合在一起,并且方便的提供給我們用。但是這個(gè)庫直接內(nèi)置了html網(wǎng)頁的解析,相當(dāng)于是自帶酒水,非常方便,號(hào)稱是給人類用的網(wǎng)頁解析庫。
目前這個(gè)庫已經(jīng)收獲了7500個(gè)贊,323fork,相當(dāng)牛逼!
02
這個(gè)庫里都有啥
我們只需要用pip 直接install 即可。pip install requests-html,這個(gè)庫它內(nèi)置了requests庫,pyquery庫,bs庫,還有一些編碼的庫。最牛的是,它竟然把隨機(jī)代理庫fake-useragent也集成進(jìn)來了!
# what packages are required for this module to be executed?
都內(nèi)置了哪些牛逼的功能:
Full JavaScript support!
CSS Selectors(a.k.a jQuery-style, thanks to PyQuery).
XPath Selectors, for the faint at heart.
Mocked user-agent (like a real web browser).
Automatic following of redirects.
Connection–pooling and cookie persistence.
The Requests experience you know and love, with magical parsing abilities.
03
如何用這個(gè)庫
1).比如我們爬取一個(gè)Python官網(wǎng)網(wǎng)頁
>>/about/quotes//about/success/#software-developmenthttps://mail.python.org/mailman/listinfo/python-dev/downloads/release/python-365//community/logos//community/sigs///jobs.python.orghttp://tornadoweb.orghttps://github.com/python/pythondotorg/issues/about/gettingstarted/...
簡(jiǎn)單吧,我們也不需要管什么http的請(qǐng)求頭,也不需要管什么cookie,更不需要管代理angent.直接初始化一個(gè)HTMLSession()類的對(duì)象,就可以簡(jiǎn)簡(jiǎn)單單的解析網(wǎng)頁的內(nèi)容。一邊輕松喝杯茶,一邊直接調(diào)用r對(duì)象里面的方法,比如提取所有網(wǎng)頁里面的超鏈接。
2).看一下HTMLSession對(duì)象里面都有哪些好的方法:
print ([e for e in dir(r.html) if not e.startswith('_')])>>['absolute_links', 'add_next_symbol', 'base_url', 'default_encoding', 'element', 'encoding', 'find', 'full_text', 'html', 'links', 'lxml', 'next_symbol', 'page', 'pq', 'raw_html', 'render', 'search', 'search_all','session', 'skip_anchors', 'text', 'url', 'xpath']
里面有很多有用的功能函數(shù),比如find,search,search_all功能,非常方便!上邊我們解析了Python官網(wǎng),接著我們解析官網(wǎng)里面的about :
想要找到about元素里面的文本內(nèi)容,我們只用find一行代碼就可以搞定搞定
about = r.html.find('#about', first=True)print (about.text)>>About Applications Quotes Getting Started Help Python Brochure
#about 是表示網(wǎng)頁審查里面id為about (css方式提取),first置為true表示,如果取的元素是一個(gè)list,我們只返回第一個(gè)元素。
想讀取about里面的attr:
print (about.attrs)>>{'id': 'about', 'class': ('tier-1', 'element-1'), 'aria-haspopup': 'true'}
想讀取about里面的鏈接:
about.find('a')>>
最牛逼的是這About對(duì)象已經(jīng)把各種解析庫的對(duì)象句柄都完成了初始化,比如大名鼎鼎的pyquery庫的解析(css解析器),lxml庫的解析。
直接用doc=about.pq,這里的doc其實(shí)就是把css解析的內(nèi)容解析出來,我們可以非常方便的處理.
整個(gè)requests_html庫相當(dāng)于一個(gè)中間層,把復(fù)雜的解析網(wǎng)頁的這些繁瑣的步驟,再次的封裝了,里面還有牛逼的功能,比如支持js頁面的動(dòng)態(tài)解析,內(nèi)置了強(qiáng)大的chromium引擎和異步的解析session(AsyncHTMLSession),這個(gè)里面用的是Python非常牛逼的Asyncio庫。
總之有了這個(gè)requests_html,媽媽再也不用擔(dān)心我學(xué)不會(huì)爬蟲了。
-
函數(shù)
+關(guān)注
關(guān)注
3文章
4333瀏覽量
62721 -
python
+關(guān)注
關(guān)注
56文章
4797瀏覽量
84787
原文標(biāo)題:爬蟲大神,又出新招
文章出處:【微信號(hào):magedu-Linux,微信公眾號(hào):馬哥Linux運(yùn)維】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論