網(wǎng)絡(luò)大數(shù)據(jù)要抓取信息,大多需要經(jīng)過python爬蟲工作,爬蟲能夠幫助我們將頁面的信息抓取下來。
爬蟲為什么需要換IP,因?yàn)樵S多網(wǎng)站都會(huì)對(duì)爬蟲行為進(jìn)行識(shí)別,一旦認(rèn)定你的行為是爬蟲,便會(huì)鎖定你的IP,導(dǎo)致爬蟲爬取不了信息,這個(gè)時(shí)候只有減緩采集速度,或者換IP來躲避網(wǎng)站的檢測(cè),從而順利進(jìn)行采集工作。
那么,爬蟲是需要用https代理還是http代理呢?
HTTPS是HTTP協(xié)議的安全版本,HTTP協(xié)議的數(shù)據(jù)傳輸是明文的,是不安全的,HTTPS使用了SSL/TLS協(xié)議進(jìn)行了加密處理。
需要用哪一種代理ip,那么就需要具體看自己需要抓取的網(wǎng)站協(xié)議是哪一種了。
-
IP
+關(guān)注
關(guān)注
5文章
1708瀏覽量
149547 -
網(wǎng)絡(luò)爬蟲
+關(guān)注
關(guān)注
1文章
52瀏覽量
8674 -
python
+關(guān)注
關(guān)注
56文章
4797瀏覽量
84688
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論