好紧我太爽了视频免费国产,成人免费一区二区三区,久久国产精品二国产精品

不少讀者是剛剛?cè)腴TPython或者想學(xué)習(xí)Python的，今天就來談?wù)勅绾斡每焖偃腴T爬蟲。

先說結(jié)論：入門爬蟲很容易，幾行代碼就可以，可以說是學(xué)習(xí)Python最簡(jiǎn)單的途徑。

以我純小白、零基礎(chǔ)的背景來說，入門爬蟲其實(shí)很容易，容易在代碼編寫很簡(jiǎn)單，簡(jiǎn)單的爬蟲通常幾行就能搞定，而不容易在確定爬蟲的目標(biāo)，也就是說為什么要去寫爬蟲，有沒有必要用到爬蟲，是不是手動(dòng)操作幾乎無法完成，互聯(lián)網(wǎng)上有數(shù)以百萬千萬計(jì)的網(wǎng)站，到底以哪一個(gè)網(wǎng)站作為入門首選，這些問題才是難點(diǎn)。所以在動(dòng)手寫爬蟲前，最好花一些時(shí)間想一想這清楚這些問題。

「Talk is cheap. Show me the code」，下面我就以曾寫過的一個(gè)爬蟲為例，說一說我是如何快速入門Python爬蟲的。

▌確立目標(biāo)

第一步，確立目標(biāo)。

為什么想起寫這個(gè)爬蟲呢，是因?yàn)檫@是曾經(jīng)在工作中想要解決的問題，當(dāng)時(shí)不會(huì)爬蟲，只能用Excel花了數(shù)個(gè)小時(shí)才勉強(qiáng)地把數(shù)據(jù)爬了下來，所以在接觸到爬蟲后，第一個(gè)想法就是去實(shí)現(xiàn)曾未實(shí)現(xiàn)的目標(biāo)。以這樣的方式入門爬蟲，好處顯而易見，就是有了很明確的動(dòng)力。

很多人學(xué)爬蟲都是去爬網(wǎng)上教程中的那些網(wǎng)站，網(wǎng)站一樣就算了，爬取的方法也一模一樣，等于抄一遍，不是說這樣無益，但是會(huì)容易導(dǎo)致動(dòng)力不足，因?yàn)槟銢]有帶著目標(biāo)去爬，只是為了學(xué)爬蟲而爬，爬蟲雖然是門技術(shù)活，但是如果能建立在興趣愛好或者工作任務(wù)的前提下，學(xué)習(xí)的動(dòng)力就會(huì)強(qiáng)很多。

在確定好爬蟲目標(biāo)后，接著我就在腦中預(yù)想了想要得到什么樣的結(jié)果、如何展示出來、以什么形式展現(xiàn)這些問題。所以，我在爬取網(wǎng)站之前，就預(yù)先構(gòu)想出了想要的一個(gè)結(jié)果，大致是下面這張圖的樣子。

目標(biāo)是利用爬下來的數(shù)據(jù)，嘗試從不同維度年份、省份、城市去分析全國(guó)的股市信息，然后通過可視化圖表呈現(xiàn)出來。

拋開數(shù)據(jù)，可能你會(huì)覺得這張圖在排版布局、色彩搭配、字體文字等方面還挺好看的。這些呢，就跟爬蟲沒什么關(guān)系了，而跟審美有關(guān)，提升審美的一種方式是可以通過做PPT來實(shí)現(xiàn)，所以你看，咱們說著說著就從爬蟲跳到了 PPT，不得不說我此前發(fā)的文章鋪墊地很好啊，哈哈。其實(shí)，在職場(chǎng)中，你擁有的技能越多越好。

▌直接開始

確定了目標(biāo)后，第二步就可以開始寫爬蟲了，如果你像我一樣，之前沒有任何編程基礎(chǔ)，那我下面說的思路，可能會(huì)有用。

剛開始動(dòng)手寫爬蟲，我只關(guān)注最核心的部分，也就是先成功抓到數(shù)據(jù)，其他的諸如：下載速度、存儲(chǔ)方式、代碼條理性等先不管，這樣的代碼簡(jiǎn)短易懂、容易上手，能夠增強(qiáng)信心。

所以，我在寫第一遍的時(shí)候，只用了5行代碼，就成功抓取了全部所需的信息，當(dāng)時(shí)的感覺就是很爽，覺得爬蟲不過如此啊，自信心爆棚。

1importpandasaspd2importcsv3foriinrange(1,178):#爬取全部頁4tb=pd.read_html('http://s.askci.com/stock/a/?reportTime=2017-12-31&pageNum=%s'%(str(i)))[3]5tb.to_csv(r'1.csv',mode='a',encoding='utf_8_sig',hea

3000+ 上市公司的信息，安安靜靜地躺在 Excel 中：

▌不斷完善

有了上面的信心后，我開始繼續(xù)完善代碼，因?yàn)?行代碼太單薄，功能也太簡(jiǎn)單，大致從以下幾個(gè)方面進(jìn)行了完善：

增加異常處理

由于爬取上百頁的網(wǎng)頁，中途很可能由于各種問題導(dǎo)致爬取失敗，所以增加了 try except 、if 等語句，來處理可能出現(xiàn)的異常，讓代碼更健壯。

增加代碼靈活性

初版代碼由于固定了URL參數(shù)，所以只能爬取固定的內(nèi)容，但是人的想法是多變的，一會(huì)兒想爬這個(gè)一會(huì)兒可能又需要那個(gè)，所以可以通過修改 URL 請(qǐng)求參數(shù)，來增加代碼靈活性，從而爬取更靈活的數(shù)據(jù)。

修改存儲(chǔ)方式

初版代碼我選擇了存儲(chǔ)到Excel這種最為熟悉簡(jiǎn)單的方式，人是一種惰性動(dòng)物，很難離開自己的舒適區(qū)。但是為了學(xué)習(xí)新知識(shí)，所以我選擇將數(shù)據(jù)存儲(chǔ)到 MySQL 中，以便練習(xí) MySQL 的使用。

加快爬取速度

初版代碼使用了最簡(jiǎn)單的單進(jìn)程爬取方式，爬取速度比較慢，考慮到網(wǎng)頁數(shù)量比較大，所以修改為了多進(jìn)程的爬取方式。

經(jīng)過以上這幾點(diǎn)的完善，代碼量從原先的5行增加到了下面的幾十行：

1importrequests2importpandasaspd3frombs4importBeautifulSoup4fromlxmlimportetree5importtime6importpymysql7fromsqlalchemyimportcreate_engine8fromurllib.parseimporturlencode#編碼URL字符串910start_time=time.time()#計(jì)算程序運(yùn)行時(shí)間11defget_one_page(i):12try:13headers={14'User-Agent':'Mozilla/5.0(WindowsNT6.1;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/66.0.3359.181Safari/537.36'15}16paras={17'reportTime':'2017-12-31',18#可以改報(bào)告日期，比如2018-6-30獲得的就是該季度的信息19'pageNum':i#頁碼20}21url='http://s.askci.com/stock/a/?'+urlencode(paras)22response=requests.get(url,headers=headers)23ifresponse.status_code==200:24returnresponse.text25returnNone26exceptRequestException:27print('爬取失敗')2829defparse_one_page(html):30soup=BeautifulSoup(html,'lxml')31content=soup.select('#myTable04')[0]#[0]將返回的list改為bs4類型32tbl=pd.read_html(content.prettify(),header=0)[0]33#prettify()優(yōu)化代碼,[0]從pd.read_html返回的list中提取出DataFrame34tbl.rename(columns={'序號(hào)':'serial_number','股票代碼':'stock_code','股票簡(jiǎn)稱':'stock_abbre','公司名稱':'company_name','省份':'province','城市':'city','主營(yíng)業(yè)務(wù)收入(201712)':'main_bussiness_income','凈利潤(rùn)(201712)':'net_profit','員工人數(shù)':'employees','上市日期':'listing_date','招股書':'zhaogushu','公司財(cái)報(bào)':'financial_report','行業(yè)分類':'industry_classification','產(chǎn)品類型':'industry_type','主營(yíng)業(yè)務(wù)':'main_business'},inplace=True)35returntbl3637defgenerate_mysql():38conn=pymysql.connect(39host='localhost',40user='root',41password='******',42port=3306,43charset='utf8',44db='wade')45cursor=conn.cursor()4647sql='CREATETABLEIFNOTEXISTSlisted_company(serial_numberINT(20)NOTNULL,stock_codeINT(20),stock_abbreVARCHAR(20),company_nameVARCHAR(20),provinceVARCHAR(20),cityVARCHAR(20),main_bussiness_incomeVARCHAR(20),net_profitVARCHAR(20),employeesINT(20),listing_dateDATETIME(0),zhaogushuVARCHAR(20),financial_reportVARCHAR(20),industry_classificationVARCHAR(20),industry_typeVARCHAR(100),main_businessVARCHAR(200),PRIMARYKEY(serial_number))'48cursor.execute(sql)49conn.close()5051defwrite_to_sql(tbl,db='wade'):52engine=create_engine('mysql+pymysql://root:******@localhost:3306/{0}?charset=utf8'.format(db))53try:54tbl.to_sql('listed_company2',con=engine,if_exists='append',index=False)55#append表示在原有表基礎(chǔ)上增加，但該表要有表頭56exceptExceptionase:57print(e)5859defmain(page):60generate_mysql()61foriinrange(1,page):62html=get_one_page(i)63tbl=parse_one_page(html)64write_to_sql(tbl)6566##單進(jìn)程67if__name__=='__main__':68main(178)69endtime=time.time()-start_time70print('程序運(yùn)行了%.2f秒'%endtime)7172#多進(jìn)程73frommultiprocessingimportPool74if__name__=='__main__':75pool=Pool(4)76pool.map(main,[iforiinrange(1,178)])#共有178頁77endtime=time.time()-start_time78print('程序運(yùn)行了%.2f秒'%(time.time()-start_time))

雖然代碼行數(shù)增加了不少，但是這個(gè)過程卻覺得很自然，因?yàn)槊看涡薷亩际轻槍?duì)一個(gè)小點(diǎn)，一點(diǎn)點(diǎn)去學(xué)，搞懂后添加進(jìn)來，而如果讓我上來就直接寫出這幾十行的代碼，我很可能就放棄了。

所以，你可以看到，入門爬蟲是有套路的，最重要的是給自己信心。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

代碼

代碼

+關(guān)注

關(guān)注
30

文章
4858

瀏覽量
69550
python

python

+關(guān)注

關(guān)注
56

文章
4813

瀏覽量
85314
爬蟲

爬蟲

+關(guān)注

關(guān)注
0

文章
82

瀏覽量
7131

原文標(biāo)題：5行代碼就能入門爬蟲？

文章出處：【微信號(hào)：rgznai100，微信公眾號(hào)：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

Python數(shù)據(jù)爬蟲學(xué)習(xí)內(nèi)容

，利用爬蟲，我們可以解決部分?jǐn)?shù)據(jù)問題，那么，如何學(xué)習(xí)Python數(shù)據(jù)爬蟲能？1.學(xué)習(xí)Python基礎(chǔ)知識(shí)并實(shí)現(xiàn)基本的爬蟲過程一般獲取數(shù)據(jù)的過

發(fā)表于 05-09 17:25

Python爬蟲與Web開發(fā)庫盤點(diǎn)

Python爬蟲和Web開發(fā)均是與網(wǎng)頁相關(guān)的知識(shí)技能，無論是自己搭建的網(wǎng)站還是爬蟲爬去別人的網(wǎng)站，都離不開相應(yīng)的Python庫，以下是常用的Pyth

發(fā)表于 05-10 15:21

0基礎(chǔ)入門Python爬蟲實(shí)戰(zhàn)課

學(xué)習(xí)資料良莠不齊爬蟲是一門實(shí)踐性的技能，沒有實(shí)戰(zhàn)的課程都是騙人的！所以這節(jié)Python爬蟲實(shí)戰(zhàn)課，將幫到你！課程從0基礎(chǔ)入門開始，受眾人群廣泛：如畢業(yè)大學(xué)生、轉(zhuǎn)行人群、對(duì)

發(fā)表于 07-25 09:28

Python爬蟲簡(jiǎn)介與軟件配置

Python爬蟲練習(xí)一、爬蟲簡(jiǎn)介1. 介紹2. 軟件配置二、爬取南陽理工OJ題目三、爬取學(xué)校信息通知四、總結(jié)五、參考一、爬蟲簡(jiǎn)介1. 介紹網(wǎng)絡(luò)爬蟲

發(fā)表于 01-11 06:32

python網(wǎng)絡(luò)爬蟲概述

的數(shù)據(jù)，從而識(shí)別出某用戶是否為水軍學(xué)習(xí)爬蟲前的技術(shù)準(zhǔn)備(1). Python基礎(chǔ)語言：基礎(chǔ)語法、運(yùn)算符、數(shù)據(jù)類型、流程控制、函數(shù)、對(duì)象模塊、文件操作、多線程、網(wǎng)絡(luò)編程 … 等(2). W3C標(biāo)準(zhǔn)

發(fā)表于 03-21 16:51

詳細(xì)用Python寫網(wǎng)絡(luò)爬蟲

詳細(xì)用Python寫網(wǎng)絡(luò)爬蟲

發(fā)表于 09-07 08:40 ?32次下載

完全自學(xué)指南Python爬蟲BeautifulSoup詳解

完全自學(xué)指南Python爬蟲BeautifulSoup詳解

發(fā)表于 09-07 08:55 ?39次下載

WebSpider——多個(gè)python爬蟲項(xiàng)目下載

此文檔包含多個(gè)python爬蟲項(xiàng)目

發(fā)表于 03-26 09:29 ?3次下載

Python爬蟲8個(gè)常用的爬蟲技巧分析總結(jié)

用python也差不多一年多了，python應(yīng)用最多的場(chǎng)景還是web快速開發(fā)、爬蟲、自動(dòng)化運(yùn)維：寫過簡(jiǎn)單網(wǎng)站、寫過自動(dòng)發(fā)帖腳本、寫過收發(fā)郵件腳本、寫過簡(jiǎn)單驗(yàn)證碼識(shí)別腳本。

發(fā)表于 08-18 11:45 ?5187次閱讀

python爬蟲入門教程之python爬蟲視頻教程分布式爬蟲打造搜索引擎

本文檔的主要內(nèi)容詳細(xì)介紹的是python爬蟲入門教程之python爬蟲視頻教程分布式爬蟲打造搜索

發(fā)表于 08-28 15:32 ?30次下載

python爬蟲框架有哪些

本視頻主要詳細(xì)介紹了python爬蟲框架有哪些，分別是Django、CherryPy、Web2py、TurboGears、Pylons、Grab、BeautifulSoup、Cola。

發(fā)表于 03-22 16:13 ?6892次閱讀

Python爬蟲：使用哪種協(xié)議的代理IP最佳？

網(wǎng)絡(luò)大數(shù)據(jù)要抓取信息，大多需要經(jīng)過python爬蟲工作，爬蟲能夠幫助我們將頁面的信息抓取下來。

發(fā)表于 06-28 16:25 ?2032次閱讀

用Python寫網(wǎng)絡(luò)爬蟲

用Python寫網(wǎng)絡(luò)爬蟲的方法說明。

發(fā)表于 06-01 11:55 ?21次下載

利用Python編寫簡(jiǎn)單網(wǎng)絡(luò)爬蟲實(shí)例

利用 Python編寫簡(jiǎn)單網(wǎng)絡(luò)爬蟲實(shí)例2 實(shí)驗(yàn)環(huán)境python版本：3.3.5（2.7下報(bào)錯(cuò)

發(fā)表于 02-24 11:05 ?14次下載

如何解決Python爬蟲中文亂碼問題？Python爬蟲中文亂碼的解決方法

如何解決Python爬蟲中文亂碼問題？Python爬蟲中文亂碼的解決方法在Python爬蟲過程

發(fā)表于 01-12 15:11 ?2708次閱讀

搜索歷史

如何快速入門Python爬蟲的?

評(píng)論

Python數(shù)據(jù)爬蟲學(xué)習(xí)內(nèi)容

Python爬蟲與Web開發(fā)庫盤點(diǎn)

0基礎(chǔ)入門Python爬蟲實(shí)戰(zhàn)課

Python爬蟲簡(jiǎn)介與軟件配置

python網(wǎng)絡(luò)爬蟲概述

詳細(xì)用Python寫網(wǎng)絡(luò)爬蟲

完全自學(xué)指南Python爬蟲BeautifulSoup詳解

WebSpider——多個(gè)python爬蟲項(xiàng)目下載

Python爬蟲8個(gè)常用的爬蟲技巧分析總結(jié)

python爬蟲入門教程之python爬蟲視頻教程分布式爬蟲打造搜索引擎

python爬蟲框架有哪些

Python爬蟲：使用哪種協(xié)議的代理IP最佳？

用Python寫網(wǎng)絡(luò)爬蟲

利用Python編寫簡(jiǎn)單網(wǎng)絡(luò)爬蟲實(shí)例

如何解決Python爬蟲中文亂碼問題？Python爬蟲中文亂碼的解決方法