《復聯(lián) 4》國內(nèi)上映第十天,程序員的江湖里開始流傳這樣一個故事,即:
漫威宇宙,其實就講了一件事情。整個宇宙就好比一個項目組。其中有一群叫作美國隊長、鋼鐵俠、驚奇隊長、浩克、索爾等人在維護這個項目,兢兢業(yè)業(yè)的維護整個項目。
某一天,出現(xiàn)了一個天才程序員,叫滅霸。當他加入到這家公司的時候,他意識到,這個項目已經(jīng)非常龐大,僅僅是編譯,就要幾個小時。運行起來負重累累。而服務器資源又非常的有限,老板又不給預算買新機器,如果一直繼續(xù)這么開發(fā)下去,這個項目遲早要出現(xiàn) P0 事故。于是,他下定決定要把這個項目全面優(yōu)化,使用用面向?qū)ο笏枷?,提取重復代碼,業(yè)務拆分,算法優(yōu)化等手段,徹底優(yōu)化,目標是代碼量減少 50%。
美國隊長帶領(lǐng)的項目組叫復仇者聯(lián)盟,發(fā)現(xiàn)了滅霸程序員的想法后,阻止并警告滅霸說:不要輕易去改老代碼??!很容易出 bug 的,代碼能跑就行??!
那么,作為一個寫程序員的電影,我們怎么不能用數(shù)據(jù)來分析一下,喜歡漫威宇宙的觀眾對《復聯(lián) 4》的評價呢?
抓取數(shù)據(jù)
業(yè)界朋友們,在電影分析中,使用貓眼的數(shù)據(jù)比較多。在本文中,筆者也使用了貓眼的接口來獲取數(shù)據(jù),方便處理,數(shù)據(jù)量也比較多。
在 Python 中,使用 Request 可以很方便地發(fā)送請求,拿到接口返回的 JSON 數(shù)據(jù),來看代碼:
defgetMoveinfo(url):session=requests.Session()headers={"User-Agent":"Mozilla/5.0",
"Accept":"text/html,application/xhtml+xml",
"Cookie":"_lxsdk_cuid="}response=session.get(url,headers=headers)ifresponse.status_code==200:
returnresponse.textreturnNone
請求返回的是一個 JSON 數(shù)據(jù),拿到我們想要的評論原始數(shù)據(jù),并將數(shù)據(jù)存儲在數(shù)據(jù)庫中:
defsaveItem(dbName,moveId,id,originalData):conn=sqlite3.connect(dbName)conn.text_factory=strcursor=conn.cursor()ins="INSERTORREPLACEINTOcommentsvalues(?,?,?)"v=(id,originalData,moveId)cursor.execute(ins,v)cursor.close()conn.commit()conn.close()
經(jīng)過大概兩個小時,終于從貓眼爬取了大約 9 萬條數(shù)據(jù)。數(shù)據(jù)庫文件已經(jīng)超過了 100M 了。
數(shù)據(jù)清洗
因為在上面抓取下來的數(shù)據(jù),直接進行了原數(shù)據(jù)的存儲,沒有進行數(shù)據(jù)的解析處理。接口中包含了很多數(shù)據(jù),有用戶信息、評論信息等。本次分析,只使用了部分數(shù)據(jù),所以需要將用到的相關(guān)數(shù)據(jù)清洗出來:
defconvert(dbName):conn=sqlite3.connect(dbName)conn.text_factory=strcursor=conn.cursor()cursor.execute("select*fromcomments")data=cursor.fetchall()foritemindata:commentItem=json.loads(item[1])movieId=item[2]insertItem(dbName,movieId,commentItem)cursor.close()conn.commit()conn.close()definsertItem(dbName,movieId,item):conn=sqlite3.connect(dbName)conn.text_factory=strcursor=conn.cursor()sql='''INSERTORREPLACEINTOconvertDatavalues(?,?,?,?,?,?,?,?,?)'''values=(getValue(item,"id"),movieId,getValue(item,"userId"),getValue(item,"nickName"),getValue(item,"score"),getValue(item,"content"),getValue(item,"cityName"),getValue(item,"vipType"),getValue(item,"startTime"))cursor.execute(sql,values)cursor.close()conn.commit()conn.close()
通過 JSON 庫將原始數(shù)據(jù)解析出來,將我們需要的信息存儲到新的數(shù)據(jù)表中。
數(shù)據(jù)分析
因為沒有任何一個平臺能夠拿到用戶的購票數(shù)據(jù),我們只能從評論的數(shù)據(jù)中,以小見大,從這些數(shù)據(jù)中,分析出一些走勢。 在評論數(shù)據(jù)中,我們能看到評論用戶所在的城市。將數(shù)據(jù)所在的位置解析,劃分到各對應的行政省,可以看到每個省評論數(shù)量,見下圖(顏色越紅,用戶評論數(shù)量越多):
城市
從圖中可以看到, 上海、廣州、四川用戶的數(shù)量顯然要比其他城市的用戶數(shù)量要多得多。再來看一下代碼:
data=pd.read_sql("select*fromconvertData",conn)city=data.groupby(['cityName'])city_com=city['score'].agg(['mean','count'])city_com.reset_index(inplace=True)fo=open("citys.json",'r')citys_info=fo.readlines()citysJson=json.loads(str(citys_info[0]))printcity_comdata_map_all=[(getRealName(city_com['cityName'][i],citysJson),city_com['count']
[i])foriinrange(0,city_com.shape[0])]data_map_list={}foritemindata_map_all:
ifdata_map_list.has_key(item[0]):
value=data_map_list[item[0]]
value+=item[1]
data_map_list[item[0]]=value
else:
data_map_list[item[0]]=item[1]
data_map=[(realKeys(key),data_map_list[key])forkeyindata_map_list.keys()]
漫威電影一直深受中國朋友們喜歡的高分電影。豆瓣評分 8.7 分,那我們的評論用戶中,又是一個什么樣的趨勢呢?見下圖:
評分數(shù)
從圖中可以看到,評 5 分的數(shù)量遠高于其他評分,可見中國的觀眾朋友確實喜歡漫威的科幻電影。
復聯(lián)從 1 開始便是漫威宇宙各路超級英雄的集結(jié),到現(xiàn)在的第 4 部,更是全英雄的匯聚。那么,在這之中,哪位英雄人物更受觀眾歡迎?先看代碼:
attr=["滅霸","美國隊長","鋼鐵俠","浩克","奇異博士","蜘蛛俠","索爾","黑寡婦","鷹眼","驚奇隊長","幻視","猩紅女巫","蟻人","古一法師"]alias={"滅霸":["滅霸","Thanos"],"美國隊長":["美國隊長","美隊"],"浩克":["浩克","綠巨人","班納","HULK"],"奇異博士":["奇異博士","醫(yī)生"],"鋼鐵俠":["鋼鐵俠","stark","斯塔克","托尼","史塔克"],"蜘蛛俠":["蜘蛛俠","蜘蛛","彼得","荷蘭弟"],"索爾":["索爾","雷神"],"黑寡婦":["黑寡婦","寡姐"],"鷹眼":["鷹眼","克林頓","巴頓","克林特"],"驚奇隊長":["驚奇隊長","卡羅爾","驚奇"],"星云":["星云"],"猩紅女巫":["猩紅女巫","緋紅女巫","旺達"],"蟻人":["蟻人","蟻俠","Ant","AntMan"],"古一法師":["古一","古一法師","法師"]}v1=[getCommentCount(getAlias(alias,attr[i]))foriinrange(0,len(attr))]bar=Bar("Hiro")bar.add("count",attr,v1,is_stack=True,xaxis_rotate=30,yaxix_min=4.2,xaxis_interval=0,is_splitline_show=True)bar.render("html/hiro_count.html")
運行結(jié)果如下圖,可以看到鋼鐵俠鋼鐵俠是實至名歸的 C 位,不僅電影在電影中是,在評論區(qū)仍然也是實至名歸的 C 位,甚至于遠超美隊、寡姐和雷神:
英雄評論次數(shù)
從以上觀眾分布和評分的數(shù)據(jù)可以看到,這一部劇,觀眾朋友還是非常地喜歡。前面,從貓眼拿到了觀眾的評論數(shù)據(jù)?,F(xiàn)在,筆者將通過 Jieba 把評論進行分詞,然后通過 Wordcloud 制作詞云,來看看,觀眾朋友們對《復聯(lián)》的整體評價:
詞云分析
可以看到,滅霸和鋼鐵俠出現(xiàn)的詞頻比其他英雄要高很多。這是否表示,這部劇的主角就是他們兩個呢?
細心的朋友應該發(fā)現(xiàn)了,鋼鐵俠、滅霸的數(shù)量在詞云和評論數(shù)量里面不一致。原因在于,評論數(shù)量就按評論條數(shù)來統(tǒng)計的,而詞云中,使用的是詞頻,同一條評論中,多次出現(xiàn)會多次統(tǒng)計。所以,滅霸出現(xiàn)的次數(shù)居然高于了鋼鐵俠。
最后,再來分析一下鋼鐵俠與滅霸的情感分析,先上代碼:
defemotionParser(name):conn=conn=sqlite3.connect("end.db")conn.text_factory=strcursor=conn.cursor()likeStr="like"%"+name+"%""cursor.execute("selectcontentfromconvertDatawherecontent"+likeStr)values=cursor.fetchall()sentimentslist=[]foriteminvalues:
sentimentslist.append(SnowNLP(item[0].decode("utf-8")).sentiments)plt.hist(sentimentslist,bins=np.arange(0,1,0.01),facecolor="#4F8CD6")
plt.xlabel("SentimentsProbability")
plt.ylabel("Quantity")
plt.title("AnalysisofSentimentsfor"+name)
plt.show()cursor.close()conn.close()
此處,使用 SnowNLP 來進行情感分析。
情感分析,又稱為意見挖掘、傾向性分析等。簡單而言,是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程。
滅霸
鋼鐵俠
從圖中看到, 鋼鐵俠的正向情感要比滅霸的正向情感要高,反派角色就是容易被人抗拒。
最最后,從《銀河護衛(wèi)隊》時期穿越而來的滅霸在最后分鐘變成了粉末消散而去,這也給我們程序員一個警鐘:
“重構(gòu)代碼,改善設計,降低系統(tǒng)復雜度,這樣做很好。但是,一定要保證系統(tǒng)的穩(wěn)定運行,不留安全隱患,不然,早晚會丟掉自己的工作?!?/p>
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7113瀏覽量
89303 -
代碼
+關(guān)注
關(guān)注
30文章
4812瀏覽量
68830 -
python
+關(guān)注
關(guān)注
56文章
4802瀏覽量
84889
原文標題:Python分析9萬條數(shù)據(jù)告訴你復仇者聯(lián)盟誰才是絕對C位
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論