技術無罪?江湖傳言,互聯(lián)網(wǎng)上50%以上的流量都是由爬蟲創(chuàng)造的,很多人都表示:無爬蟲就無互聯(lián)網(wǎng)的繁榮。也正因為此,網(wǎng)上各種爬蟲教程風靡不絕,惹各路大神小白觀之參與之。但是,無節(jié)制的背后往往隱藏著風險,類似“只因寫了一段爬蟲,公司200多人被抓!”、“程序員爬蟲竟構成犯罪?”等報道也時有發(fā)生。關于爬蟲合法性的討論,CSDN也在此前的《爬蟲到底違法嗎?這位爬蟲工程師給出了答案》、《不要在爬蟲犯罪的邊緣瘋狂試探!》等文章中進行了探討——但是,關于爬蟲的爭論一直甚囂塵上。
近日,美國法院駁回 LinkedIn 針對分析公司 HiQ 抓取其數(shù)據(jù)的申訴一事件,似乎又為網(wǎng)絡爬蟲的自由添磚加了瓦。決議表明:任何可公開獲得且未經(jīng)版權保護的數(shù)據(jù)都可供抓??!可以說,這是數(shù)據(jù)隱私和數(shù)據(jù)監(jiān)管時代的歷史性時刻。那么,作為開發(fā)者的你,如何看到這一事件呢?關于爬蟲的風險性又該怎么定論?
2019年末,美國上訴法院駁回了 LinkedIn 針對分析公司 HiQ 抓取其數(shù)據(jù)的申訴。
這項決議是數(shù)據(jù)隱私和數(shù)據(jù)監(jiān)管時代的歷史性時刻。這項決議表明,任何可公開獲得且未經(jīng)版權保護的數(shù)據(jù)都可供網(wǎng)絡爬蟲自由抓取。
但是抓取數(shù)據(jù)的商業(yè)用途仍然有限
然而,這項決議并沒有授予 HiQ 或其他網(wǎng)絡爬蟲將抓取獲得的數(shù)據(jù)用于商業(yè)目的的自由。
例如,網(wǎng)絡爬蟲可以在 YouTube 上搜索視頻標題,但由于這些視頻已獲得版權,因此不可以將 YouTube 視頻轉發(fā)到自己的網(wǎng)站上。
一般來說,無論你以何種方式獲取數(shù)據(jù),數(shù)據(jù)(包括視頻或音樂之類的媒體文件數(shù)據(jù))的版權依然有效。
某些形式的網(wǎng)頁爬蟲仍然是非法的
這項決議也沒有賦予網(wǎng)絡爬蟲自由地從需要身份驗證的站點獲取數(shù)據(jù)的權利。
例如,根據(jù)規(guī)定網(wǎng)絡爬蟲不可以登錄到 Facebook 并下載用戶的數(shù)據(jù)。
該規(guī)則不包括那些要求用戶在認證之前必須同意使用條款的網(wǎng)站,因為通常這些服務條款都會禁止諸如自動收集數(shù)據(jù)之類的活動。
但是,由于公開站點無法要求用戶在訪問數(shù)據(jù)之前同意任何服務條款,因此用戶可以自由使用網(wǎng)絡爬蟲程序從站點收集的數(shù)據(jù)。
各個網(wǎng)站仍然可以使用技術來限制網(wǎng)絡爬蟲
盡管如今各個公司不太可能通過法律途徑應對網(wǎng)絡爬蟲程序,但他們?nèi)匀豢梢酝ㄟ^其他方式限制網(wǎng)絡爬蟲。
例如,各個網(wǎng)站可以使用“限速”等技術來防止爬蟲程序一次下載太多網(wǎng)頁。此外,各個網(wǎng)站還可以使用 CAPTCHA 等技術來測試是用戶還是網(wǎng)絡爬蟲正在請求該頁面。
這些技術通常用于防止惡意機器人導致網(wǎng)站超載,引起網(wǎng)站崩潰。但是,這些技術也可以廣泛用于限制網(wǎng)絡爬蟲的自動抓取。
LinkedIn可能會進一步上訴
盡管美國上訴法院駁回了LinkedIn的請求,但他們可能還有最后一步棋:向美國最高法院提出上訴。
美國最高法院有權推翻上訴法院的判決,而且還可以撤銷網(wǎng)絡爬蟲公開使用非版權數(shù)據(jù)的合法化。但是,并非所有上訴至最高法院的決定都能得到實際的審查。
但是,我們?nèi)匀豢梢哉J為最高法院很可能會審查本案的裁決。畢竟數(shù)據(jù)政策和相關的隱私問題是相對較新的法律,而且會對 LinkedIn 等公司產(chǎn)生重大的商業(yè)影響。
-
Web
+關注
關注
2文章
1266瀏覽量
69571 -
爬蟲
+關注
關注
0文章
82瀏覽量
6953
發(fā)布評論請先 登錄
相關推薦
評論