首頁 新聞 > 科技 > 正文

合理規(guī)制,讓“爬蟲”向善向上

年來,隨著移動互聯(lián)、人工智能、大數(shù)據(jù)、云計算等新技術(shù)的迅速發(fā)展與普及應用,人們的工作、交往和生活方式都發(fā)生了深刻變化,數(shù)據(jù)成為驅(qū)動社會發(fā)展的新型生產(chǎn)要素、各行各業(yè)增強競爭力的重要源泉。但在大數(shù)據(jù)收集過程中,也存在著各種違法犯罪問題。網(wǎng)絡爬蟲(Web Crawler)作為一種能快速精準地獲取數(shù)據(jù)信息的基礎網(wǎng)絡技術(shù),年來得到了越來越多的青睞和應用。如何對其進行規(guī)制,驅(qū)動其向好向善,成為當前重要的法治議題。

“小爬蟲”的“大角色”

網(wǎng)絡爬蟲,又稱為“網(wǎng)頁蜘蛛”“網(wǎng)絡機器人”,是一種按照一定的規(guī)則,自動抓取網(wǎng)絡信息的程序或者腳本。它能在特定程序的驅(qū)動下,模仿人工點擊從網(wǎng)站、手機應用、小程序或搜索引擎中檢索、提取、存儲數(shù)據(jù)。我們可以形象地將它們理解為一種爬行在網(wǎng)絡上的蜘蛛,它們根據(jù)程序的指令,通常沿著URL(網(wǎng)址)這根蛛絲,在互聯(lián)網(wǎng)這張大網(wǎng)上爬來爬去,尋找和帶回所需要的數(shù)據(jù)資源。我們熟知的百度、搜狗、谷歌等搜索引擎,其技術(shù)核心元素之一就是“網(wǎng)絡爬蟲”。例如百度蜘蛛,它通過互聯(lián)網(wǎng)入口爬取網(wǎng)頁,實時存儲并更新索引,然后為用戶提供檢索服務。

自從1993年第一個網(wǎng)絡爬蟲程序——“互聯(lián)網(wǎng)漫游者”被開發(fā)出來,網(wǎng)絡爬蟲這種便捷高效的搜索技術(shù)便得到了業(yè)界關(guān)注。特別是隨著數(shù)據(jù)資源的爆炸式增長,網(wǎng)絡爬蟲的應用場景也變得越發(fā)廣泛與多元,長期活躍于市場調(diào)查、產(chǎn)品研發(fā)、金融分析、輿情監(jiān)控、風險預測等領(lǐng)域。年來,一些運用爬蟲技術(shù)為客戶提供數(shù)據(jù)服務的互聯(lián)網(wǎng)企業(yè),也獲得了快速發(fā)展。對個人而言,我們可以利用爬蟲軟件等計算機編程語言,讓網(wǎng)絡爬蟲為自己服務。例如想買到理想的房子,就可爬取房產(chǎn)中介的公開信息,分析房源數(shù)據(jù)與趨勢以輔助決策。

網(wǎng)絡的本質(zhì)與價值在于連接,核心是實現(xiàn)數(shù)據(jù)的流動與分享。網(wǎng)絡爬蟲作為數(shù)據(jù)抓取的技術(shù)工具,通過爬行增強了網(wǎng)絡節(jié)點間的聯(lián)絡,提升了網(wǎng)絡的整體價值,是構(gòu)建互聯(lián)網(wǎng)開放與共享理念的重要技術(shù)基石。但網(wǎng)絡爬蟲所行之處,并非總是鮮花和掌聲,特別是涉及隱私領(lǐng)地和網(wǎng)絡安全之時。因此,為了規(guī)范爬蟲,維護網(wǎng)絡秩序,1994年誕生了“robots.txt協(xié)議”,該協(xié)議雖然只是一個“君子協(xié)議”,但它逐漸被視為網(wǎng)絡空間爬蟲技術(shù)應用公認的行業(yè)準則,也成為判定爬取行為是否獲得網(wǎng)站許可的主要依據(jù)。在2014年百度公司訴奇虎360違反robots協(xié)議案中,法院在判決時就認為,被告沒有遵守原告網(wǎng)站的robots協(xié)議,其行為明顯不當,應當承擔相應的不利后果。

科技異化:“好爬蟲”和“壞爬蟲”

科技本身是一種中立工具,向善向惡、合法與非法,關(guān)鍵在于使用者的選擇。原本通過robots協(xié)議,一方獲得了數(shù)據(jù)與信息,一方增加了流量與關(guān)注,皆大歡喜。但robots協(xié)議能防“君子”卻難防“小人”,有些爬蟲程序不遵守規(guī)則,隨心所欲地爬取別人不愿意分享的數(shù)據(jù)信息,并大量擠占服務器資源,變成了“網(wǎng)絡害蟲”。例如年來一些大數(shù)據(jù)風控公司利用爬蟲技術(shù),在網(wǎng)絡上非法收集用戶個人信息并轉(zhuǎn)賣給第三方,借以謀取經(jīng)濟利益。

網(wǎng)絡爬蟲設計的初衷是通過計算機技術(shù),自動為網(wǎng)站編纂索引,更新信息,為用戶提供高效的檢索服務。具有訪問、下載和解析(對數(shù)據(jù)進行分析與篩選)三種基本功能。目前,爬蟲作惡主要是對前兩種功能的異化,體現(xiàn)為三類作惡方式。

一是惡意抓取非授權(quán)數(shù)據(jù)。訪問數(shù)據(jù)是“網(wǎng)絡爬蟲”的行為起點,也是其價值本源,一些企業(yè)或個人為了經(jīng)濟利益或其他特殊目的,想方設法讓網(wǎng)絡爬蟲突破道德規(guī)則與技術(shù)障礙(網(wǎng)站“反爬蟲”措施),爬取未經(jīng)授權(quán)或超過授權(quán)范圍的數(shù)據(jù)。例如2018年2月至4月間,馬某通過編寫“爬蟲”程序,竊取手機應用及網(wǎng)站的用戶信息約20萬條,然后通過微信出售給他人,非法獲利共計2.4萬元,這種行為就構(gòu)成了侵犯公民個人信息罪。

二是惡意侵犯知識產(chǎn)權(quán)。一些網(wǎng)絡爬蟲在數(shù)據(jù)爬取過程中,未經(jīng)版權(quán)方的許可,就下載、復制或傳播文字、圖片和視頻等內(nèi)容,并以此獲利。通常形式是,爬蟲對具有版權(quán)歸屬的文學或影視作品等設置加框鏈接,吸引用戶點擊,然后通過售賣廣告等形式牟利。例如段某建立的“窩窩電影”網(wǎng)站,利用爬蟲技術(shù)對多家視頻網(wǎng)站的500余部影視作品設置了加框鏈接,吸引用戶點擊播放,并賺取廣告費100余萬元,這種行為就觸犯了著作權(quán)法。

三是惡意擾亂系統(tǒng)運行。網(wǎng)絡爬蟲訪問系統(tǒng)時,跟人工點擊原理一樣,因此當巨量爬蟲同時訪問某一網(wǎng)站時,就會占用大量的帶寬資源,造成服務器不堪重負甚至崩潰。業(yè)內(nèi)專家表示,2019年有40%的網(wǎng)絡流量來自爬蟲,其中20%來自惡意爬蟲,而且比例還將不斷上升。出行行業(yè)即是重災區(qū)。以中國鐵路“12306網(wǎng)站”為例,自2011年上線運營以來,春運期間多次出現(xiàn)因爬蟲(主要是搶票軟件)攻擊而無法訪問的情況。據(jù)統(tǒng)計,2018年春運期間,網(wǎng)站最高峰時1天內(nèi)頁面瀏覽量達813.4億次,其中90%是“爬蟲”所為。

合理規(guī)制,讓“爬蟲”向善向上

據(jù)統(tǒng)計,截至2020年12月,我國網(wǎng)民規(guī)模達9.89億。增強網(wǎng)絡空間治理,保障個人信息和數(shù)據(jù)安全,已成為重大的時代命題。

目前我國對網(wǎng)絡爬蟲的規(guī)制還沒有專門的法律法規(guī),主要依靠民法典、反不正當競爭法、著作權(quán)法、網(wǎng)絡安全法以及刑法中的相關(guān)法律條款。但從法律規(guī)制效果來看,情況不容樂觀。一方面是由于互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,以及網(wǎng)絡所具有的開放、虛擬和流動等特征,讓對違法犯罪行為的監(jiān)管和證據(jù)提取較為困難,特別是隨著數(shù)據(jù)抓取從網(wǎng)頁拓展至手機應用程序、小程序等移動端臺,抓取手段就更加復雜與隱蔽;另一方面是網(wǎng)絡世界和數(shù)字服務發(fā)展迅猛,法律法規(guī)還具有較大的滯后,司法實踐對網(wǎng)絡爬蟲技術(shù)濫用引發(fā)的法律問題缺乏足夠的司法經(jīng)驗,而相關(guān)的司法解釋亦未能予以足夠關(guān)注,難以形成有效規(guī)制。例如2017年今日頭條與新浪微博之間因“微頭條”業(yè)務同步“微博”發(fā)言內(nèi)容的糾紛案例,其實質(zhì)是數(shù)據(jù)權(quán)屬難以確定的問題。但由于缺乏明確的司法解釋指引,引發(fā)了實踐中的普遍爭議。

2019年5月,國家互聯(lián)網(wǎng)信息辦公室公布了《數(shù)據(jù)安全管理辦法(征求意見稿)》,該辦法專門針對利用網(wǎng)絡開展數(shù)據(jù)收集、存儲、傳輸、處理、使用等活動進行了規(guī)制,有望對網(wǎng)絡爬蟲等技術(shù)行為進行有效治理。該辦法強調(diào),國家堅持保障數(shù)據(jù)安全與發(fā)展并重,鼓勵研發(fā)數(shù)據(jù)安全保護技術(shù),積極推進數(shù)據(jù)資源開發(fā)利用,保障數(shù)據(jù)依法有序自由流動。這也提醒我們,網(wǎng)絡爬蟲等本質(zhì)上是順應數(shù)字經(jīng)濟發(fā)展需求而生,既要從法律層面高度重視,也要把握好法律規(guī)制的邊界,力求達到數(shù)據(jù)利用與合理規(guī)制之間的良衡,以便讓網(wǎng)絡技術(shù)更好地服務經(jīng)濟社會與人民生活,助推數(shù)字中國建設。

(作者:韓軼 聶晶,分別系中央民族大學法學院院長、教授,中央民族大學法學院犯罪防控研究中心研究員)

關(guān)鍵詞: 網(wǎng)絡爬蟲 科技異化 人工智能

最近更新

關(guān)于本站 管理團隊 版權(quán)申明 網(wǎng)站地圖 聯(lián)系合作 招聘信息

Copyright © 2005-2018 創(chuàng)投網(wǎng) - mallikadua.com All rights reserved
聯(lián)系我們:33 92 950@qq.com
豫ICP備2020035879號-12