综合

合理规制、加强规范 不让网络爬虫变“害虫”

近年来,随着移动互联、人工智能、大数据、云计算等新技术的迅速发展与普及应用,人们的工作、交往和生活方式都发生了深刻变化,数据成为驱动社会发展的新型生产要素、各行各业增强竞争力的重要源泉。但在大数据收集过程中,也存在着各种违法犯罪问题。网络爬虫(Web Crawler)作为一种能快速精准地获取数据信息的基础性网络技术,近年来得到了越来越多的青睐和应用。如何对其进行规制,驱动其向好向善,成为当前重要的法治议题。

“小爬虫”的“大角色”

网络爬虫,又称为“网页蜘蛛”“网络机器人”,是一种按照一定的规则,自动抓取网络信息的程序或者脚本。它能在特定程序的驱动下,模仿人工点击从网站、手机应用、小程序或搜索引擎中检索、提取、存储数据。我们可以形象地将它们理解为一种爬行在网络上的蜘蛛,它们根据程序的指令,通常沿着URL(网址)这根蛛丝,在互联网这张大网上爬来爬去,寻找和带回所需要的数据资源。我们熟知的百度、搜狗、谷歌等搜索引擎,其技术核心元素之一就是“网络爬虫”。例如百度蜘蛛,它通过互联网入口爬取网页,实时存储并更新索引,然后为用户提供检索服务。

自从1993年第一个网络爬虫程序——“互联网漫游者”被开发出来,网络爬虫这种便捷高效的搜索技术便得到了业界关注。特别是随着数据资源的爆炸式增长,网络爬虫的应用场景也变得越发广泛与多元,长期活跃于市场调查、产品研发、金融分析、舆情监控、风险预测等领域。近年来,一些运用爬虫技术为客户提供数据服务的互联网企业,也获得了快速发展。对个人而言,我们可以利用爬虫软件等计算机编程语言,让网络爬虫为自己服务。例如想买到理想的房子,就可爬取房产中介的公开信息,分析房源数据与趋势以辅助决策。

网络的本质与价值在于连接,核心是实现数据的流动与分享。网络爬虫作为数据抓取的技术工具,通过爬行增强了网络节点间的联络,提升了网络的整体价值,是构建互联网开放与共享理念的重要技术基石。但网络爬虫所行之处,并非总是鲜花和掌声,特别是涉及隐私领地和网络安全之时。因此,为了规范爬虫,维护网络秩序,1994年诞生了“robots.txt协议”,该协议虽然只是一个“君子协议”,但它逐渐被视为网络空间爬虫技术应用公认的行业准则,也成为判定爬取行为是否获得网站许可的主要依据。在2014年百度公司诉奇虎360违反robots协议案中,法院在判决时就认为,被告没有遵守原告网站的robots协议,其行为明显不当,应当承担相应的不利后果。

科技异化:“好爬虫”和“坏爬虫”

科技本身是一种中立性工具,向善向恶、合法与非法,关键在于使用者的选择。原本通过robots协议,一方获得了数据与信息,一方增加了流量与关注,皆大欢喜。但robots协议能防“君子”却难防“小人”,有些爬虫程序不遵守规则,随心所欲地爬取别人不愿意分享的数据信息,并大量挤占服务器资源,变成了“网络害虫”。例如近年来一些大数据风控公司利用爬虫技术,在网络上非法收集用户个人信息并转卖给第三方,借以谋取经济利益。

网络爬虫设计的初衷是通过计算机技术,自动为网站编纂索引,更新信息,为用户提供高效的检索服务。具有访问、下载和解析(对数据进行分析与筛选)三种基本功能。目前,爬虫作恶主要是对前两种功能的异化,体现为三类作恶方式。

一是恶意抓取非授权数据。访问数据是“网络爬虫”的行为起点,也是其价值本源,一些企业或个人为了经济利益或其他特殊目的,想方设法让网络爬虫突破道德规则与技术障碍(网站“反爬虫”措施),爬取未经授权或超过授权范围的数据。例如2018年2月至4月间,马某通过编写“爬虫”程序,窃取手机应用及网站的用户信息约20万条,然后通过微信出售给他人,非法获利共计2.4万元,这种行为就构成了侵犯公民个人信息罪。

二是恶意侵犯知识产权。一些网络爬虫在数据爬取过程中,未经版权方的许可,就下载、复制或传播文字、图片和视频等内容,并以此获利。通常形式是,爬虫对具有版权归属的文学或影视作品等设置加框链接,吸引用户点击,然后通过售卖广告等形式牟利。例如段某建立的“窝窝电影”网站,利用爬虫技术对多家视频网站的500余部影视作品设置了加框链接,吸引用户点击播放,并赚取广告费100余万元,这种行为就触犯了著作权法。

三是恶意扰乱系统运行。网络爬虫访问系统时,跟人工点击原理一样,因此当巨量爬虫同时访问某一网站时,就会占用大量的带宽资源,造成服务器不堪重负甚至崩溃。业内专家表示,2019年有近40%的网络流量来自爬虫,其中20%来自恶意爬虫,而且比例还将不断上升。出行行业即是重灾区。以中国铁路“12306网站”为例,自2011年上线运营以来,春运期间多次出现因爬虫(主要是抢票软件)攻击而无法访问的情况。据统计,2018年春运期间,网站最高峰时1天内页面浏览量达813.4亿次,其中近90%是“爬虫”所为。

合理规制,让“爬虫”向善向上

据统计,截至2020年12月,我国网民规模达9.89亿。增强网络空间治理,保障个人信息和数据安全,已成为重大的时代命题。

目前我国对网络爬虫的规制还没有专门的法律法规,主要依靠民法典、反不正当竞争法、著作权法、网络安全法以及刑法中的相关法律条款。但从法律规制效果来看,情况不容乐观。一方面是由于互联网技术的快速发展,以及网络所具有的开放性、虚拟性和流动性等特征,让对违法犯罪行为的监管和证据提取较为困难,特别是随着数据抓取从网页拓展至手机应用程序、小程序等移动端平台,抓取手段就更加复杂与隐蔽;另一方面是网络世界和数字服务发展迅猛,法律法规还具有较大的滞后性,司法实践对网络爬虫技术滥用引发的法律问题缺乏足够的司法经验,而相关的司法解释亦未能予以足够关注,难以形成有效规制。例如2017年今日头条与新浪微博之间因“微头条”业务同步“微博”发言内容的纠纷案例,其实质是数据权属难以确定的问题。但由于缺乏明确的司法解释指引,引发了实践中的普遍争议。

2019年5月,国家互联网信息办公室公布了《数据安全管理办法(征求意见稿)》,该办法专门针对利用网络开展数据收集、存储、传输、处理、使用等活动进行了规制,有望对网络爬虫等技术行为进行有效治理。该办法强调,国家坚持保障数据安全与发展并重,鼓励研发数据安全保护技术,积极推进数据资源开发利用,保障数据依法有序自由流动。这也提醒我们,网络爬虫等本质上是顺应数字经济发展需求而生,既要从法律层面高度重视,也要把握好法律规制的边界,力求达到数据利用与合理规制之间的良性平衡,以便让网络技术更好地服务经济社会与人民生活,助推数字中国建设。

(作者:韩轶 聂晶,分别系中央民族大学法学院院长、教授,中央民族大学法学院犯罪防控研究中心研究员)

【责任编辑:欧阳雪】

假期首日武铁再破纪录 预计发送旅客122万人次左右

五一假期首日,铁路迎来旅客出行高峰,中国铁路武汉局集团有限公司(以下简称“武铁”)实行高峰线运行图,增开357列始发旅客列车,预计发送旅客122万人次左右,将创同期历史新高,其中汉口站、武汉站预计分别发送旅客24.6万、19.8万人次,也将均刷新同期纪录。

京榕联动共探基层治理新路径 北京考察团点赞鼓楼“慈善创新”

4月30日,由北京市副市长孙硕带队的考察团一行专程莅临福建省福州市鼓楼区,聚焦社区慈善幸福公益基金、社区慈善专员两大慈善创新项目开展专题调研。省、市、区等各级相关领导,鼓楼区民政局、区慈善总会相关负责人汇聚现场,共同参加调研活动,深入探讨基层慈善创新发展路径。考察团一行深入基层调研点,实地察看了鼓楼区安泰街道社区养老服务照料中心、鼓东街道树兜幸福里及慈善

铭记八秩荣光传承红色基因 齐齐哈尔市开展解放80周年系列纪念活动

1946年4月24日,齐齐哈尔正式宣告解放,成为全国首个获得解放的省会城市。今年4月,齐齐哈尔市相继举办座谈会、群众性文艺展演、中小学研学、主题图片展、主题征文等系列活动,跨越时空重温峥嵘岁月,凝聚全市人民奋进新征程的磅礴力量,向齐齐哈尔解放80 周年、中国共产党成立105周年献上深情礼赞。座谈忆初心,共话传承志。4月24日,齐齐哈尔解放

全民国家安全教育日 | 新疆:戈壁万镜阵列“书写”国安誓言,机器人宣讲员上岗国门

从帕米尔高原的边境国门到天山天池的绿水青山,从哈密戈壁的光热电站到首府乌鲁木齐的现代化国际机场,一场以“统筹发展和安全 护航‘十五五’新征程”为主题的全民国家安全教育热潮席卷天山南北。戈壁万镜阵列:“国家安全 人人有责”在天际书写4月15日清晨,哈密戈壁腹地,朝

“AI魔改”视频专项治理成效显著,累计清理违规视频超5.2万条

主要网络视听平台累计清理相关违规视频近2.9万条、处置违规账号40余个。加上专项治理阶段清理的2.3万余条违规视频和100余个违规账号,两阶段累计清理违规视频超5.2万条、处置违规账号140余个,“AI魔改”乱象蔓延势头得到有效遏制

149亿!青藏铁路电气化配套工程开工

近日,青藏铁路电气化外电配套工程(西藏段)举行建设动员大会,标志着这一承载国家战略使命的重大工程正式进入全面开工阶段。据介绍,今年是青藏铁路通车20周年。

农业农村部部署2026年“绿剑护粮安”执法行动

严厉打击坑农害农、危害粮食安全和农产品质量安全的违法行为,不仅剑指传统的制假售假,更将监管触角延伸至短视频平台等新型销售领域,全力守护群众“舌尖上的安全” 。从“被动查处”转

齐齐哈尔:热血新兵启征程 共筑强军强国梦

一批经严格选拔、怀揣报国理想的新兵,身着崭新迷彩、胸佩鲜艳红花,带着家乡人民的嘱托与期望,即将奔赴祖国各地,开启光荣的军旅征程。火车站内,“参军入伍 无上光荣”的横幅格外醒目。即将入伍的新兵们军容严整、精神抖擞,稚嫩的

2026春运落幕:武铁共发送旅客2570.96万人次 装运货物979万吨

据中国铁路武汉局集团有限公司(以下简称“武铁”)消息,自2月2日至3月13日,为期40天的2026年铁路春运圆满收官,武铁共发送旅客2570.96万人次,日均发送64.27万人次,同比增长3.1%,其中2月23日发送旅客103.4万人次,创建局以来春运单日旅客发送人数新高;累计发送货物979万吨,同比增长2.1%;多项运输指标创历史最好水

中办国办《关于加快革命老区振兴发展的意见》

以培育壮大特色优势产业为关键抓手,以推进新型城镇化建设为重要突破口,加快补齐基础设施和公共服务短板,增强教育科技人才支撑,传承弘扬红色文化,优化完善政策支持体系,把革命老区建设得更好,让革命老区人民过上更好生活。

整治“大字吸睛、小字免责” 市场监管总局启动半年广告清理行动

重点打击“大字吸睛、小字免责”“随意宣称第一、首创”“萝卜坑式引证”等误导消费者的营销手段。六项重点任务直击广告乱象《通知》明确了此次清理整治的六方面重点任务:一是整治“误导性大小字”广告。针对部分经营者在广告中采用“大字吸睛、小字免责”的手法,在着力突出商品或

阔步向前启新程 接续奋斗谱新篇 - 2026年全国两会巡礼

这是一次凝心聚力、真抓实干、团结奋进的大会,出席会议的代表委员担当进取、同心同德、全力以赴,审议审查和讨论“十五五”规划纲要草案、政府工作报告等各项报告、三部法律草案,传递信心力量,奏响时代强音。

三月春“锋”暖 辽科大师生以多样实践续写新时代雷锋故事

从启动仪式到基层实践,从榜样引领到青年行动,师生携手传承雷锋精神,让红色基因在新时代校园焕发新活力。辽宁科技大学坐落于雷锋曾工作生活的鞍山,建校70余年来,学校党委始终将思想政治教育与地域英模资源深度融合,构建“钢铁是怎样炼成的”育人体系。从上世纪

新春走基层 | 她让微笑温暖每一位旅客的心

记中国铁路沈阳局集团有限公司大连客运段乘务员朱辉的事迹。“看到你们每个人始终面带微笑,忙前忙后为我们服务,心里特别温暖,感觉雷锋精神就在我们身边、近在眼前。”“雷锋精神一直影响着我,我也想把这份精神好好传承下去,让每一位乘车的旅客都能感受到铁路人的真诚与温暖。”3月5日,在大连至合肥的 K715 次列车上,旅客张女士与列车员朱辉的这段暖心对话,让整

新春走基层 | 千里铁道铸初心 雷锋精神永相传

记吉林至北京K95/6次“雷锋号”列车。“一上车,仿佛走进了雷锋纪念馆。”3月4日,乘坐吉林至北京K95/96次列车的旅客林先生发出的由衷感慨。在他眼中,车厢内雷锋的语录、记录着雷锋生前做好事的画面历历在目,而列车工作人员的热情服务,更让他感觉“雷锋就在眼前”。

新春走基层|温情旅途庆佳节 武铁站车联动闹元宵

元宵佳节,中国铁路武汉局集团有限公司以下简称(“武铁”)在G6818、D5803等10多趟列车和汉口、武汉、荆门西、襄阳等车站,同步开展“站车联动欢度元宵”文化活动,文艺表演、非遗展示、猜灯谜、送汤圆送祝福等,让旅客享受温馨美好的节日旅途。在十堰东站开往汉口站的G6818次列车上,襄阳客运段襄阳高铁乘务车间列车长沈向红与旅客热情互动。飞驰的高
返回
顶部