爬虫在互联网上留下脚印？_小言_互联网的博客

爬虫在互联网上留下脚印？

2021-04-03 13:29 873人阅读评论(0)

利用抢票软件购买火车票，去比价平台看各家报价，购物前先看看网友留言，置身互联网时代，这些或许再普通不过的生活场景，实际上背后都有一个绕不开的技术，叫做“爬虫”。
　　爬虫，是一种“自动化浏览网络”的程序，在互联网上变出万千隐形分身，造访各个网站，辛勤地做着信息的誊写者和搬运工，就像一只虫子在一幢楼里不知疲倦地爬来爬去。最早应用这类技术的是搜索引擎，为的是给用户提供更快更精准的搜索结果。然而近年来，随着技术发展，爬虫不仅游弋到互联网金融、电商、社交等等更加枝蔓的树藤上，也在不断进化自身的能力。获取网站数据、监控同类商品价格、甚至模仿人类行为点赞留言、输入验证码，身手越来越敏捷的爬虫在互联网上可谓无孔不入。
　　客观来说，在帮助人们从海量信息中快速获取有效信息方面，爬虫技术功不可没，但也给互联网笼罩上真假难辨的迷雾。程序员界有一句话，整个互联网50%以上的流量其实来自于“爬虫”。也就是说，互联网上的大量点击、浏览行为来源于爬虫，而非人类。有人说互联网世界里，“你永远不知道屏幕后面坐的是一个人还是一条狗”，如今可能还要加上一条，“你永远不知道互联网上的那只脚印是人还是虫留下的”。
　　爬虫也分善恶，恶意的爬虫往往让被爬的网站浑身不自在，自从爬虫诞生的那一刻起，反爬的战争就无可避免。比如爬虫最爱光顾的出行领域，据了解，89.2%的流量冲着12306订票网站而去，不仅给网站服务器造成巨大压力，也扰乱了正常的订票秩序。“请在王珞丹和白百何中选出所有的白百何”“请点击下图中所有的郭敬明”，近年来12306订票网站的图形验证码备受吐槽，它的设计初衷恰恰是为了防止恶意爬虫刷票。再比如一些聚合电商、比价平台自动把各大电商的商品扒下来，这可不是出于好心帮助卖货，而是为了分夺流量这杯羹，正因如此，一些电商不断升级应用防火墙，把爬虫挡在门外。
　　如果说爬虫与反爬虫是围绕利益的争夺战，那么对我们普通人来说，最应该关心的是，面对恶意爬虫，如何保护个人隐私不被窃取。几年前，就曾有互联网公司因为违规使用爬虫技术而对簿公堂，未经允许、擅自抓取、违规复制，极有可能导致用户信息泄露。今天，网络场景应用早已成为日常生活的一部分，我们的身份信息、消费账单、人脉关系通过爬虫技术都不难被获取，一篇报道就曾经解密数据公司，是如何利用爬虫获取用户在社交软件上的行为轨迹，进而绘制出完整的用户画像，进行隐私贩卖。凡此种种，违背了互联网的宗旨，更触犯法律的底线。
　　实际上，爬虫技术诞生之初，就有过“君子协定”，约定了禁爬的区域、隐私的保障，但当爬虫与利益勾连得越来越紧密时，这些协定能否维持下去?当前堵截互联网上密密麻麻、行踪诡谲的恶意爬虫，如果只是依靠“魔高一尺、道高一丈”的技术竞速，又何时是个尽头?由此来看，破除爬虫使用上的乱象、让技术造福用户，一方面需要重申互联网规则，将多维交织的行业规则化为身体力行的从业守则，减少市场主体恶意使用爬虫技术的情况;另一方面也需要治理跟上发展的脚步，用制度和法规划出技术应用的合理轨道，避免技术发展中方向走偏、价值走失。
文章部分内容源于网络，联系侵删*

转载：https://blog.csdn.net/zhimaHTTP/article/details/113726010

查看评论

小言_互联网的博客

小言_互联网的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章

爬虫在互联网上留下脚印？

* 以上用户言论只代表其个人观点，不代表本网站的观点或立场