马蜂窝陷抄袭点评丑闻 2018年10月20日,一篇《独家|估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的文章一出世便走红网络。文中称百亿体量的马蜂窝,其中2100万条“真实点评”中有1800万条是通过机器人从大众点评和携程等竞争对手抄袭而来。通过语义分析、数据挖掘,发现了7454个抄袭账号,平均每个账号抄袭搬运了数千条点评,合计抄袭572万条餐饮点评和1221万条酒店点评,占官网声称点评数85%。 马蜂窝回应称,点评内容在马蜂窝整体数据量中仅占比2.91%,涉嫌虚假点评的账号数量更是微乎其微,并已经进行清理。但恐怕已无法洗脱自己存在爬虫行为的嫌疑。
我国逐渐重视对网络爬虫的法律规制 在2019年5月28日国家互联网信息办公室发布的《数据安全管理办法(征求意见稿)》第十六条中首次出现了对网络爬虫规制的法律条文。
在回答这个问题之前,首先应当明确网络爬虫是什么?
网络爬虫就如同一只小蚂蚁,它的作用是搜集网页上的信息或数据,然后把搜集到的信息或数据搬运到小窝(数据库)里。所以爬虫不生产数据,它只是搬运数据。
而网络爬虫又分为善意爬虫和恶意爬虫,搜索引擎的爬虫就属于善意爬虫,比如百度搜索引擎的爬虫叫做百度蜘蛛(Baiduspider)。善意爬虫严格遵守Robots协议规范爬取网页数据(如URL),它的存在能够增加网站的曝光度,给网站带来流量。
与之相对的是恶意爬虫,它无视Robots协议,对网站中某些深层次的、不愿意公开的数据肆意爬取,其中不乏个人隐私或者商业秘密等重要信息。并且恶意爬虫的使用方希望从网站多次、大量的获取信息,所以其通常会向目标网站投放大量的爬虫。如果大量的爬虫在同一时间对网站进行访问,很容易导致网站服务器过载或崩溃,造成网站经营者的损失。
注:Robots协议属于典型的“君子协议”,它的目的是告知网络爬虫的编写者,哪些数据是可以被收集的,哪些数据是不能被收集的,但是如果网络爬虫程序的编写者不遵守Robots协议,想要强行爬去网站的数据时,Robots协议从技术上是无法阻止程序对越过协定爬取协议中不允许爬取的数据的。
据统计,我国2017年互联网流量有42.2%是由网络机器人创造的,其中恶意机器(主要为恶意爬虫)流量占到了21.80%。
(数据来源:腾讯安全云鼎实验室)
在出行领域,恶意爬虫的主要目标是12306网站。我们日常使用的很多抢票软件上的票务信息就是由恶意爬虫不断的爬取12306网站的信息而来的。它们对12306网站的票务信息进行暴力爬取,不断的对网站提出刷新请求,于是12306网站时常因负载过大而崩溃,对我们的网络购票造成了严重的影响。
在社交领域,恶意爬虫的主要目标是在各类点评App及网站,前文所述的“马蜂窝抄袭点评”就是恶意爬虫应用在点评方面最好的例证。
而在电商领域,我们熟知的价格比对平台就是通过爬虫爬取诸如淘宝、京东等大型电商的商品价格数据,之后将数据整合,放在比对网站上供用户对比。
(数据来源:腾讯安全云鼎实验室)
1.侵犯著作权
恶意爬虫会爬取某些网站(尤其是小说网站)上的文章、图片等信息,并将爬取到的文章或图片发布在自己的网站上以此获利,此种方式可能侵犯著作权中的信息网络传播权。例如我们在各类盗版网站中搜索到的小说或文章,就是盗版网站的运营方通过恶意爬虫从版权方网站所爬取的内容。
除开公司使用的爬虫之外,还有很多个人使用的爬虫,例如毕业年级的大学生为了搜集论文所需的各类数据,但是依靠人工搜集的方法费时费力,此时他们可能会使用爬虫帮助他们进行搜集。相对于公司的爬虫来说,个人对于爬虫的使用更为随意,他们中的大多数都不会遵守网站的Robots协议,而是根据自己的需求进行暴力爬取,这同样会引起著作权侵权问题。
2.侵犯商业秘密
如果恶意爬虫在爬取信息的过程中,无视网站经营者设置的Robots协议及各类保护措施,接触、保存甚至披露了一般用户无法访问的信息,而该信息又构成商业秘密,则恶意爬虫的行为存在侵犯他人商业秘密的可能。
3.侵犯个人隐私或个人信息