起因
今天有一位头条的朋友问我,爬一个企业查查的数据。其实早就天眼查类似的做企业信息网站反爬手段更新换代特别严重,最核心的原因:企业数据就是这个平台的唯一核心。如果它的数据烂大街了,这个平台也毫无生存机会。下面我就详细的说说何为盗亦有道。
IT江湖中,爬虫的地位
爬虫就像《无间道》里黑帮卧底的真警察陈永仁一样,能一直存在不仅是因为超强的能力,还能让一些操作变得更加简单。我们可以把爬虫比喻潜藏在网络江湖里的“专业卧底”,但是为恶为善全凭使用者掌控,摇摆不定,唯一不可否认的是,整个大“江湖”都无法离开这个超级卧底。
1. 搜索引擎爬虫:搜索引擎爬虫是最常见的善意爬虫,在每个网站的更新过程中,最先感觉到该网站内容变化的都应当是这个庞大的搜索引擎,这个超大型爬虫会代替人工自动从各类网站爬取相关信息,并整理索引,将真正有价值的内容呈现在用户面前。同时,排名越靠前,该网站获得的流量越多,这也是某度始终去不掉竞价排名的核心(庞大的流量代表着的利益远超你我想象,即使饱受诟病多次出问题都改变不了,可想而知这里面究竟有多大的利益)。
2. 海量信息处理:很多大数据公司都是做这一块的,快速获取海量信息后,将海量信息进行专业化处理和分析归类,从而为各种各样的服务提供有利的数据支撑,用更多的数据信息样本来支持更准确的决策。
3.实现自动化:在网络工作中会遇到很多需要大量重复劳动的工作,比如你需要把海量的数据传入某个网站,你个人想抢个票,具有hack精神的人总会试图让一些事情变得更加简单,爬虫也应运而生(很多网站火车票汽车票都是这个原理)。我个人喜欢把那些能批量自动化完成一些WEB操作最终达到某种目的的程序,便属于广义上的“爬虫”。这样的爬虫代表着一种理念:技术改变生活,解放人力。
技术无罪
爬虫的另一面,则像在警察局做黑帮卧底的刘建明(《无间道》里刘德华扮演)。让我们简单来看看爬虫给我们的生活带来多大的不便:
各种网店的好评(据说电商行业有个:不刷就死,刷了还勉强能活的规矩),具体的我就不说了,难受。各种网络投票(技术实力足够且速度稍微慢点的爬虫你根本无从分辨是主动拉票还是爬虫在跑)微博和头条的各种粉(可怜我才300个粉。从技术程度识别太难,因为互联网行业用户流动率太大,且灰产隐蔽性很强)电商平台的拉新红包和各种节日的大型优惠券(就说以前的小米手机吧,可是个“好生意”)技术是无罪的,但是上面这些很难构成犯罪,因为控制爬虫成本太高,和对各个平台影响不大(很多平台凭点击收费的,谁TM知道是人还是爬虫呢?可能平台还想多点爬虫,至少可以宣称:10亿用户大平台)。
盗亦有道
这里是我最想给初学的或者想从事一些擦边球生意的人的建议:盗亦有道。何为盗亦有道,你爬来的数据或者产生的行为让数据源很难生存那你就需要考虑一下你的行为是否恰当了。反爬这块各种第三方工具(有谁了解过极验有多少套验证码吗?),且不说第三方,就说网站开发一个很难的验证码也并不是难事,你能爬并不代表你数据多牛,而是网站运营需要让正常用户使用,才把验证码难度调低。例如这次的企业查查,如果核心产品企业数据被你拿到了,如果你拿去商用,那么这个平台就白做了。如果你让别人都活不下来,那么你估计也很快就要死了(这是一个做灰产的大佬跟我说的一句处世格言。)。当我们试图用技术去创造价值的时候,不要为了利益去用这种不正当手段去极大伤害别人,不然你会发现你的技术什么都不是(互联网是透明的,至少现在是)。最后说一句真正有智慧有技术的人都会盗亦有道,以和为贵。
还是美女图
还没有评论,来说两句吧...