保存成功
订阅成功
保存失败,请重试
提交成功

以OTA为例,看爬虫和反爬虫大战现状

携程技术中心官方账号,与爱学习的小伙伴一起分享携程一线实战经验~
查看本场Chat

前言

爬虫与反爬虫,是一个很不阳光的行业。

这里说的不阳光,有两个含义。

第一,这个行业是隐藏在地下的,一般很少被曝光出来。很多公司对外都不会宣称自己有爬虫团队,甚至隐瞒自己有反爬虫团队的事实。这可能是出于公司战略角度来看的,与技术无关。

第二,这个行业并不是一个很积极向上的行业。很多人在这个行业摸爬滚打了多年,积攒了大量的经验,但是悲哀的发现,这些经验很难兑换成闪光的简历。面试的时候,因为双方爬虫理念或者反爬虫理念不同,也很可能互不认可,影响自己的求职之路。本来程序员就有“文人相轻”的倾向,何况理念真的大不同。

然而这就是程序员的宿命。不管这个行业有多么的不阳光,依然无法阻挡大量的人进入这个行业,因为有公司的需求。

那么,公司到底有什么样的需求,导致了我们真的需要爬虫/反爬虫呢?

反爬虫很好理解,有了爬虫我们自然要反爬虫。对于程序员来说,哪怕仅仅是出于“我就是要证明我技术比你好”的目的,也会去做。对于公司来说,意义更加重大,最少,也能降低服务器负载,光凭这一点,反爬虫就有充足的生存价值。

那么爬虫呢?

最早的爬虫起源于搜索引擎。搜索引擎是善意的爬虫,可以检索你的一切信息,并提供给其他用户访问。为此他们还专门定义了robots.txt文件,作为君子协定,这是一个双赢的局面。

然而事情很快被一些人破坏了。爬虫很快就变的不再“君子”了。

后来有了“大数据”。无数的媒体鼓吹大数据是未来的趋势,吸引了一批又一批的炮灰去创办大数据公司。这些人手头根本没有大数据,他们的数据只要用一个U盘就可以装的下,怎么好意思叫大数据呢?这么点数据根本忽悠不了投资者。于是他们开始写爬虫,拼命地爬取各个公司的数据。很快他们的数据,就无法用一个U盘装下了。这个时候终于可以休息休息,然后出去吹嘘融资啦。

然而可悲的是,大容量U盘不断地在发布。他们总是在拼命地追赶存储增加的速度。

互动评论
评论
3378458186 年前
很强。。。
评论
浣溪沙6 年前
作者写作手法满分
评论
王永涛6 年前
写爬虫用什么语言好呢?最厉害的PHP么
评论
邓奕6 年前
这么看来,优秀的爬虫er得是全栈工程师啊
评论
pavle_yao6 年前
本人刚毕业,身边很少有人专业做爬虫。企业对这方面需求大吗,还是很多只是兼职?专业做爬虫技术路线是怎样的?
评论
唐鹏涛6 年前
爬虫可能是亿级别的商品数据,你们是怎么判断页面的数据有没有变更,另外爬取的时候会结构化对方的数据,如果对方的标签,位置发生变化了。就会导致爬虫客户端爬取不了。你们是怎么监控和发现对方的页面变更了呢
评论
唐鹏涛6 年前
在爬取竞争对手的商品数据,会做一些价格的对比,请问爬虫在识别的时候怎么识别是否是同一个商品。
评论
唐鹏涛6 年前
你们是怎么分析爬虫请求和正常用户 因为爬虫可以通过破解验证码,动态代理等这种方式避免风控,国内的网络环境也比较复杂 如果你限制每一个ip请求速率,也会影响真正用户的访问
评论
思过崖6 年前
诙谐幽默,写的很形象生动
评论
唐鹏涛6 年前
搞爬虫一年 真的很懂你说的这些 懂你
评论
更好的明天6 年前
赞👍
评论
IT民工6 年前
写的不错,很强👍
评论
查看更多