以 OTA 为例,看爬虫和反爬虫大战现状

作者/分享人:携程技术微分享
向 Ta 提问
携程技术中心官方账号,与爱学习的小伙伴一起分享携程一线实战经验~

随着大数据与机器学习的兴起,数据成了大家关注的重点。因此,爬虫成了小公司的命脉,反爬虫成了大公司的命脉。OTA 是爬虫的一大战场,希望从这里能让大家看出,这个不阳光的行业,现状是怎样的。

实录提要:

  • 如何分析爬虫请求和正常用户;
  • 爬虫在识别的时候怎么识别是否是同一个商品;
  • 怎么保证返回的错误数据没影响到用户呢;
  • 爬虫可能是亿级别的商品数据,如何判断页面的数据有没有变更;
  • 作者的爬虫是基于正则表达式实现的吗;
  • 怎么判断异地登录是正常的用户行为还是爬虫行为;
  • 专业做爬虫技术路线是怎样的;
  • 如何防止被爬取的网址限制 IP,用一个IP池不停的换 IP 吗;
  • 你们的反爬虫是怎么架构的;
  • 开发爬虫什么语言做好;
  • 针对 App 反爬虫来说,HTTPS 双向认证的方式是不是爬虫就没办法破解了;
  • 如果说反爬虫是一个独立的项目,是否一个开关是否打开反爬虫?
已有330人预订
预订达标
文章出炉
交流日期
     
17.04.14
17.04.27
17.05.04 20:30
查看文章评论/提问
IT民工
写的不错,很强👍
更好的明天
赞👍
唐鹏涛
搞爬虫一年 真的很懂你说的这些 懂你
思过崖
诙谐幽默,写的很形象生动
唐鹏涛
你们是怎么分析爬虫请求和正常用户 因为爬虫可以通过破解验证码,动态代理等这种方式避免风控,国内的网络环境也比较复杂 如果你限制每一个ip请求速率,也会影响真正用户的访问
唐鹏涛
在爬取竞争对手的商品数据,会做一些价格的对比,请问爬虫在识别的时候怎么识别是否是同一个商品。
唐鹏涛
爬虫可能是亿级别的商品数据,你们是怎么判断页面的数据有没有变更,另外爬取的时候会结构化对方的数据,如果对方的标签,位置发生变化了。就会导致爬虫客户端爬取不了。你们是怎么监控和发现对方的页面变更了呢
pavle_yao
本人刚毕业,身边很少有人专业做爬虫。企业对这方面需求大吗,还是很多只是兼职?专业做爬虫技术路线是怎样的?
邓奕
这么看来,优秀的爬虫er得是全栈工程师啊
王永涛
写爬虫用什么语言好呢?最厉害的PHP么
浣溪沙
作者写作手法满分
337845818
很强。。。
你可能还喜欢
解读《阿里巴巴 Java 开发手册》背后的思考
Hollis
LeetCode 刷题指南以及常见算法题解题思路总结
kerry
初探 Kafka
阿福
大数据开发面试指南
王知无
高并发系统缓存实战入门
饿了么物流技术团队
7 天从 Java 工程师转型为 Go 工程师
DIU哥
微信扫描登录
关注提示×
扫码关注公众号,获得 Chat 最新进展通知!