保存成功
订阅成功
保存失败,请重试
提交成功

以 OTA 为例,看爬虫和反爬虫大战现状

¥5会员免费看
携程技术微分享
4.5
严选 Chat了解严选标准

随着大数据与机器学习的兴起,数据成了大家关注的重点。因此,爬虫成了小公司的命脉,反爬虫成了大公司的命脉。OTA 是爬虫的一大战场,希望从这里能让大家看出,这个不阳光的行业,现状是怎样的。

实录提要:

  • 如何分析爬虫请求和正常用户;
  • 爬虫在识别的时候怎么识别是否是同一个商品;
  • 怎么保证返回的错误数据没影响到用户呢;
  • 爬虫可能是亿级别的商品数据,如何判断页面的数据有没有变更;
  • 作者的爬虫是基于正则表达式实现的吗;
  • 怎么判断异地登录是正常的用户行为还是爬虫行为;
  • 专业做爬虫技术路线是怎样的;
  • 如何防止被爬取的网址限制 IP,用一个IP池不停的换 IP 吗;
  • 你们的反爬虫是怎么架构的;
  • 开发爬虫什么语言做好;
  • 针对 App 反爬虫来说,HTTPS 双向认证的方式是不是爬虫就没办法破解了;
  • 如果说反爬虫是一个独立的项目,是否一个开关是否打开反爬虫?
458 人已订阅
会员免费看
¥5 原价订阅
关注提示×
扫码关注公众号,获得 Chat 最新进展通知!
入群与作者交流×
扫码后回复关键字 入群
Chat·作者交流群
入群码
该二维码永久有效
严选标准
知道了
Chat 状态详情
开始预订
预订结果公布17.04.21

预订达标,作者开始写作

审核未达标,本场 Chat 终止

作者文章审核结果公布17.04.28

审核达标,文章发布

审核未达标,本场 Chat 终止

Chat 完结
×
已购列表