随着大数据与机器学习的兴起,数据成了大家关注的重点。因此,爬虫成了小公司的命脉,反爬虫成了大公司的命脉。OTA 是爬虫的一大战场,希望从这里能让大家看出,这个不阳光的行业,现状是怎样的。
实录提要:
- 如何分析爬虫请求和正常用户;
- 爬虫在识别的时候怎么识别是否是同一个商品;
- 怎么保证返回的错误数据没影响到用户呢;
- 爬虫可能是亿级别的商品数据,如何判断页面的数据有没有变更;
- 作者的爬虫是基于正则表达式实现的吗;
- 怎么判断异地登录是正常的用户行为还是爬虫行为;
- 专业做爬虫技术路线是怎样的;
- 如何防止被爬取的网址限制 IP,用一个IP池不停的换 IP 吗;
- 你们的反爬虫是怎么架构的;
- 开发爬虫什么语言做好;
- 针对 App 反爬虫来说,HTTPS 双向认证的方式是不是爬虫就没办法破解了;
- 如果说反爬虫是一个独立的项目,是否一个开关是否打开反爬虫?