使用 Selenium 实现万能的爬虫

作者/分享人:码匠笔记
向 Ta 提问
先后就职于 ThoughtWorks、阿里巴巴和多家创业公司,现就职于一线互联网公司。业余时间会运营自己的微信公众号 “码匠笔记”,喜欢研究和发布各种开源小程序,对技术、开源和社区充满着热情。

在 SPA 时代,我们在爬取网页数据的时候,大部分是可以通过分析页面请求地址来分页抓取数据的,但有一部分是非 SPA 网站,有的是采用了加密或混淆等技术很难通过请求识别出。

本 Chat 主要目的是通过 Selenium 解决这一难题,无论你页面是通过按钮翻页,还是到底部自动加载。Selenium 都可以很好的解决。任何网站都可以抓取,因为它可以模拟人操作页面。

本 Chat 内容包括:

  1. Selenium 是什么;
  2. 安装 Selenium;
  3. 安装 WebDriver;
  4. 基础按钮点击,文本获取,输入框写入实践讲解;
  5. 登录模拟;
  6. 分页获取数据;
  7. 操作iframe;
  8. 模拟页面滚动到尾部;
  9. 异常截屏;
  10. 源码和答疑。
已有185人预订
预订达标
文章出炉
     
01月02日
01月21日
预订后,您将在01月21日之前获得一篇专享文章,您还将获得一张码匠笔记的读者圈Pass
请务必添加GitChat服务号以查看活动进度及获取活动通知。
退款保证:
• 01月02日前,预订人数未达标,您将获得全额退款。
• 作者未按时完成文章,您将获得全额退款。
你可能还喜欢
你不得不了解的 Flutter 入门教程
火币集团研发中心
渗透测试入门指南与路线规划
程序员-玄魂
微服务演进中的经验和反思
顾宇
漫谈函数式编程:聊聊 OCaml
梦鸽
程序员怎样提高项目管理意识
伊伊
跨年之作:谈谈如何进行 Java 系统性能优化
应书澜
MyBatis 枚举全面使用指南
逆流而上/isea533
JDK8 Lambda 表达式&Stream
追梦
亿万级即时通信架构浅谈
横竖撇折点
文件读取、解析、入库,究竟可以多快?
文心紫竹
Web 安全中的业务安全战争
肖志华
重构代码之美
哈比
Elasticsearch 索引设计实战指南
铭毅天下
业务系统代码实现服务的并行请求,提高程序的处理性能
白公
有关微服务的简介和经验分享
Yang
微信扫描登录