使用 Selenium 实现万能的爬虫

作者/分享人:码匠笔记
向 Ta 提问
先后就职于 ThoughtWorks、阿里巴巴和多家创业公司,现就职于一线互联网公司。业余时间会运营自己的微信公众号 “码匠笔记”,喜欢研究和发布各种开源小程序,对技术、开源和社区充满着热情。

在 SPA 时代,我们在爬取网页数据的时候,大部分是可以通过分析页面请求地址来分页抓取数据的,但有一部分是非 SPA 网站,有的是采用了加密或混淆等技术很难通过请求识别出。

本 Chat 主要目的是通过 Selenium 解决这一难题,无论你页面是通过按钮翻页,还是到底部自动加载。Selenium 都可以很好的解决。任何网站都可以抓取,因为它可以模拟人操作页面。

本 Chat 内容包括:

  1. Selenium 是什么;
  2. 安装 Selenium;
  3. 安装 WebDriver;
  4. 基础按钮点击,文本获取,输入框写入实践讲解;
  5. 登录模拟;
  6. 分页获取数据;
  7. 操作iframe;
  8. 模拟页面滚动到尾部;
  9. 异常截屏;
  10. 源码和答疑。
已有246人预订
预订达标
文章出炉
     
01月02日
01月21日
本场 Chat 文章已出炉,购买后即可阅读文章并获得一张码匠笔记的读者圈Pass
请务必添加GitChat服务号以查看活动进度及获取活动通知。
查看文章评论/提问
快乐伴我行!
不安装chrome浏览器可以吗
你可能还喜欢
Python 常见的 170 道面试题全解析:2019 版
陈祥安
近距离接触 DDD
文贺
Apollo 轨迹规划技术分享
Apollo开发者社区
Docker 快速入门
技术人的突破
如何利用碎片时间,提升自己的职场竞争优势
代码GG陆晓明
Spring Boot 工程化最佳实践
ASCE1885
微信扫描登录
关注提示×
扫码关注公众号,获得 Chat 最新进展通知!
添加小助手微信×