精通 Python 爬虫框架 Scrapy

内容简介

Scrapy 是使用 Python 开发的一个快速、高层次的屏幕抓取和 Web 抓取框架,用于抓 Web 站点并从页面中提取结构化的数据。《精通 Python 爬虫框架 Scrapy》以 Scrapy 1.0 版本为基础,讲解了 Scrapy 的基础知识,以及如何使用 Python 和三方 API 提取、整理数据,以满足自己的需求。 本书共11章,其内容涵盖了 Scrapy 基础知识,理解 HTML 和 XPath,安装 Scrapy 并爬取一个网站,使用爬虫填充数据库并输出到移动应用中,爬虫的强大功能,将爬虫部署到 Scrapinghub 云服务器,Scrapy 的配置与管理,Scrapy 编程,管道秘诀,理解 Scrapy 性能,使用 Scrapyd 与实时分析进行分布式爬取。本书附录还提供了各种软件的安装与故障排除等内容。

本书适合软件开发人员、数据科学家,以及对自然语言处理和机器学习感兴趣的人阅读。

作者简介

Dimitrios Kouzis-Loukas,作为一位软件开发人员,已经拥有超过15年的经验。同时,他还使用自己掌握的知识和技能,向广大读者讲授如何编写软件。 他学习并掌握了多门学科,包括数学、物理学以及微电子学。他对这些学科的透彻理解,提高了自身的标准,而不只是“实用的解决方案”。他知道真正的解决方案应当是像物理学规律一样确定,像 ECC 内存一样健壮,像数学一样通用。

Dimitrios 目前正在使用新的数据中心技术开发低延迟、高可用的分布式系统。他是语言无关论者,不过对 Python、C 和 Java 略有偏好。他对开源软硬件有着坚定的信念,他希望他的贡献能够造福于各个社区和全人类。关于译者 李斌,毕业于北京科技大学计算机科学与技术专业,获得硕士学位。曾任职于阿里巴巴,当前供职于凡普金科,负责应用安全工作。热爱 Python 编程和 Web 安全,希望以更加智能和自动化的方式提升网络安全。

极客书购买须知

  1. 本产品为《精通 Python 爬虫框架 Scrapy》一书电子版全本内容,共计 23 万字。
  2. 付费购买用户、会员用户可享受文章永久阅读权限。
  3. 本产品为虚拟产品,一经付费概不退款,敬请谅解。
  4. 本产品内容授权自人民邮电出版社。
  5. 极客书同时可在 http://gitbook.cn/ 购买与阅读。
推荐电子书查看更多电子书
生命密码:你的第一本基因科普书
尹烨
科普
基因
¥40.831 万字
SQL 进阶教程
MICK
SQL
数据库
¥39.9945.5 万字
Java 高并发编程详解:多线程与架构设计
汪文君
Java
¥4522.1 万字
Python 程序设计(第3版)
John Zelle
Python
¥49.9950.6 万字
深入浅出 RxJS
程墨
RxJS
¥4540 万字
微信扫描登录