用 Python 写网络爬虫 第2版

内容简介

畅销的 Python 网络爬虫开发实战图书全新升级版,上一版年销量近 40000 册。

针对 Python 3.6 版本编写。

Internet 上包含了许多有用的数据,其中大部分是可以免费公开访问的。但是,这些数据不容易使用,它们内嵌在网站的架构和样式中,在提取时也需要多加小心。网络爬取技术作为一种收集和理解网络上海量信息的方式,正变得越来越有用。

本书是使用 Python 3.6 的新特性来爬取网络数据的入门指南。本书讲解了从静态网站提取数据的方法,以及如何使用数据库和文件缓存技术来节省时间并管理服务器负载,然后介绍了如何使用浏览器、爬虫和并发爬虫开发一个更为复杂的爬虫。

借助于 PyQt 和 Selenium,你可以决定何时以及如何从依赖 JavaScript 的网站上爬取数据,以及更好地理解在受 CAPTCHA 保护的复杂网站上提交表单的方法。本书还讲解了使用 Python 包(比如 mechanize)进行自动化处理的方法、使用 Scrapy 库创建基于类的爬虫的方法,以及如何在真实的网站上实施所学的爬虫技巧。

本书最后还涵盖了使用爬虫对网站进行测试、远程爬取技术、图像处理以及其他相关的主题。

适读人群:Python 开发人员、搜索引擎开发人员

作者简介

Katharine Jarmul,德国柏林的一位数据科学家和 Python 支持者。她经营了一家数据科学咨询公司——Kjamistan,为不同规模的企业提供诸如数据抽取、采集以及建模的服务。她从2008年开始使用 Python 进行编程,从2010年开始使用 Python 抓取网站,并且在使用网络爬虫进行数据分析和机器学习的不同规模的初创企业中工作过。读者可以通过 Twitter(@kjam)关注她的想法以及动态。

Richard Lawson 来自澳大利亚,毕业于墨尔本大学计算机科学专业。毕业后,他创办了一家专注于网络爬虫的公司,为超过50个国家的业务提供远程工作。他精通世界语,可以使用汉语和韩语对话,并且积极投身于开源软件事业。他目前正在牛津大学攻读研究生学位,并利用业余时间研发自主无人机。

极客书购买须知

  1. 本产品为《用 Python 写网络爬虫 第2版》一书电子版全本内容,共计 18.3 万字。
  2. 付费购买用户、会员用户可享受文章永久阅读权限。
  3. 本产品为虚拟产品,一经付费概不退款,敬请谅解。
  4. 本产品内容授权自人民邮电出版社。
  5. 极客书同时可在 http://gitbook.cn/ 购买与阅读。
推荐电子书查看更多电子书
生命密码:你的第一本基因科普书
尹烨
科普
基因
¥40.831 万字
SQL 进阶教程
MICK
SQL
数据库
¥39.9945.5 万字
Java 高并发编程详解:多线程与架构设计
汪文君
Java
¥4522.1 万字
Python 程序设计(第3版)
John Zelle
Python
¥49.9950.6 万字
深入浅出 RxJS
程墨
RxJS
¥4540 万字
微信扫描登录