如何用 Python 爬取网页制作电子书

作者/分享人:孙亖
向 Ta 提问
软件工程师,长期从事企业信息化系统的研发工作,主要擅长后台业务功能的设计开发。

最近,AI 的兴起让 Python 火了一把。实际上 Python 拥有庞大的第三方支持,生态系统非常完整,可以适用各种场景和行业。这次,我们准备通过 Python 学习爬虫的开发,既简单有趣,而且是数据采集重要一环。同时脱离应用谈技术就是耍流氓,通过制作电子书学习数据的收集与整理,即能学到东西又有实用价值。

我们将通过爬取网页信息这个很小的应用场景来体会数据预处理的思想,并从中学习了解数据处理中抓取、处理、分组、存储等过程的实现。我这次分享主要分为以下几个部分:

  1. Python 语法的讲解,通过分享掌握简单的 Python 开发语法和思路,侧重于后面爬虫开发的需要用的内容
  2. Scrapy 爬虫开发,通过分享了解基本的 Scrapy 开发,并实现从网络爬取数据
  3. 使用 Sigil 制作 epub 电子书

最后,我希望通过分享能够入门,并喜欢上 Python 开发,并且掌握 Scrapy 爬虫开发的思路和方法。

已有220人预订
预订达标
文章出炉
交流日期
     
17.12.28
01月15日
01月22日 20:30
本场Chat文章已出炉,交流活动时间为 01月22日 20:30,敬请期待!预订本场Chat,您还将获得一张孙亖的读者圈Pass
请务必添加GitChat服务号以查看活动进度及获取活动通知。
查看文章评论/提问
差不多先生
还是阔以,虽然没学过Python,但是还是能看懂。感觉简单粗暴。
退款保证:
• 01月04日前,预订人数未达标,您将获得全额退款。
• 作者未按时完成文章,您将获得全额退款。
• 作者未按时间进行分享,您将获得全额退款。
你可能还喜欢
聊聊 CSS 中的布局模式
大漠_w3cplus.com
软技能:程序员如何在职场上少走弯路
墨雪卿
Spring Boot 2.0 的快速入门(图文教程)
泥瓦匠 @ bysocket.com
如何在网上下载自己需要的资源
曹某某
GitChat 被恶意攻击引发的技术性思考:拒绝服务攻击
肖志华
利用开源代码和读相关论文来提高写代码能力
李峰
微信扫描登录