如何用 Python 爬取网页制作电子书

作者/分享人:孙亖
向 Ta 提问
软件工程师,长期从事企业信息化系统的研发工作,主要擅长后台业务功能的设计开发。编程直播室:https://t.zsxq.com/2ZfeAMN

最近,AI 的兴起让 Python 火了一把。实际上 Python 拥有庞大的第三方支持,生态系统非常完整,可以适用各种场景和行业。这次,我们准备通过 Python 学习爬虫的开发,既简单有趣,而且是数据采集重要一环。同时脱离应用谈技术就是耍流氓,通过制作电子书学习数据的收集与整理,即能学到东西又有实用价值。

我们将通过爬取网页信息这个很小的应用场景来体会数据预处理的思想,并从中学习了解数据处理中抓取、处理、分组、存储等过程的实现。我这次分享主要分为以下几个部分:

  1. Python 语法的讲解,通过分享掌握简单的 Python 开发语法和思路,侧重于后面爬虫开发的需要用的内容
  2. Scrapy 爬虫开发,通过分享了解基本的 Scrapy 开发,并实现从网络爬取数据
  3. 使用 Sigil 制作 epub 电子书

最后,我希望通过分享能够入门,并喜欢上 Python 开发,并且掌握 Scrapy 爬虫开发的思路和方法。

已有891人预订
预订达标
文章出炉
交流日期
     
17.12.28
01月15日
01月22日 20:30
查看文章评论/提问
差不多先生
还是阔以,虽然没学过Python,但是还是能看懂。感觉简单粗暴。
lijie
孙大佬,你好,这次的爬虫scrapy教学感觉很精彩,给我这种才看完scrapy基础的有很大启发,而且,可以动手做一做,非常感谢。但我有个问题哈,关于数据的存储为什么没有在pipelines里进行,而是选择在spider,有点疑惑,初学者可能问题提的不是很好,见谅
孙亖: 用pipeline更好,如果觉得好请点个赞,谢谢。
Q.IAN
你好,想问个问题。PYTHON写爬虫常看到BeautifulSoup,request等等之类的模块,大神能介绍下他们直接的关系和优劣吗(我听了一些课程,问的可能不是太正确,求解释)
孙亖: 我在群里回答
钟南: 怎么入群啊😊
鹏太ほうた🐧
这篇小说不在起点中文网
孙亖: 确实不在了,我写文章的时候是在的,难道是爬的人多了,作者膨胀了?不过原理是一样的,换一部也一样。
钟南
怎么入学习群啊😊
孙亖: 在这里交流,或者加入作者的编程星球 https://t.zsxq.com/2ZfeAMN
孙亖: 我原来说群里答,已经散了,不过都记录在实录里面,可以在查看本chat介绍页面看实录。
你可能还喜欢
如何成为一名合格的 C/C++ 开发者?
范蠡
从新一期技术雷达看技术领域最新趋势
徐昊
微服务中的短信服务如何设计?
猿天地
亿级 QQ 会员活动运营系统的设计之道
廖声茂
详解 Java 常用的四种锁机制优缺点
安爷
数据科学 Kaggle 比赛项目实战:Titanic
刘明
微信扫描登录