保存成功
保存失败,请重试
提交成功

一小时入门 Python 3 网络爬虫

作者/分享人:Jack-Cui
个人网站:https://cuijiahua.com

如果你具有 Python 3 基础,想学习一些实战内容,我想学习网络爬虫是一个不错的选择。作为获取数据的手段之一,网络爬虫有它独特的魅力,是一个很好的用来满足个人兴趣爱好的入门项目。

本场 Chat,我会从爬虫原理讲到爬虫实践,讲解一些常用的第三方库的使用方法。我们将一起批量爬取文字、图片、视频,你准备好了吗?

实录提要:

  • 如何高效率抓取,常见的优化策略有哪些;
  • 抓取小说时,网站 URL 不是以 .html 结尾的就不能抓取到内容了吗;
  • 零基础学习爬虫的话要掌握哪些 Python 基础;
  • 成为一名合格的爬虫工程师需要具备什么能力;
  • 如何反爬虫,如何反反爬虫;
  • 如何爬取 HLS 切片的视频;
  • 对于实时比如行情音视频流等数据该如何爬取;
  • 文章里既然用了 Requests,为什么不用 .json() 而用 JSON 模块;
  • 获取在线加密的视频有什么好的解决方案,如用保利威视加密过的视频;
  • 如何获取有效的 HTTPS 代理 IP 地址;
  • 什么样的爬虫是非法的,哪些是合法的。
已有1585人预订
预订达标
文章出炉
交流日期
     
17.09.07
17.09.19
17.09.27 20:30
查看文章评论/提问
momo6 个月前
现在完全消化了实战1,很满意,作者这文章非常对我这种基础薄弱的人。 PS如果真的0基础,不推荐。只要搞清楚python3基本的语句,函数怎么使用,格式,就可以上手了(虽然难度比较大),比这个级别高一点的话,难度就会变小。
zhangf9 个月前
第一个下载小说的整合,直接复制用作者的代码跑会报错 ``` Traceback (most recent call last): File ".\test1.py", line 48, in <module> dl.writer(dl.names[i],'一念永恒.txt',dl.get_contents(dl.urls[i])) File ".\test1.py", line 32, in get_contents texts=texts[0].text.replace('\xa0'*8,'\n\n') IndexError: list index out of range ``` 列表越界,但是感觉不会出现越界啊...
Yanir10 个月前
text=content[0].text IndexError: list index out of range 实例1的问题怎么解决?
INK10 个月前
unsplash 现在换套路了,image ID已经不好使了,加载json的页面也换了地址,json结构也改变了,注意键值'full' 和 带有napi的网页,我就提示到这里了,大家快行动起来吧
INK10 个月前
我是说url包含 napi的网页
山不厌高10 个月前
第一个例子,self.target = 'http://www.biqukan.com/1_1094/' 需要改为'https://www.biqukan.com/1_1094/' http后需要有s,否则改地址无法访问
你可能还喜欢
Redis 知识点整理
JavaTimo
1925·青年必读书——民国名流开具的书单
李烨
Java 集合底层原理剖析(List、Set、Map、Queue)
老牛
基于 Spring Boot 的线程池最佳实践
古拉里
Vue 一步一步搭建企业级后台管理系统
一只帅帅的猿
Spring Boot 面试指南(50 题)
axiya
微信扫描登录
关注提示×
扫码关注公众号,获得 Chat 最新进展通知!
入群与作者交流×
扫码后回复关键字 入群
Chat·作者交流群
入群码
该二维码永久有效