一小时入门 Python 3 网络爬虫

作者/分享人:Jack-Cui
向 Ta 提问
个人网站:https://cuijiahua.com

如果你具有 Python 3 基础,想学习一些实战内容,我想学习网络爬虫是一个不错的选择。作为获取数据的手段之一,网络爬虫有它独特的魅力,是一个很好的用来满足个人兴趣爱好的入门项目。

本场 Chat,我会从爬虫原理讲到爬虫实践,讲解一些常用的第三方库的使用方法。我们将一起批量爬取文字、图片、视频,你准备好了吗?

实录提要:

  • 如何高效率抓取,常见的优化策略有哪些;
  • 抓取小说时,网站 URL 不是以 .html 结尾的就不能抓取到内容了吗;
  • 零基础学习爬虫的话要掌握哪些 Python 基础;
  • 成为一名合格的爬虫工程师需要具备什么能力;
  • 如何反爬虫,如何反反爬虫;
  • 如何爬取 HLS 切片的视频;
  • 对于实时比如行情音视频流等数据该如何爬取;
  • 文章里既然用了 Requests,为什么不用 .json() 而用 JSON 模块;
  • 获取在线加密的视频有什么好的解决方案,如用保利威视加密过的视频;
  • 如何获取有效的 HTTPS 代理 IP 地址;
  • 什么样的爬虫是非法的,哪些是合法的。
已有1015人预订
预订达标
文章出炉
交流日期
     
17.09.07
17.09.19
17.09.27 20:30
查看文章评论/提问
寒韩
第一个实战里,为何我通过requests get后返回的数据里没有小说内容呢?我通过Charles抓起了返回信息是有小说内容的,但print(r.text)却没。可能是什么原因啊
Jack-Cui: 在cmd中运行下,就可以了
豆豆Style: 在cmd中运行确实能看到内容,这是什么原理呢,求教。
终生学习
第一个抓小说的例子,我也没取到内容喔。
终生学习
我的那个fidder工具里,不知咱回事,host 里没看unsplash.com的域名。
Jack-Cui: fiddler设置的问题。实在不行用networks看下
金文代雅
第一个实战中,使用sublime 写完后并不能得到数据,然后在代码的上部随便加了print(hello),代码后面也加了print,都有输出结果,仅是爬虫部分没有响应
IT民工
如何高效率抓取,常见的优化策略?
小黑子
抓取小说时,是不是网站URL 不是以.html结尾的是不就不能抓取到内容了,
lyhv
请问零基础学习爬虫的话要掌握哪些Python基础呢?成为一名合格的爬虫工程师需要具备什么能力?
阿宁
正在学Python,感觉很威武。
Panda
很赞 通俗易懂 虽然都是很基础的东西
make the change
抓取小说里的内容,pycharm运行后结果里的文字是/x和/u开头的形式,然后在find_all那个语句后进行decode解码也行不通,报错resultset没有decode属性,不知道这种情况怎么处理。。。Python是2.7版本,请指教~
 greg.
写到最后一个例子viedo-downloader这里了,出现的报错是“str” object has no attribute “spilt” 所以我自己想要爬的视频链接是放在哪?放在最后的url后面吗?那楼主的那个url后面的#那堆东西是什么来的?卡在这里好久咯,然后vd =video-downloader(url)这行也是会报错。求楼主帮下
阿宁
求助:Fiddler4 如何访问https://unsplash.com/
橙子老仙法力无边
为什么说爬虫时效性低呢?
@幂等函数
同样的方法爬取百度的,搞不定呜呜
William
那个免费观看vip视频在浏览器打开你说的url,显示说请使用iframe框架调试访问是什么回事?
Walton: 同问
你可能还喜欢
如何设计一个灵活的 MySQL 数据表,应对灵活多变的需求
李岩
Jenkins 自动化构建部署实战
火币集团研发中心
Java 程序员应掌握的 Nginx 实战应用
JPM
带你玩转 JSON
能量架构师
Python Pandas 做数据分析之玩转 Excel 报表分析
WinterLeo
小程序从入门到进阶
loonglong
微信扫描登录