一小时入门 Python 3 网络爬虫

作者/分享人:Jack-Cui
向 Ta 提问
热爱技术分享,活跃于CSDN和知乎,开设的《Python3网络爬虫入门》、《Python3机器学习》等专栏受到好评。博客地址:http://blog.csdn.net/c406495762

如果你具有 Python 3 基础,想学习一些实战内容,我想学习网络爬虫是一个不错的选择。作为获取数据的手段之一,网络爬虫有它独特的魅力,是一个很好的用来满足个人兴趣爱好的入门项目。

本场 Chat,我会从爬虫原理讲到爬虫实践,讲解一些常用的第三方库的使用方法。我们将一起批量爬取文字、图片、视频,你准备好了吗?

实录提要:

  • 如何高效率抓取,常见的优化策略有哪些?
  • 抓取小说时,网站 URL 不是以 .html 结尾的就不能抓取到内容了吗?
  • 零基础学习爬虫的话要掌握哪些 Python 基础?
  • 成为一名合格的爬虫工程师需要具备什么能力?
  • 如何反爬虫?如何反反爬虫?
  • 如何爬取 hls 切片的视频?
  • 对于实时比如行情音视频流等数据该如何爬取?
  • 文章里既然用了 requests,为什么不用 .json() 而用 json 模块?
  • 获取在线加密的视频有什么好的解决方案,如用保利威视加密过的视频?
  • 如何获取有效的 https 代理 IP 地址?
  • 什么样的爬虫是非法的,哪些是合法的?
已有518人预订
预订达标
文章出炉
交流日期
     
17.09.07
17.09.19
17.09.27 20:30
查看文章评论/提问
寒韩
第一个实战里,为何我通过requests get后返回的数据里没有小说内容呢?我通过Charles抓起了返回信息是有小说内容的,但print(r.text)却没。可能是什么原因啊
Jack-Cui: 在cmd中运行下,就可以了
豆豆Style: 在cmd中运行确实能看到内容,这是什么原理呢,求教。
终生学习
第一个抓小说的例子,我也没取到内容喔。
终生学习
我的那个fidder工具里,不知咱回事,host 里没看unsplash.com的域名。
Jack-Cui: fiddler设置的问题。实在不行用networks看下
金文代雅
第一个实战中,使用sublime 写完后并不能得到数据,然后在代码的上部随便加了print(hello),代码后面也加了print,都有输出结果,仅是爬虫部分没有响应
IT民工
如何高效率抓取,常见的优化策略?
小黑子
抓取小说时,是不是网站URL 不是以.html结尾的是不就不能抓取到内容了,
lyhv
请问零基础学习爬虫的话要掌握哪些Python基础呢?成为一名合格的爬虫工程师需要具备什么能力?
阿宁
正在学Python,感觉很威武。
Panda
很赞 通俗易懂 虽然都是很基础的东西
make the change
抓取小说里的内容,pycharm运行后结果里的文字是/x和/u开头的形式,然后在find_all那个语句后进行decode解码也行不通,报错resultset没有decode属性,不知道这种情况怎么处理。。。Python是2.7版本,请指教~
 greg.
写到最后一个例子viedo-downloader这里了,出现的报错是“str” object has no attribute “spilt” 所以我自己想要爬的视频链接是放在哪?放在最后的url后面吗?那楼主的那个url后面的#那堆东西是什么来的?卡在这里好久咯,然后vd =video-downloader(url)这行也是会报错。求楼主帮下
阿宁
求助:Fiddler4 如何访问https://unsplash.com/
橙子老仙法力无边
为什么说爬虫时效性低呢?
@幂等函数
同样的方法爬取百度的,搞不定呜呜
你可能还喜欢
关于为何以及如何阅读源码的一点心得
追梦
从零开始,轻松打造你的聊天机器人
微软公开课
每周一个机器学习小项目001:全链接层实现与分类问题
如是
通过前端团队管理谈谈技术管理的技法与思想
常新居士
朋友圈爆款背后的计算机视觉技术与应用
AI科技大本营
为什么说 Java 程序员到了必须掌握 Spring Boot 的时候?
纯洁的微笑
微信扫描登录