微博爬虫总结:构建单机千万级别的微博爬虫系统

作者/分享人:nghuyong
向 Ta 提问
985NLP方向小硕,有丰富的爬虫实习项目经历,曾发布了微博爬虫的系列博客,影响广泛。

微博语料库是一个巨大且珍贵的中文语料资源,在舆情监控,商业分析,兴趣挖掘等诸多领域都有广泛的应用。而获取微博语料库的方法就是构建一个稳定高效微博语料抓取系统。

本次 Chat 首先会带着大家分析微博 PC 端/移动端各个站点的实际情况,以及能够抓取的数据维度,随后会逐个分析微博每个站点的登陆方案,并基于此构建微博账号池。最后介绍 Scrapy 爬虫框架,结合 Redis 技术,构建分布式的微博数据抓取系统,实现单机每日一千万+的语料抓取。

通过本场 Chat 您将学习到:

  1. Selenium 自动化框架,并基于该框架自动实现网站的登陆。
  2. 滑块验证码,字母验证码的破解方案。
  3. Scrapy 框架的简单入门。
  4. 通过 Redis 构建分布式的爬虫。
  5. 爬虫项目中的各种奇技淫巧。
已有135人预订
预订达标
文章出炉
     
07月31日
08月10日
本场 Chat 文章已出炉,购买后即可阅读文章并获得一张nghuyong的读者圈Pass
请务必添加GitChat服务号以查看活动进度及获取活动通知。
你可能还喜欢
基于深度学习的计算机视觉技术在无人驾驶中的应用
美团技术团队
1小时搞懂 Git 版本控制
Fengy
AutoML 在推荐系统中的应用
第四范式技术团队
Kibana Canvas 初探
medcl
今夜,我们聊聊中国的开源
开源社
统一认证与授权在微服务架构中的设计与实战
CANGWU
再谈基于 Kafka 和 ZooKeeper 的分布式消息队列原理
应书澜
Elasticsearch 实战应用系列
桃花惜春风
Fizz-Buzz-Whizz 小游戏算法解析
氢氧化钠
老系统微服务改造经验谈
老顽童
Java 进阶之路:从 Lock 指令前缀切入,解读 Java Volatile、CAS 及 Automic 包
Dora
分布式锁的最佳实践之:基于 Etcd 的分布式锁
应书澜
如何构建游戏安全护城河
网易移动安全技术团队
我们如何衡量一个微服务实施的成功
顾宇
玩转 Python 网络爬虫:QQ 音乐全站爬虫开发
Xy
微信扫描登录