微博爬虫总结:构建单机千万级别的微博爬虫系统

作者/分享人:nghuyong
向 Ta 提问
985NLP方向小硕,有丰富的爬虫实习项目经历,曾发布了微博爬虫的系列博客,影响广泛。

微博语料库是一个巨大且珍贵的中文语料资源,在舆情监控、商业分析、兴趣挖掘等诸多领域都有广泛的应用。而获取微博语料库的方法就是构建一个稳定高效微博语料抓取系统。

本次 Chat 首先会带着大家分析微博 PC 端/移动端各个站点的实际情况,以及能够抓取的数据维度,随后会逐个分析微博每个站点的登陆方案,并基于此构建微博账号池。最后介绍 Scrapy 爬虫框架,结合 Redis 技术,构建分布式的微博数据抓取系统,实现单机每日 1kw+ 的语料抓取。

通过本场 Chat 您将学习到:

  1. Selenium 自动化框架,并基于该框架自动实现网站的登陆;
  2. 滑块验证码、字母验证码的破解方案;
  3. Scrapy 框架的简单入门;
  4. 通过 Redis 构建分布式的爬虫;
  5. 爬虫项目中的各种奇技淫巧。
已有142人预订
预订达标
文章出炉
     
07月31日
08月10日
本场 Chat 文章已出炉,购买后即可阅读文章并获得一张nghuyong的读者圈Pass
请务必添加GitChat服务号以查看活动进度及获取活动通知。
你可能还喜欢
如何设计一个灵活的 MySQL 数据表,应对灵活多变的需求
李岩
Jenkins 自动化构建部署实战
火币集团研发中心
Java 程序员应掌握的 Nginx 实战应用
JPM
带你玩转 JSON
能量架构师
Python Pandas 做数据分析之玩转 Excel 报表分析
WinterLeo
小程序从入门到进阶
loonglong
实战剖析 Java 秒杀系统的实现
虎口脱险
从零搭建 Hadoop 集群
杨爵爷
实战讲解接口自动化测试思路
金刚
Java 并发面试题解
Eric Chen
一篇文章读懂 MySQL 中的锁
张宏杰
成功微服务实施的技术演进
顾宇
电商项目可扩展性数据库设计与实现
丹丹
Linux 脚本攻略一(基础知识点)
无人驾驶
从 Word Embedding 到 Bert:一起肢解 Bert!
武博士
微信扫描登录