微博爬虫总结:构建单机千万级别的微博爬虫系统

作者/分享人:nghuyong
向 Ta 提问
985NLP方向小硕,有丰富的爬虫实习项目经历,曾发布了微博爬虫的系列博客,影响广泛。

微博语料库是一个巨大且珍贵的中文语料资源,在舆情监控、商业分析、兴趣挖掘等诸多领域都有广泛的应用。而获取微博语料库的方法就是构建一个稳定高效微博语料抓取系统。

本次 Chat 首先会带着大家分析微博 PC 端/移动端各个站点的实际情况,以及能够抓取的数据维度,随后会逐个分析微博每个站点的登陆方案,并基于此构建微博账号池。最后介绍 Scrapy 爬虫框架,结合 Redis 技术,构建分布式的微博数据抓取系统,实现单机每日 1kw+ 的语料抓取。

通过本场 Chat 您将学习到:

  1. Selenium 自动化框架,并基于该框架自动实现网站的登陆;
  2. 滑块验证码、字母验证码的破解方案;
  3. Scrapy 框架的简单入门;
  4. 通过 Redis 构建分布式的爬虫;
  5. 爬虫项目中的各种奇技淫巧。
已有152人预订
预订达标
文章出炉
     
18.07.31
18.08.10
本场 Chat 文章已出炉,购买后即可阅读文章并获得一张nghuyong的读者圈Pass
请务必添加GitChat服务号以查看活动进度及获取活动通知。
你可能还喜欢
给后端程序员看的 Vue 快速入门教程
白宦成
110 道 Python 面试笔试题超强汇总
嘉美伯爵
Redis 实战场景详解
驰骋
轻松搞定机器学习中的概率统计知识
Evan
架构师成长之路之服务治理漫谈
飞狐
Git 扫盲,用命令行优雅的理解 Git 底层机制
叫我闪电
从学生到职场,这位百万爬虫博主都经历了什么?
崔庆才丨静觅
打造高效「Mac 工具栈」,提高工作效率
易水寒
Java 与底层操作系统的交互细节
小强
前端面试指导
程序员-玄魂
Azkaban 分布式任务调度部署实战
火币集团研发中心
架构师成长之路之限流
飞狐
架构师成长之路之服务发现与注册
飞狐
Java 进阶之路:异常处理的内在原理及优雅的处理方式
应书澜
人工智能物联网极简入门
Peter Liu
微信扫描登录
关注提示×
扫码关注公众号,获得 Chat 最新进展通知!