Scrapy 爬虫实战与热词分析:爬取腾讯视频评论生成词云图

作者/分享人:灵动的艺术
向 Ta 提问
CSDN博客专家:https://summer.blog.csdn.net/ GitHub开源博主:https://github.com/Jaysong2012 欢迎大家围观。

最近我的腾讯视频会员到期了,一直在纠结要不要续费,恰逢良心国漫《斗罗大陆》的广告打到我这里,再次勾起了我的追漫热情。虽然号称良心国漫,但是对这部动漫能不能值得我的腾讯视频的 VIP 价格,我还是相当怀疑的。所以决定先爬一爬,看看全部人的影评再决定。

本 Chat 我们主要讨论以下要点:

  1. Scrapy 爬虫爬取腾讯视频《斗罗大陆》的全部评论;
  2. 建立 Elasticsearch 映射存储全部评论;
  3. ik_smart 分词器中文热词分析;
  4. pyecharts 绘制 word_cloud(词云图)。

有同类兴趣的同学欢迎一起研究,如果对 Scrapy 爬虫不是很了解,也不用担心,本 Chat 我会用 Scrapy 来演示爬虫,也会给大家演示自己手写一个简单脚本来爬虫。如果 Elasticsearch 不太了解,欢迎先到我的 Elasticsearch 专栏共同学习进步,其他的技术方面都比较简单易懂,完全不用担心学不会。

已有186人预订
预订达标
文章出炉
     
18.12.14
18.12.26
本场 Chat 文章已出炉,购买后即可阅读文章并获得一张灵动的艺术的读者圈Pass
请务必添加GitChat服务号以查看活动进度及获取活动通知。
你可能还喜欢
高并发、低 RT 的风控系统架构及技术架构的实现
火币集团研发中心
全栈开发入门实战:后台管理系统
鲁鹏
程序员副业赚钱的 8 种模式
安晓辉
每一个开发人员都应该懂的 UML 规范
码匠笔记
“花式吊打”系列之逻辑回归讲透透
天马行空
带你全面了解高级 Java 面试中需要掌握的 JVM 知识点
当年明月
批量任务处理神器:Spring Batch
天涯阁主
如何打造爆款付费文章
老王
设计模式架构解析
疯狂的架构
理理 Java 开发中常见的设计模式
woodwang
深度学习卷积神经网络架构设计核心技术
言有三
如何快速准备面试中的算法,获得 Offer?
我爱大口吃饭
从本质如何理解机器学习
李韬
BAT + 程序员校招指南
黄小斜
基于 WebSocket 的点对点实时通讯项目
Aeasringnar
微信扫描登录
关注提示×
扫码关注公众号,获得 Chat 最新进展通知!
添加小助手微信×