Scrapy 爬虫实战与热词分析:爬取腾讯视频评论生成词云图

作者/分享人:灵动的艺术
向 Ta 提问
3年+Android系统Framework层定制化方案开发,3年+互联网消费金融产品架构经验,毕业于湖南大学软件工程专业,目前就职于上海麦广互娱文化传媒股份有限公司消费金融事业部,担任技术负责人。精通Java与Python。个人CSDN ElasticSearch专栏,https://blog.csdn.net/weixin_43430036/column/info/28872 欢迎围观

最近我的腾讯视频会员到期了,一直在纠结要不要续费,恰逢良心国漫《斗罗大陆》的广告打到我这里,再次勾起了我的追漫热情。虽然号称良心国漫,但是对这部动漫能不能值得我的腾讯视频的 VIP 价格,我还是相当怀疑的。所以决定先爬一爬,看看全部人的影评再决定。

本 Chat 我们主要讨论以下要点:

  1. Scrapy 爬虫爬取腾讯视频《斗罗大陆》的全部评论;
  2. 建立 Elasticsearch 映射存储全部评论;
  3. ik_smart 分词器中文热词分析;
  4. pyecharts 绘制 word_cloud(词云图)。

有同类兴趣的同学欢迎一起研究,如果对 Scrapy 爬虫不是很了解,也不用担心,本 Chat 我会用 Scrapy 来演示爬虫,也会给大家演示自己手写一个简单脚本来爬虫。如果 Elasticsearch 不太了解,欢迎先到我的 Elasticsearch 专栏共同学习进步,其他的技术方面都比较简单易懂,完全不用担心学不会。

已有136人预订
预订达标
文章出炉
     
18.12.14
18.12.26
本场 Chat 文章已出炉,购买后即可阅读文章并获得一张灵动的艺术的读者圈Pass
请务必添加GitChat服务号以查看活动进度及获取活动通知。
你可能还喜欢
你不得不了解的 Flutter 入门教程
火币集团研发中心
渗透测试入门指南与路线规划
程序员-玄魂
微服务演进中的经验和反思
顾宇
漫谈函数式编程:聊聊 OCaml
梦鸽
程序员怎样提高项目管理意识
伊伊
使用 Selenium 实现万能的爬虫
码匠笔记
跨年之作:谈谈如何进行 Java 系统性能优化
应书澜
MyBatis 枚举全面使用指南
逆流而上/isea533
JDK8 Lambda 表达式&Stream
追梦
亿万级即时通信架构浅谈
横竖撇折点
文件读取、解析、入库,究竟可以多快?
文心紫竹
Web 安全中的业务安全战争
肖志华
重构代码之美
哈比
Elasticsearch 索引设计实战指南
铭毅天下
业务系统代码实现服务的并行请求,提高程序的处理性能
白公
微信扫描登录