网易云音乐系列:抓取网易评论进行分析

作者/分享人:明天依旧可好
向 Ta 提问
沉迷于Python,从爬虫到数据清洗、数据分析、机器学习再到深度学习。目前在研究NLP,已发布作品微信小程序英文取名,现为CSDN博客专家。个人博客地址:https://blog.csdn.net/qq_38251616

网易云音乐评论区几大未解之谜。他和她究竟有没有在一起,考研的究竟考上了没有,努力的人成功了吗,他(她)真的能看到留言吗,那些文艺青年写的究竟是不是抄的。网易评论里还有什么是我们不知道的,本场 Chat 将带大家爬取网易云音乐的评论并生成词云来一探究竟。

主要含以下内容:

  • 对爬虫做一个讲解;
  • 分析网易云音乐的网页结构;
  • 反扒措施分析;
  • 高效编写程序,避免代码中的不规范;
  • 使用 Jieba 进行分词,生成词云。

其中我们会用到的第三方库如下:

  • BeautifulSoup;
  • Selenium;
  • WordCloud;
  • Matplotlib;
  • Jieba;
  • Numpy;
  • PIL。
已有97人预订
预订达标
文章出炉
     
02月15日
03月04日
本场 Chat 文章已出炉,购买后即可阅读文章并获得一张明天依旧可好的读者圈Pass
请务必添加GitChat服务号以查看活动进度及获取活动通知。
查看文章评论/提问
快乐伴我行!
selenium效率太低了,还有没别的优化方案
明天依旧可好: 目前我这还没有其他方案,selenium自身的效率是可以提高的(比如禁止加载图片、禁止加载插件以及无窗口化),看你怎么用了。
你可能还喜欢
给后端程序员看的 Vue 快速入门教程
白宦成
110 道 Python 面试笔试题超强汇总
嘉美伯爵
Redis 实战场景详解
驰骋
轻松搞定机器学习中的概率统计知识
Evan
架构师成长之路之服务治理漫谈
飞狐
Git 扫盲,用命令行优雅的理解 Git 底层机制
叫我闪电
微信扫描登录
关注提示×
扫码关注公众号,获得 Chat 最新进展通知!