NLP 中文短文本分类项目实践(上)

作者/分享人:Soyoger
向 Ta 提问
90后,热爱AI,倡导AI技术改变生活,CSDN博客专家,GitChat平台分享者,在GitChat开设《中文自然语言处理入门实战》达人课,参与过知名互联网公司大数据项目、用户画像、流量预测,现在致力于中文自然语言处理的研发。

随着技术成熟和各大互联网公司对关系数据的整合,预测未来数据领域的挑战在非结构化数据的整合,NLP技术对个人发展越来越重要,本场 Chat 首先带领大家入门词云,然后给出对 LDA 和朴素贝叶斯和SVM的短文本分类实践。

你将主要学到如下内容:

  1. 用 WordCloud 制作词云;
  2. 用 LDA 主题模型获取文本关键词;
  3. 用朴素贝叶斯算法和 SVM 分别对文本分类。
已有539人预订
预订达标
文章出炉
     
04月30日
05月14日
本场 Chat 文章已出炉,购买后即可阅读文章并获得一张Soyoger的读者圈Pass
请务必添加GitChat服务号以查看活动进度及获取活动通知。
查看文章评论/提问
lucioluo
这个里面的数据有提供吗?
Soyoger: 有呢,我忘了发网盘链接,加文末QQ群,私信找群主要。
longlongago
请问作者的stop_words是从哪弄的?
Soyoger: stopwords是网上下载的,如果需要,私信我。
人生若只如初见
继续加油!
Summer Night
不错不错!涨知识了。👍 👍 👍
Soyoger
如果大家在运行过程中出现FutureWarning: using a dict on a Series for aggregation is deprecated and will be removed in a future version,解决办法: words_stat = words_df.groupby(by=['segment'])['segment'].agg({"计数": numpy.size}) 上面代码改成下面代码就可以了。应该是版本问题。 word_stat = word_df.groupby(by=['segment'])['segment'].agg(np.size) word_stat = word_stat.to_frame() word_stat.columns = ['计数']
你可能还喜欢
基于深度学习的计算机视觉技术在无人驾驶中的应用
美团技术团队
1小时搞懂 Git 版本控制
Fengy
AutoML 在推荐系统中的应用
第四范式技术团队
Kibana Canvas 初探
medcl
今夜,我们聊聊中国的开源
开源社
统一认证与授权在微服务架构中的设计与实战
CANGWU
微信扫描登录