文本相似度的设计与实现

作者/分享人:Emmitte
向 Ta 提问
参与人工智能技术对主机监控数据的预测及问题定位项目,主要负责算法设计及后台研发; 参与春运平安播报项目,主要负责后台研发模块; 参与商品推荐系统项目,主要负责相似度算法研发及对Lucene中morelikethis类进行改写; 参与融合堆叠降噪自编码器的情感分类系统的研究与实现,主要负责算法及后台研发; 参与K-means算法在网上书城系统中客户聚类分析的应用,主要负责算法及后台研发;

经历学校论文查重的种种繁琐事项,我们从中发现费钱费力,既交花钱给知网查重又要对查重后的文章进行修改、调整,简直是对学生语文功底的考察而不是对学生技术能力的考察,针对文本查重场景本文预设计一个文本相似度系统以帮助我们在参考其它文献时比对自己与其它文献的相似度,以此来减轻我们后期的工作负担。

本场 Chat 以吐槽为背景顺便复习/学习一下 NLP 中的本文相似度,您将学到如下内容:

  1. 了解向量空间模型(VSM);
  2. 了解余弦相似度;
  3. 文本相似度系统的核心算法及流程;
  4. 系统设计及核心代码。

文章思路:

  1. 介绍文本相似度的相关基础理论,包括向量空间模型(VSM)、余弦相似度等。
  2. 介绍文本相似度系统设计及流程。
  3. 将核心代码展示给读者。

核心系统设计流程:

  1. 将文档输入系统,对文档进行数据预处理操作,数据预处理完成后使用向量空间模型将词组转化为向量。
  2. 使用余弦相似度计算公式求解文档之间的相似度,其中本系统中对文档中的每个小段落进行切片处理,并分别计算各切片间的相似度。
  3. 对切片相似度进行加权求和即得到文档之间的相似度,最终将文档之间的相似度展示给用户。
已有250人预订
预订达标
文章出炉
     
08月03日
08月17日
本场 Chat 文章已出炉,购买后即可阅读文章并获得一张Emmitte的读者圈Pass
请务必添加GitChat服务号以查看活动进度及获取活动通知。
你可能还喜欢
如何设计一个灵活的 MySQL 数据表,应对灵活多变的需求
李岩
Jenkins 自动化构建部署实战
火币集团研发中心
Java 程序员应掌握的 Nginx 实战应用
JPM
带你玩转 JSON
能量架构师
实战剖析 Java 秒杀系统的实现
虎口脱险
小程序从入门到进阶
loonglong
从零搭建 Hadoop 集群
杨爵爷
实战讲解接口自动化测试思路
金刚
你不得不了解的 Flutter 入门教程
火币集团研发中心
Java 并发面试题解
Eric Chen
一篇文章读懂 MySQL 中的锁
张宏杰
电商项目可扩展性数据库设计与实现
丹丹
从 Word Embedding 到 Bert:一起肢解 Bert!
武博士
Linux 脚本攻略一(基础知识点)
无人驾驶
记一次最简单的 Jmeter 压力测试
zaqweb
微信扫描登录