文本相似度的设计与实现

作者/分享人:Emmitte
向 Ta 提问
参与人工智能技术对主机监控数据的预测及问题定位项目,主要负责算法设计及后台研发; 参与春运平安播报项目,主要负责后台研发模块; 参与商品推荐系统项目,主要负责相似度算法研发及对Lucene中morelikethis类进行改写; 参与融合堆叠降噪自编码器的情感分类系统的研究与实现,主要负责算法及后台研发; 参与K-means算法在网上书城系统中客户聚类分析的应用,主要负责算法及后台研发;

经历学校论文查重的种种繁琐事项,我们从中发现费钱费力,既交花钱给知网查重又要对查重后的文章进行修改、调整,简直是对学生语文功底的考察而不是对学生技术能力的考察,针对文本查重场景本文预设计一个文本相似度系统以帮助我们在参考其它文献时比对自己与其它文献的相似度,以此来减轻我们后期的工作负担。

本场 Chat 以吐槽为背景顺便复习/学习一下 NLP 中的本文相似度,您将学到如下内容:

  1. 了解向量空间模型(VSM);
  2. 了解余弦相似度;
  3. 文本相似度系统的核心算法及流程;
  4. 系统设计及核心代码。

文章思路:

  1. 介绍文本相似度的相关基础理论,包括向量空间模型(VSM)、余弦相似度等。
  2. 介绍文本相似度系统设计及流程。
  3. 将核心代码展示给读者。

核心系统设计流程:

  1. 将文档输入系统,对文档进行数据预处理操作,数据预处理完成后使用向量空间模型将词组转化为向量。
  2. 使用余弦相似度计算公式求解文档之间的相似度,其中本系统中对文档中的每个小段落进行切片处理,并分别计算各切片间的相似度。
  3. 对切片相似度进行加权求和即得到文档之间的相似度,最终将文档之间的相似度展示给用户。
已有466人预订
预订达标
文章出炉
     
18.08.03
18.08.17
本场 Chat 文章已出炉,购买后即可阅读文章并获得一张Emmitte的读者圈Pass
请务必添加GitChat服务号以查看活动进度及获取活动通知。
你可能还喜欢
MyBatis 枚举全面使用指南
逆流而上/isea533
有关微服务的简介和经验分享
Yang
大型 Java 应用后台重构技术策略详解
驰骋
如何采用一套程序代码,实现系统的“千人千面”
白公
如何在繁重工作间隙保持良好的自学节奏和效能?
大妈
微服务网关 Spring Cloud Gateway 的应用实战
aoho求索
Docker 的基础知识整理
假不理
Dubbo 框架内核原理剖析
追梦
分布式链路追踪的前世今生
ASCE1885
穷人的新年红包系统,单节点 12W TPS
文心紫竹
Vue.js 快速开发小程序实战
芒果
RocketMQ 消息类型介绍及实现原理探究
老田
从源码的角度了解分析面试过程中遇到的 Spring 问题
杨琪
IoT:树莓派实现 Serverless 架构的商场人流分析系统
苏堤嘉木
深入理解延迟调度线程池原理与实现
南桥畂翊
微信扫描登录