文本相似度的设计与实现

作者/分享人:Emmitte
向 Ta 提问
参与人工智能技术对主机监控数据的预测及问题定位项目,主要负责算法设计及后台研发; 参与春运平安播报项目,主要负责后台研发模块; 参与商品推荐系统项目,主要负责相似度算法研发及对Lucene中morelikethis类进行改写; 参与融合堆叠降噪自编码器的情感分类系统的研究与实现,主要负责算法及后台研发; 参与K-means算法在网上书城系统中客户聚类分析的应用,主要负责算法及后台研发;

经历学校论文查重的种种繁琐事项,我们从中发现费钱费力,既交花钱给知网查重又要对查重后的文章进行修改、调整,简直是对学生语文功底的考察而不是对学生技术能力的考察,针对文本查重场景本文预设计一个文本相似度系统以帮助我们在参考其它文献时比对自己与其它文献的相似度,以此来减轻我们后期的工作负担。

本场 Chat 以吐槽为背景顺便复习/学习一下 NLP 中的本文相似度,您将学到如下内容:

  1. 了解向量空间模型(VSM);
  2. 了解余弦相似度;
  3. 文本相似度系统的核心算法及流程;
  4. 系统设计及核心代码。

文章思路:

  1. 介绍文本相似度的相关基础理论,包括向量空间模型(VSM)、余弦相似度等。
  2. 介绍文本相似度系统设计及流程。
  3. 将核心代码展示给读者。

核心系统设计流程:

  1. 将文档输入系统,对文档进行数据预处理操作,数据预处理完成后使用向量空间模型将词组转化为向量。
  2. 使用余弦相似度计算公式求解文档之间的相似度,其中本系统中对文档中的每个小段落进行切片处理,并分别计算各切片间的相似度。
  3. 对切片相似度进行加权求和即得到文档之间的相似度,最终将文档之间的相似度展示给用户。
已有581人预订
预订达标
文章出炉
     
18.08.03
18.08.17
本场 Chat 文章已出炉,购买后即可阅读文章并获得一张Emmitte的读者圈Pass
请务必添加GitChat服务号以查看活动进度及获取活动通知。
你可能还喜欢
近距离接触 DDD
文贺
Python 常见的 170 道面试题全解析:2019 版
陈祥安
Docker 快速入门
技术人的突破
Apollo 轨迹规划技术分享
Apollo开发者社区
如何利用碎片时间,提升自己的职场竞争优势
代码GG陆晓明
Spring Boot 工程化最佳实践
ASCE1885
爬虫开发入门:使用 pyspider 框架开发爬虫
凯哥
百万级 Excel 如何导出
天涯阁主
项目实战:基于 TCP 的局域网内高性能文件传输系统设计与实现
ZYZMZM
深度学习 0 基础之 AI 视频换脸实践解析
汤青松
内存格系统 Hazelcast 在交易系统中的应用
火币集团研发中心
如何快速准备面试中的算法,获得 Offer?
我爱大口吃饭
如何写好 React 业务代码?
尹光耀
Docker 镜像构建原理及源码分析
张晋涛
5G,一场商业噱头 or 一次技术革命?
Edvin
微信扫描登录
关注提示×
扫码关注公众号,获得 Chat 最新进展通知!
添加小助手微信×