自然语言处理之近义词包 Synonyms

作者/分享人:胡小夕
向 Ta 提问
北京邮电大学研究生,目前实习于今日头条AI LAB。从事自然语言处理方向研究,在智能客服,知识图谱等领域都有相关研究开发经验。研发模型在文体分类权威数据集TREC上达到目前最优精度,深情深度学习与自然语言处理结合的国家发明专利5项。

目前很缺乏质量好的中文近义词库,于是便考虑使用 word2vec 训练一个高质量的同义词库将“非标准表述”映射到“标准表述”,这就是 Synonyms 的起源。在经典的信息检索系统中,相似度的计算是基于匹配的,而且是 Query 经过分词后与文档库的严格的匹配,这种就缺少了利用词汇之间的“关系”。而 word2vec 使用大量数据,利用上下文信息进行训练,将词汇映射到低维空间,产生了这种“关系”,这种“关系”是基于距离的,有了这种“关系”,就可以进一步利用词汇之间的距离进行检索。所以,在算法层面上,检索更是基于了“距离”而非“匹配”,基于“语义”而非“形式”。

本话题将分享 Github 开源项目 - Synonyms 中文近义词工具包,主要内容如下:

  • 应用场景
  • 现有的近义词包
  • N-gram 模型介绍
  • word2vec 原理
  • 使用的开放数据集
  • 训练过程
  • 计算句子相似度公式
  • 待改进的地方
已有76人预订
预订达标
文章出炉
交流日期
     
01月15日
01月29日
02月05日
预订后,您将在01月29日之前获得一篇专享文章,并在02月05日前参与一场为本文作者和读者定制的长达60分钟的专属线上交流,您还将获得一张胡小夕的读者圈Pass
请务必添加GitChat服务号以查看活动进度及获取活动通知。
退款保证:
• 01月17日前,预订人数未达标,您将获得全额退款。
• 作者未按时完成文章,您将获得全额退款。
• 作者未按时间进行分享,您将获得全额退款。
你可能还喜欢
聊聊 CSS 中的布局模式
大漠_w3cplus.com
软技能:程序员如何在职场上少走弯路
墨雪卿
如何用 Python 爬取网页制作电子书
孙亖
Spring Boot 2.0 的快速入门(图文教程)
泥瓦匠 @ bysocket.com
如何在网上下载自己需要的资源
曹某某
GitChat 被恶意攻击引发的技术性思考:拒绝服务攻击
肖志华
利用开源代码和读相关论文来提高写代码能力
李峰
中小型企业基于大数据技术的项目实践
Tumweeg
前端如何拥有自己的服务器
郭方超
浅谈如何开一场 Chat
白宦成
如何更好的把控项目进度以及对资源进行估算
PM圈子-管理
通过源码深入理解 Spring 事务的实现原理
分布式熔断、限流与服务保护:深入 Hystrix 原理及使用
快乐崇拜
前端跨域问题各种解决方案
npc光明
查询参数缓存从零到一个框架的演进
奔跑吧架构师
微信扫描登录