自然语言处理之近义词包 Synonyms

作者/分享人:胡小夕
向 Ta 提问
北京邮电大学研究生,目前实习于今日头条AI LAB。从事自然语言处理方向研究,在智能客服,知识图谱等领域都有相关研究开发经验。研发模型在文体分类权威数据集TREC上达到目前最优精度,深情深度学习与自然语言处理结合的国家发明专利5项。

目前很缺乏质量好的中文近义词库,于是便考虑使用 word2vec 训练一个高质量的同义词库将“非标准表述”映射到“标准表述”,这就是 Synonyms 的起源。在经典的信息检索系统中,相似度的计算是基于匹配的,而且是 Query 经过分词后与文档库的严格的匹配,这种就缺少了利用词汇之间的“关系”。而 word2vec 使用大量数据,利用上下文信息进行训练,将词汇映射到低维空间,产生了这种“关系”,这种“关系”是基于距离的,有了这种“关系”,就可以进一步利用词汇之间的距离进行检索。所以,在算法层面上,检索更是基于了“距离”而非“匹配”,基于“语义”而非“形式”。

本话题将分享 Github 开源项目 - Synonyms 中文近义词工具包,主要内容如下:

  • 应用场景
  • 现有的近义词包
  • N-gram 模型介绍
  • word2vec 原理
  • 使用的开放数据集
  • 训练过程
  • 计算句子相似度公式
  • 待改进的地方
已有257人预订
预订达标
文章出炉
交流日期
     
01月15日
01月31日
02月07日 20:30
查看文章评论/提问
Di
写的挺好。 但是需要考虑语料中正反义的问题。 例如: 苹果手机好 苹果手机好的狠 苹果手机坏的狠 那么基于你的语义挖掘,好和坏就是近义词了。谢谢。
鸣宇淳
请教个问题,除了使用已有的维基百科训练出来的相近词外,用户有办法自定义相近词吗?因为有些应用场景中有自己的专用相近词。
王晓明
你好,编辑距离的权重是0.8,余弦距离的权重是5,这两个权重是怎样确定的?就是决策树中x[0]<0.0725划为0类,否则划为1类这样计算出来的吗?
你可能还喜欢
初探 Metasploit 漏洞框架
肖志华
使用 Mpvue 开发微信小程序的最佳实践
美团点评技术团队
Java 优化方案:设计模式
Array老师
普通程序员如何快速提升自己
王俊生
使用 Python 全栈打造淘宝客微信机器人
州的先生
大厂面试官亲述:0~3年移动研发工程师必备技能
richardcao
微信扫描登录