AAAI 2020丨构建多语言义原知识库:BableNet Synset的义原预测 大讲堂 | 第137期
为了解决这个问题,我们提出基于BabelNet——一个多语言百科词典——构建多语言义原知识库
预计时长:15分钟左右
录播课程
414人报名
立即学习
课程介绍

讲者介绍

岂凡超,清华大学计算机系自然语言处理与社会人文计算实验室博士生,师从孙茂松教授。研究方向为自然语言处理,已在AAAI、ACL、EMNLP等人工智能和自然语言处理顶级会议发表数篇论文。

 

论文名称       

构建多语言义原知识库:BableNet Synset的义原预测

论文地址:https://arxiv.org/pdf/1912.01795

Github地址:https://github.com/thunlp/Sememe-SC

 

论文内容简介

在语言学中义原(sememe)被定义为最小的语义单位。为了在自然语言处理领域使用义原,研究者通过人工为词语标注义原进而构建了义原知识库(如HowNet)。目前义原知识库已经在很多自然语言处理任务中发挥作用。然而,现有的义原知识库仅仅为少数几种语言的词语标注了义原,这在一定程度上阻碍了义原的广泛使用。

为了解决这个问题,我们提出基于BabelNet——一个多语言百科词典——构建多语言义原知识库。BabelNet由synset构成,每个synset包含了不同语言的同义词(比如“丈夫”和“husband”就在同一个synset中)。我们人工为大概1.5万个常见的synset标注了义原,将其作为未来大型多语言义原知识库的种子。此外,我们提出了一个新的任务——BableNet synset义原预测,旨在为无标注的BableNet synset自动标注义原,进而不断扩充多语言义原知识库。我们还提出了两种简单有效的义原预测方法,实现了较为满意的义原预测性能。最后,我们也通过定量和定性的实验分析了BableNet synset义原预测这一任务中的难点和重要影响因素。

 

与此同时,论文的文字版解读也已经在“AI科技评论”公众号上放出,请大家关注AI科技评论公众号,或者扫码阅读:

课程须知
  • 本系列视频为AAAI 2020线上论文预分享的精选解读,欢迎大家观看
  • 如果你对AAAI相关工作感兴趣,欢迎加入AAAI 交流群,添加微信:AIyanxishe2,备注:AAAI+领域
  • 更多精彩内容,敬请大家关注研习社公开课的持续更新

授课教师

清华大学计算机系在读博士
微信扫码分享课程