文学院成功举办“面向NLP的语言资源基础设施建设:从知识到数据”专题讲座

编辑: 时间:2021-04-24 点击数:

4月23日下午,北京大学中文系詹卫东教授为文学院师生作了题为“面向NLP的语言资源基础设施建设:从知识到数据”的学术讲座。该讲座为文学院多语智能研究中心“学科前沿语言分析技术系列讲座”第二讲,也是“学科前沿语言分析技术教学实践改革”项目的重要实践。



讲座由语言学教研室副主任、多语智能研究中心副主任赵强老师主持,中心研究员翟燕教授、林晓恒副教授、马千老师及相关专业学生出席讲座。



詹教授首先就语言学观念的发展演变作出了综述,并根据自己的科研经验,通过树形图的方式明确了计算语言学这一交叉学科在整个学科体系中的位置。随后詹教授探讨了计算语言学的研究工作模式,并通过调研整理的数据得出了“大规模语言资源的发展日益受到重视”的结论。

詹教授重点探讨了深层标注与资源建设问题的三个层面。现代汉语句法结构树库是对句法结构数据的搜集、归纳与分析,可以应用于句法结构树图展示、句法结构组合规则自动抽取等方向。中文深层语义标注语料库的构建囊括了概念义、命题义与超命题义这三个层次。现代汉语构式知识库相当于类词库,具有组合性与无递归性,可以解决很多短语结构分析不易处理的问题。随后詹教授讨论了浅层标注和资源建设问题,介绍了基于方位词语替换的空间方位语义理解测评数据集和基于正反同义格式语义关系判定的语义理解测评数据集两个研究方向。

詹教授通过对深层标注与浅层标注的比较分析对未来学科的发展前景作出了展望,对同学提出的“近义词标注问题”和林晓恒老师提出的“中小学语文教材语料库设计问题”作出了解答。

詹教授对计算语言学学科发展与语言资源基础设施建设的深入分析与介绍,不仅加深了我们对已有研究成果的认识,更为我们提供了很多亟待解决的问题及新的研究思路,与中心目前在建的项目和未来研究方向非常契合,也为文学院培育交叉学科提供助力。


学院地址:北京市海淀区中关村南大街27号文华楼13层  邮政编码:100081 2019© 中央民族大学文学院