首页
我们
党建
科研
学人
资源
教学
搜索
欢迎您访问语言研究所!

中国社会科学院语言研究所语言学沙龙第356次

作者:张永伟 来源:今日语言学 时间: 2023-01-06
字号:
  2022年12月29日上午9点半,中国社会科学院语言研究所语言学沙龙第356次于线上举办。应用语言学研究室张永伟副研究员做了题为“汉语本体视角的自动分词、词性标注、注音评测方法研究”的学术报告。
 

 

  此项研究以权威语文辞书作为汉语本体研究的典范成果,将辞书条目视为汉语基本词汇系统的典型代表,以辞书例句作为评测语料,对例句中核心词的切分、词性标注、注音准确率进行评测。同传统精准率、召回率、F1值的评测方法相比,本评测方法的语料规模小、质量高、词汇分布均匀,避免了传统评测方法数据稀疏和性能被高频词“遮蔽”等问题,为低频词提供了公平的评测机会。
  熟语料库中的语料需进行语言学信息标注。大规模熟语料库的标注通常使用计算机自动切分标注工具进行。在词法自动分析层面,自动分词、词性标注、注音最为常见,它们的性能将直接影响熟语料库的质量,进而影响基于熟语料库进行的各种语言研究。汉语基本词是现代汉语词汇系统的基础,但学界对许多基本词的切分标注标准尚存在分歧,影响着切分标注结果。从汉语本体视角(语言学对汉语词进行切分标注的标准)对汉语基本词的切分标注性能进行评价,可以更有针对性地判断切分标注是否符合语言学家的最新成果。但传统评测方法不利于从汉语本体视角进行评价,张永伟的研究是对传统评测方法的有效补充,为熟语料库建设中这些工具的选择和改进提供了新的依据。
  报告结束后,刘探宙研究员、李爱军研究员、夏俐萍研究员、殷治纲副研究员、储泽祥研究员、研究生刘婷等先后发言,并围绕汉语本体视角具体含义、歧义问题计算机如何消解、大规模高质量语料库是否需要完全的人工校对、切分标注的粒度、本项研究实现细节等进行了深入的交流和讨论,为本项研究的进一步完善提供了重要参考,为研究成果在语料库加工处理中的应用实践提供了宝贵的建议。
本次学术沙龙在热烈的讨论气氛中结束。