首页
我们
党建
科研
学人
资源
教学
搜索

2023第三届计算词典学研讨会综述

来源:今日语言学 时间: 2023-12-15
字号:

 

 

  2023年12月9日上午,“第三届计算词典学研讨会”在中国社会科学院语言研究所大会议室举行。会议由中国社会科学院语言研究所、中国社会科学院辞书编纂研究中心、中国社会科学院语言研究所语料库暨计算语言学研究中心主办,薛嗣媛博士主持。参加会议的专家学者来自中国社会科学院、北京大学、北京语言大学、广东外语外贸大学、首都师范大学、鲁东大学、河北师范大学、河北工业大学、南方医科大学、人民教育出版社等单位。会议的主题为“大语言模型下的辞书编纂”。

  张伯江所长在开幕式致辞中首先回顾了辞书编纂研究中心、语料库暨计算语言学研究中心成立发展的历史以及往届计算词典会的成功举办,接着从融媒辞书和以ChatGPT为代表的通用人工智能大语言模型两个新生的方向对于整个辞书学所蕴含的机遇和挑战出发,指出大语言模型将为辞书编纂和使用带来极大的变革。当前工作的一个重要任务就是积极促进语料库技术和信息技术辅助辞书编纂,提升编纂效率,提高辞书质量。目前语言所正在大力扶持大语言模型同辞书编纂的结合,对相关工作寄予厚望。

 

张伯江研究员致开幕辞

 

  4位专家学者在研讨会上做了主旨报告。

  北京语言大学杨玉玲教授做了题为“大模型与汉语学习词典的邂逅和交锋”的报告。报告聚焦外向型词典的编纂研制工作,首先展示了ChatGPT在新词语编写中速度上和数量上的惊人表现,随后以外向型汉语学习词典的六个“不”困境为衡量标准,指出大语言模型虽然具备一定的模糊检索能力、拥有丰富的知识库,但是一方面需要较高的向大语言模型提问的水平,对于留学生难度较大,另一方面可操作性不如词典,释义用词难度较大。报告还对比了几种常见大语言模型的不同表现,通过研制融媒汉语学习词典——“JUZI汉语”APP的实践,结合外向型词典编写时使用的提取搭配、偏误预警、易混淆词辨析、字词关联、构建语义关系网络等的完成情况进行了细致的优劣分析,指出对大语言模型的定位是辅助人工编纂的工具,应当积极探索词典学领域专用的大语言模型,推动词典生成智能化。

 

杨玉玲教授做报告

 

  北京大学俞敬松副教授做了题为“古汉语及文献辞典编纂智能词典大模型探索”的报告。报告分享了北大古代汉语标注语料库团队在模型训练、系统研发和数据准备方面的情况。报告详细分享了当前具体工作的经验,指出词汇的语义分析是工作的难点,推动古汉语自然语言处理在大模型时代的进化需要大规模文献库向深加工语料库前进,研制基于大语言模型的语言学研究工具箱,重构类似《故训汇纂》等类型的文献型辞书新形态,由辅助辞书编纂逐步发展为自动编纂,提供更智能、便捷的数字辞典使用新体验。报告展示了模型在字词解释、词意关联、字词用法、字词造句、自形偏旁、典故寓意、字词推荐、语境释义等功能以及数据收集清洗、增量预训练、有监督微调、测试与优化、系统集成等基本的工作方法,强调了计算机技术人员与语言学研究者合作的重要性。

 

俞敬松副教授做报告

 

  广东外语外贸大学柳长青教授做了题为“基于LLM(大语言模型)的词典自动编纂研究”的报告。报告首先介绍了大型语言模型的工作原理和国内外知名的词典编纂平台,解释了词向量、神经网络、注意力机制等基础核心概念。词向量是单词在高维空间中的数字表示,把词语编码为一个个的向量,可以使其能够通过向量运算来推理预测。大语言模型实际是通过神经网络对读取的互联网文本语料进行参数计算后的有损压缩,现有大语言模型的中的向量维度极为庞大,这有利于表达更为丰富的语义信息,但数据的质量高低对大语言模型的表现同样起着至关重要的作用。报告接着以百年来欧美外来词语言资源平台为例,展示该数据库的界面和功能,并随机抽取131个外来词,测试该自有模型和GPT释义正误情况,对其结果表示乐观。

 

柳长青教授做报告

 

  中国社会科学院语言研究所张永伟副研究员做了题为“大语言模型为辞书编纂带来的机遇与挑战”的报告。报告首先提出了语言智能时代下大语言模型与辞书编纂的深度融合的思考,强调应当充分利用大语言模型来承担词汇研究中语料整理、词义分析等工作的部分劳动,从而提升辞书编纂的效率和自动化、智能化程度。为验证大语言模型在自动释义方面的可行性,研究选取了45个典型的汉语词语,引导大语言模型自动编写条目释义,并对释义效果进行调研。调研结果显示,公众对语言模型编写词条的认可度整体较高,对实词释义的评价高于虚词。报告还指出大语言模型释义在准确率、义项设置、释义语言和配例方面的局限性,以及具体自动释义上表现优秀和欠佳的情形,由此总结出当下的大语言模型只能作为辞书编纂的辅助工具,自动释义依然需要人工干预,但是可以利用大语言模型为繁复的编纂工作减负。

 

张永伟副研究员做报告

 

  报告引起了在场的学者的热烈讨论,几位报告人就大语言模型适用场景、所需的训练语料的类型、辅助内向型外向型词典编纂效果的差别等问题进行了进一步的交流和分享。会议在热烈的讨论氛围中结束。

 

现场讨论集锦

 

与会人员合影