2024年第四届语料库建设与应用研讨会在京召开

作者：薛嗣媛来源：今日语言学时间： 2024-08-13

字号：小中大

　　2024年8月10日，第四届语料库建设与应用研讨会在北京外国语大学国际会议中心成功举行。本届会议由中国社会科学院语言研究所语料库暨计算语言学研究中心、北京外国语大学中国外语与教育研究中心、国家社会科学基金重大项目（23&ZD314）、中国社科院语言学重点实验室（2024SYZA001）主办，外语教学与研究出版社承办，主题为“语料库语言学前沿：数据驱动的语言研究、创新应用与未来展望”。会议分上午和下午两个半场，分别由中国社会科学院语言研究所张永伟研究员和北京外国语大学中国外语与教育研究中心许家金教授主持。

语料库建设与应用研讨会大会现场

　　中国社会科学院语言研究所所长、国家社会科学基金重大项目（23&ZD314）首席专家张伯江研究员，北京外国语大学中国外语与教育研究中心副主任许家金教授分别致辞。张伯江研究员向与会专家学者表示热烈欢迎和衷心感谢，并总结本届会议的三个新特点：首次公开征稿，设立分组发言；首次由两家单位联合主办；首次融合汉语和外语研究，促进跨语种交流。另外，张伯江研究员介绍了语料库暨计算语言学研究中心在相关领域的发展和成就，展望了语料库语言学研究的美好前景。

张伯江研究员致欢迎辞

　　许家金教授在致辞中表示，本次研讨会是高规格的语料库研究会议，专家阵容强大，吸引了众多学者关注。会议收到近百份摘要，录用率控制在40%，体现了本次会议的严格标准。本次会议旨在促进汉语学界和外语学界的交流与融合，共同推动中国语言研究事业的繁荣发展。

许家金教授致开幕辞

　　研讨会由4场主旨报告和4组分论坛组成。中国社会科学院语言研究所顾曰国教授作了题为《论老年人生历程多模态语料库建设》的报告。报告探讨了语料库语言学的本质和发展方向。报告中，顾曰国教授认为语料库语言学应该从鲜活体验入手，以人为中心，语料库语言学不仅是方法论，更是语言学的重要分支，其终极目标是通过研究语言而理解人。基于此，他提出面向语料库建设的两个奠基命题：第一是语言事实原则，即自然自发语料应该成为语料库的基础；第二是人为终极目的原则，强调语料库的构建需服务于特定的研究目的。最后，顾曰国教授以构建老年专门人群多模态语料库的研究实践为切入点，展示了语料库语言学研究在实现对人生历程的数字化重构方面的应用价值和潜力。

顾曰国研究员作主旨报告

　　北京航空航天大学卫乃兴教授作了题为 AI-Assisted Corpus-Based Studies of Discourse: Significance and Limitations of Machine Learning Techniques 的报告。报告探讨了机器学习技术对语料库语言学研究的影响，重点以话语分析领域的研究为例进行介绍。卫教授指出，随着数据规模的不断扩大，基于语料库的话语分析研究者面临着如何使用新计算技术处理大规模数据、如何挖掘局部语境下暗藏于命题表面下的态度意义，如何精细分析精密细微组织等一系列挑战，迫切需要改进当前数据处理技术以期解决上述问题。卫教授通过量化、可视化方法展示了聚类分析、主题建模、向量建模等技术在语料库的话语分析研究领域的优异性能。他强调，智能分析技术在带来便利的同时也存在随机性和任意性等局限，语言学家始终需要重视真实文本的阅读，结合具体研究问题对技术进行调试干预。卫教授的报告对研究者未来利用机器学习技术进行更大规模语料的话语分析有了更清晰、明朗的认识。

卫乃兴教授作主旨报告

　　北京航空航天大学梁茂成教授作了题为《本地大语言模型与知识图谱构建》的主旨报告。梁茂成教授首先回顾了搜索引擎的发展历程，指出基于大模型的新一代搜索引擎能够有效整合全网信息，给出更个性化、能溯源的回复内容，对传统搜索引擎构成了极大挑战。梁教授介绍了检索增强生成（RAG）技术，及其在信息提取领域的应用。该技术结合了深度学习和知识图谱的优势，能够将非结构化文本转化为结构化的知识，并进行语义层面的分析。最后，梁茂成教授展示了多个最前沿的基于检索增强生成技术的信息检索工具，如ChatPDF、Perplexity、Genspark等，进一步展望了检索增强技术和知识图谱技术在语言学领域的广泛应用前景。

梁茂成教授作主旨报告

　　中国社会科学院语言研究所张永伟研究员作了题为《国家语料库的研制》的报告。张伯江研究员为该报告的通讯作者。报告介绍了国家语料库的项目背景、建设进展和未来展望。张永伟研究员指出，国家语料库是由国家级机构建设的重大文化工程，旨在全面反映国家通用语的使用和发展。张永伟研究员进一步从语料、工具等方面介绍国家语料库的建设进展。现阶段，国家语料库数据规模已达30亿字，包含报刊、法律、教材等多个子库。同时，研究团队开发了在线分析工具，支持检索、统计、搭配、对比等功能，并对语料进行了分词、词性标注、句法分析等标注，还对汉语拼音标注和词义标注等研究内容展开了积极探索。展望未来，张永伟研究员表示，未来的国家语料库将进一步融合人工智能技术，提升语料库的智能分析能力。此外，他呼吁吸引更多高质量中文语料库入驻平台，共同构建一个开放共享、规格统一、多元融合的中文资源联盟。

张永伟研究员作主旨报告

　　研讨会分论坛主题涉及语料库建设、词典与词义研究、汉语研究、英语研究四部分研究内容，分论坛分为上午四组、下午四组，分别在主旨报告后举行。与会者从多学科角度探讨了各类语言研究与语料库、人工智能技术深度融合的有效途径，学术观点碰撞融合、精彩纷呈，为语料库语言学研究提供了新数据、新思路、新方法、新范式。

“语料库建设”分论坛

“词典与词义研究”分论坛

“汉语研究”分论坛

“英语研究”分论坛

　　会议闭幕式由北京外国语大学中国外语与教育研究中心刘鼎甲副教授主持。刘鼎甲副教授对出席会议的专家学者表示衷心感谢，并对会议进行了总结。刘鼎甲副教授指出，此次会议深入探讨了语料库语言学前沿问题，分享了国家语料库最新研制成果，以及汉语和外语学界在大数据和大语言模型驱动下的语料库研究进展。会议涵盖了从语料库建设到应用再到未来展望的广泛议题，汇聚了德高望重的前辈和朝气蓬勃的青年才俊。他强调，语料库语言学作为不断发展的领域，需要研究者保持开放心态，加强交流合作，积极参与全球前沿研究，并充分利用新技术推动创新发展。

刘鼎甲副教授致闭幕辞

　　语料库建设与应用研讨会是中国社会科学院语言研究所语料库暨计算语言学研究中心的系列学术活动之一。本次研讨会不仅是学术交流的一次盛会，更是理论思想与实践创新的一次深度融合，为未来语料库建设与应用提供了重要的经验和借鉴。

搜索

2024年第四届语料库建设与应用研讨会在京召开

数据驱动多模态语料库建设