责任单位:应用语言学研究室
负责人:张伯江
研究状况和选题价值
1. 国内外相关研究
许多国家都将语料库建设视为重要的基础工程,并建设了国家语料库。比如,英国国家语料库(BNC)于1991年开始建设,1994年完成第一版,此后在2001年和2017年相继发布了第二版、第三版,规模为1亿词。美国国家语料库(ANC)于1998年开始筹划,2003年发布第一版,规模为1110万词;2005年发布了第二版,规模为2200万词,2006年以后,美国国家语料库开始专注于开放的语料库(OANC)和人工标注子库(MASC)的建设。美国国家语料库的建设直接对标英国国家语料库,共识部分的语料也设计为1亿词,目前还在建设中。韩国政府于1998年启动了“21世纪世宗计划”项目,建设2亿词单元(eojul)的韩国国家语料库(KNC),如今已经完成。此外,俄罗斯、匈牙利、泰国、爱沙尼亚等国家也都建设并发布了各自的国家语料库。这些国家语料库均是平衡语料库,都对语料库进行了切分、标注等加工,为促进本国语言研究发挥了重要积极作用。
语言所应该建立国家水平的规模大、平衡性好、综合性强、动态更新、标注丰富、用途多样、开放共享、使用便利的当代汉语语料库,真实反映国家通用语真实面貌。中国目前还没有类似的国家语料库。我国语料库的建设在20世纪70年代开始起步,截止目前已经陆续建成了多个汉语语料库,比较知名的有北京大学CCL语料库、北京语言大学BCC语料库、国家语委语料库,等等。
2. 已有代表性成果分析评价
国内已建成的语料库对汉语教育与研究发挥了重要的积极作用。但是,这些语料库依然存在一些不足,不能完全反映汉语使用的真实现状:
(1)语料库采样不平衡,注重书面语语料而缺少口语语料。CCL语料库当代部分中报刊语料的占比高达71.45%,口语语料占比只有0.26%。BCC语料库仅将2013年的新浪微博文本作为口语语料,国家语委语料库则没收口语语料。但是相比较而言,口语语料更接近语言使用的真实状况,能更直接反映语言的面貌。反观其他国家语料库,也是口语语料占比较大,更为合理。比如,英国国家语料库90%为书面语语料,10%为口语语料;美国国家语料库第一版的1100万词的语料中,书面语语料占800万,口语语料占300万。
(2)样本大小未加以控制,同等规模的语料库文本覆盖面较窄。有的语料库未对样本大小进行控制,同样影响了语料库的平衡性与代表性。比如,CCL语料库和BCC语料库对文学家作品全文收录,而标准的平衡语料库避免同一作者的文学作品过多、过长、比重过大,过度代表某特殊文本从而影响语料库平衡性。相比之下,国外国家语料库这方面做得比较好,比如英国国家语料库最多只从单一作者作品的不同部分抽取45000词的样本。
(3)语料库没有或者缺少定期更新计划,难以进行基于历时平衡语料的研究。历时语料库的建设需要及早设计和规划,长期跟进,我国在这方面尚没有引起足够重视。国外许多国家语料库制定了定期更新的计划,比如美国国家语料库除1亿词的共识语料外,还计划每5年再动态增加10%的规模。
(4)语料媒体形式较为单一。国内现有大型语料库中的语料多为文本形式,多媒体形式的语料库规模均比较小,取材受限,无法反映汉语使用的全貌,尤其是鲜活口语使用的面貌。位于国际研究前沿的基于“多媒体、多模态”语料库的研究越来越多,但国家通用语的多媒体、多模态语料库的建设仍相对滞后。
(5)语料库应用系统功能不足。如果语料库应用系统缺乏丰富的功能,将无法为使用者提供应有的服务,语料库的应用价值和建设意义也将大大折扣。在语料库应用方面,许多国外语料库都提供了功能强大的应用平台,提供了丰富的应用功能,比如查询、词表、搭配、对比、统计等等。CQPweb、Sketch Engine等互联网语料库应用平台是发展的主流方向,可以使用计算机阵列进行复杂运算,提供丰富的语料库应用功能。与上述软件和平台相比,国内语料库还大多只提供了语料查询功能,仅BCC语料库和国家语委语料库提供简单统计词表功能,离语言学的深入研究需求相去甚远。尤其是多媒体、多模态语料库数据集成查询和分析研究方面,从理论探索到实际应用软件开发都还乏善可陈。
国内建设的语料库远不能满足语言调查与研究的实际需求,已经成为严重制约学科发展、科学研究、交流合作的阻碍,与我国的大国地位不相匹配。建设中国国家语料库迫在眉睫。
3. 价值及意义
当代语料建设的价值和意义主要体现在三个方面:
第一,可以更全面地反映国家通用语使用与发展全貌,是国家软实力的体现,也是亟待建设的重要资源。
第二,有助于填补学界缺少大型国家通用语动态平衡语料库的空白,更好地服务语言研究。
第三,可以推动一批研究工作的开展,比如大型国家通用语描写语法研究、语言生活的多视角调查、多方面语言发展演变研究、语言本体与语言信息处理的互动研究,等等。