中国社会科学院语言研究所于2019年9月19日召开了“语言学数字化科研生态建设”研讨会,会上语言研究所党委书记陈文学致开幕辞,语言研究所所长刘丹青做总结发言。
语言研究所党委书记陈文学在“语言学数字化科研生态建设研讨会”上的开幕辞
尊敬的各位嘉宾朋友们,同志们:
大家上午好!
首先我代表语言研究所对参加本次研讨会的各位专家学者和院信息化管理办公室副主任张志琦同志及俞凤同志、包雪宁同志表示热烈欢迎,对大家在百忙之中莅临本次会议表示衷心感谢。
当今社会处于信息化、网络化、大数据时代,建设数字化科研生态系统是做好科研工作的现实需要;中央提出加快构建中国特色哲学社会科学,强调科研创新,建设数字化科研生态系统也是科研方法创新的必然要求。今天会议的目的就是请各位专家来共同研讨语言资源建设,以推动我所信息化工作。在此,简要谈三点认识。
一、我们对语言学数字化科研生态系统建设工作高度重视
近日,我所专门组织召开了一次调研座谈会,对各个研究室的语言数据资源建设的现状和需求做了一个初步梳理。通过充分讨论,大家一致认为,不管是基础学科的研究工作,还是辞书编纂工作,都离不开语言数据资源的支撑,在互联网、大数据和人工智能技术日益成熟的条件下,建设好语言学数字化科研生态是非常有必要的,这也是以实际行动来落实我院“三大体系”建设工作要求的一项重要举措,更是推动我所学科发展和科研转型升级的一项重要举措。助力科研、服务社会是我所语言学数字化科研生态建设的发展目标。要实现这一目标,我们需要集中精力扎实做好三个方面的工作:一是要做好语言所网站的改版升级和日常维护工作,发挥好所网站的窗口作用和阵地作用;二是要整合所内现有的各类语言数据资源,首先在全所范围内实现资源共享,服务于全所科研工作,然后逐步向社会开放,服务于学界和业界;三是要以语言科学博物馆建设工作为抓手,深入调研,找准定位,集中力量建设一批急需的、稀缺的和高质量的语言数据资源,服务于语言资源保护、语言学本体研究和国内相关应用领域的发展需要。
二、我们在语言学数字化科研生态系统建设方面积累了一定经验
在利用语言数据资源推进学术研究方面,语言所的前辈学者给我们做出了非常好的表率。在编纂《现代汉语词典》的过程中,老一辈学者摘抄并积攒了近百万张的资料卡片,并且分门别类地加以索引,这本身就是一个规模宏大的语料库,而且还是经过专家筛选出来的精品语料资源,这些资源对于《现代汉语词典》的编纂工作发挥出了重要作用。在自然语言处理和技术开发方面,我们也有着辉煌的历史,比如说早期的机器翻译工作和基于声学参数的语音合成工作,语言所在这些领域都曾取得过重要成就。近些年来,我们在语音资源建设方面做了大量工作,取得了可喜成绩,并与一些科技公司开展了深度合作,建立了联合实验室,在一定程度上促进了国内智能语音技术的发展。以上种种表明,我们在语言数据资源建设和利用等方面是有一定积累和传承的,也有着一些成功经验。我们希望借助这次语言学数字化科研生态建设的机会,进一步与学界业界的同行们开展深入的交流与合作,充分发挥语言所专家人才的学术优势,建设一批立足学术和技术前沿、富有特色和知识含量、务实管用的语言数据资源。
三、我们对语言学数字化科研生态系统建设前景充满信心
通过前期调研,我们看到所里有一批年轻同志,他们一直关注并从事着语言数据资源建设和技术开发等方面的工作,有着一定的技术基础和学术积累。特别是应用室和语音室,这方面的人才力量相对比较强,而且积累了很多语音与语言数据资源。其他研究室也都有一些颇具特色的数据资源,比如说方言室的《现代汉语方言音库》和《现代汉语方言大词典》,词典室的《现代汉语词典》,新华字典室的《新华字典》,等等。此外,还有在座的各位专家学者帮我们把关,为我们出主意,想办法。既有内生力量,又有外部支援。我相信,在这样的有利条件下,只要我们全所上下齐心协力,完善体制机制,做好项目规划,设计好实施方案,以求真务实、开拓创新的精神,扎实推进这项工作,我们就一定能够把这件事情做成、做好,从而有力推动语言学本体研究、语言资源保护以及AI技术与语言研究的融合发展,服务于语言所科研工作,服务于语言学“三大体系”建设,服务于学界和业界的数据资源需求。
再次感谢各位专家学者和院信息化管理办公室的领导对语言所工作的大力支持,请大家在会上畅所欲言,为语言学数字化科研生态建设工作不吝赐教,多提宝贵意见和建议。
最后,祝这次研讨会取得圆满成功!谢谢大家!
语言研究所所长刘丹青在“语言学数字化科研生态建设研讨会”上的总结发言各位专家,同志们:
大家辛苦了。这次会议的召开非常及时也非常必要。借今天这个机会,很多计算语言学、大数据、人工智能等领域的重量级学者在百忙之中来所里报告,为我们带来最前沿的学术研究成果和技术信息,令我们大开了一次眼界。
我院总体上是一个哲学社会科学和人文学科的研究部门。当然,里面也有很多跟数据信息密切相关的学科,比如经济类学科和社会学类学科等。像我们所在的文哲学部,相对还是人文气息较重,倾向传统研究方法的传承。在文哲学部里,我们语言所算是一个例外,因为语言所在学科定位上就是处在人文社会学科里面偏于自然科学的一个位置,其中有一些分支学科已经直接可以认为是自然科学的分支或者为交叉学科。所以我们一直在这方面试图兼顾人文社会科学和自然科学的一些长处,以此来建设我们的学科体系。但是反观现状,在全国和全世界信息科学、大数据、人工智能、网络时代飞速发展的时候,我们的步伐实际上是比较滞后的。所以在刚才各研究室的汇报中,大家也听出虽然我们有过在计算语言学方面的一些辉煌历史,这些年来我们在数据信息方面也做了大量的工作,但总体来说成效并不显著,对于学术研究的支撑作用也未起到预期效果,我们的危机感也在愈发增强,这也迫使我们要重新重视这个问题。
语言学跟计算机、信息科学的发展虽然曾经非常紧密,但是就像刘挺教授所述,它们有时候好像又呈现出渐行渐远的情况。从语言哲学上来说,这可能跟语言学界和信息科学界对于语言本质的理解存在一定距离有关。如何更加全面的认识语言本质?计算语言学研究为什么在依赖定性分析和逻辑语义时走了很多的弯路,却达不到高效率提高机器翻译和人工智能这些方面的效果,反而到了一定阶段,依靠计量、统计、深度学习、大数据能够取得阶段性突破性效果?我个人认为,这可能是由于以往我们对于语言作为符号系统和交际工具的认识、对于语言本身的数据性质的认识并不充分。
造成数据对于语言的重要性可能有以下四点原因:其一,语言产生的本质为“约定俗成”,经过大浪淘沙,这跟大数据产生的原理一样。“俗成”的“俗”就是语言所在社团的大众,语言产生时的不同选项,只有被大部分人接受的要素才能沉淀下来成为语言要素,其他可能只是个人的言语现象。其二,任何符号系统中的符号有限性和人类所需表达内容的无限性之间的关系,决定了符号肯定会承载比一对一的关系更为复杂的情况。所以多义词不是偶然多义,而是语言的一种本质现象,即:一个符号对应不止一个意义。意义之间地位并不平等,有的意义更加强势,有的意义相对弱势,不是分成几个意义单位就能解决的。这就大大增加了形式和意义之间的复杂性,使单纯的逻辑运算难以达到理想的效果。其三,设想如果抛开约定俗成的语言而人工设计一种比所有人类语言都要更加整齐对应的语言,例如世界语,那么是不是我们处理语言的规则就要容易得多呢?答案是一个阶段之内是这样的,过了一个阶段慢慢的又会开始不行。为什么呢?因为人除了需要准确地表达思想以外,还有一个重大的欲望,就是要表现创造力。人从来不会满足于拿现有的形式和意义的关系来表达,文学的魅力就在于它不断会有一种新的创新的表达。语言永远是在这样的变化中间,使得形式和意义的关系也不会是那么整齐对应。因此,我们原来所指望的通过逻辑语义、通过推导、通过形式逻辑到数理逻辑能够解决我们机器翻译、人工智能、自然语言理解这些问题中的所有问题,实际上是不可能的。其四,人类语言本身就有很多相互对立、相互竞争的原则在起作用,比如说区别度的原则和简洁度的原则就是矛盾的。我们追求经济性,但同时经济性在一定程度上影响到区别度的时候,又必须要追求这个区别度,牺牲一定的经济性,它们总是处在矛盾变动中,没有绝对的平衡。另外,象似性原则是人类语言很重要的原则。但象似性原则跟经济性原则很多时候是对立的。经济性原则要求更加简洁的方式,而象似性的原则要求以更加模拟自然状况的方式来表达。不同的语言以及同一个语言在不同的方言以及不同的阶段可能是有时候象似性强、有时候经济性强;有时候简洁性强、有时候区别度强的,所以这些情况就决定了我们不能指望单靠逻辑、语义、数理逻辑来解决人工智能这些方面的语言符号和意义理解的问题。因此在这个时候,我们就可以看到大数据的巨大作用,看到它可以抛开或者暂时抛开很多需靠逻辑推导、逻辑推理来解决的问题。通过大数据的量化分析,再通过深度学习,我们可以给出在指定情况下一个概率最高的选项。当然,这个选项未必是正确的,这也是今天几位专家谈到的一个瓶颈问题,孙茂松等专家也曾提到计算学家到一定时候又会重新感到语言学知识、语言学研究是有用的,可能两者还需更多的结合。
面对新环境,语言学家本身也应做好准备,不放弃自己的自信心,相信语言学本身的价值,但是也要认识到信息时代、大数据时代、人工智能时代新技术所取得的成绩。语言学家要重新考虑如何使我们的工作更多地得到信息科学、人工智能学界的重视和关注,一方面我们要做出更加符合他们需要的学问出来,另一方面我们也要做好自己的学问,用传统的或者说纯粹用传统的方式可能就不够了。我们要认识到大数据的成功不是一个偶然,它跟人类语言的本质是有关系的。所以说语言学家也要重新考虑一下语言本质的问题,使我们的研究更好地借助于这些工具。
最后,感谢报告嘉宾对我所包括像词典编纂、儿童语言采集、多模态语料的采集和整理、新词语的发现等研究的指导与启发。通过交流,我所当前学术研究也反映出了一些问题,即:虽然身处学术最高殿堂,也属语言学领域领军队伍,但是我们确实是在信息化、数字化方面存在落伍的一面,对学术的支持支撑不够。对此我们要奋起直追。希望借此东风,各研究室也能重新考虑一下在学术发展的大形势下,如何更好地利用和发展我们的学术资源,更多地借助信息化的翅膀提升我们的学术层次,让各个研究室间有更多交流合作。也希望今后我所能有更多的研究成果为计算机学界和信息科学人工智能领域服务。