首页
我们
党建
科研
学人
资源
教学
搜索
欢迎您访问语言研究所!

人工智能与语言研究:语言所学者参加“2017中青年语言学者沙龙”

作者:张定 来源:今日语言学 时间: 2017-03-21
字号:

  2017年1月14日,由中国社会科学院语言研究所、北京语言大学、商务印书馆主办的“2017中青年语言学者沙龙”在商务印书馆举行。


会议现场

  本次沙龙的议题是“语言资源与语言智能”。商务印书馆党委书记肖启明、北京语言大学党委书记李宇明致辞,中国社会科学院语言研究所所长刘丹青做总结发言。

  沙龙由商务印书馆总编辑周洪波主持。我所十多位中青年学者参加了本次沙龙。


商务印书馆总编辑周洪波主持沙龙 

  本次沙龙安排了三场精彩的主题发言,分别是中国科学院院士、清华大学教授张钹的“人工智能与自然语言的处理”、百度公司副总裁王海峰的“语言与智能”和清华大学教授孙茂松的“当巧妇遇到‘大米’——机器翻译启示录”。


张钹教授做报告

  张钹院士结合AlphaGo、Master等当前人工智能领域的热点问题,深入浅出地介绍了当前人工智能所能达到的水平。张院士坦承,人工智能只是迈开了很小的一步,我们目前所能达到的水平离理解人的自然语言还有非常长的路要走。因此,人工智能研究应与语言学、心理学、认知科学等学科结合起来。


王海峰做报告

  百度公司副总裁王海峰的报告基于百度搜索、信息流、百度翻译等互联网实践,生动地展示了当前人工智能研究的新进展。报告认为,随着算法的改变,越来越多的数据、越来越强的计算能力等结合在一起,人工智能虽然不能完全像人一样去理解语言,但在不断达到人能做到的一些效果。同时,语言作为载体,其作用不容忽视。


孙茂松教授做报告

  清华大学教授孙茂松在报告中回顾了机器翻译波澜起伏的历程,他以计算机自动创作古诗为例,探讨了神经机器翻译技术的应用扩展,并对大数据时代语言学家所能担任的角色做了讨论。


讨论现场 

  报告结束后,与会学者围绕着“语言资源和语言智能”的主题展开了热烈的讨论,并就大数据时代语言学者的作为提出了展望。

  中国社会科学院语言研究所副所长张伯江在自由发言中就“语言资源”、“人工智能”、“语言学家可以做什么”发表了看法。


张伯江副所长发言

  首先,人类在利用自然资源的过程中不断吸取教训,人们对自然资源价值的认识也发生了变化。比如过去觉得储煤丰富,我们就搞火电,等到造成负面影响时,我们又转向风电。这些经验在使用语言资源时也可以借鉴。在语言资源的利用和保护以及两者相互补充的过程中,不要有壁垒,要认识到各自的优势。

  其次,现在人工智能的发展让语言学界的很多人觉得不安,其实大可不必,我们可以把它当成我们旁边的一个新的物种,我们人类跟它相伴而生,友好共存。人类历史上,我们曾经和马、狗等物种合作相处、互相欣赏,各自利用各自的优势。人工智能就是一个新的物种,比如AlphaGo、Master,其实它下棋的思路跟人很不一样,但我们互相欣赏,吸收长处,我们在一起玩是一件愉快的事情。语言学家、心理学家花了很大的精力来研究猩猩的语言,为什么?我们不是为了研究猩猩的语言,是为了看人类的语言有什么样的特点。更多地研究人工智能也是为了让我们更清楚地认识人类语言的特点。人工智能和人类友好相处、共同发展是共赢的事情。

  最后,反思语言学家过去所做的研究,可能我们在研究思路上有局限性,我们过去太过看重语言是一个符号系统、语言是一个逻辑系统,我们固然可以用符号系统、逻辑系统来模拟自然语言,但为什么我们无法穷尽?可能我们有太多的疏忽。尽管语用学的形式化研究有了一些进展,但未来应重视语域的研究,这一研究现在有很多具体的、可操作的办法。语域研究越精细,规则的适用性刻画得就越到位。对语言资源的处理应该包括这些重要的信息,也许这样才能更好地利用语言资源的价值,与此同时,在跟人工智能和谐相处时,我们语言学家才能做出更多的贡献。总之,作为一个句法语义研究者,我还是很乐观的,觉得还有很多事情要做,我们可以帮助人工智能领域的专家不断深化认识。


胡建华研究员发言

  中国社会科学院语言研究所研究员、《当代语言学》主编胡建华在自由发言中说,面对人工智能的飞速发展,大家没有必要担忧。“人工智能”有两解。早期人工智能是以人工的方式来做智能,因为它搞不懂人的智能是什么,很难拿出可以呈现给大家看的样子来,所以做得就不好,就失败了。现在的“人工智能”,“智能”不是人的智能,所以语言学家不要担忧,人也不要担忧,这种人工智能做得越深入、越好,它离我们的智能就越远。讲个简单的例子,比如机器作诗,你让机器现在发个言试试。发言时我要表达我的意图,听了大家的以后,我还要理解你的意图,要建立共同的意图。计算机是没有灵魂的,没有内在意图的,它根本不可能建立共同的意图,而这是人和计算机最根本的区别。所以说,计算机永远代替不了人,除非你哪一天真的知道人在想什么,人的思维是什么,人的灵魂的是什么。如果不知道这些,继续沿着这条路走,离我们智能就越来越远。因为它不要理解我们的智能,它基于大数据,它需要更好的算法来更好地挖掘大数据,它完全是目标驱动的。它只是要解决一个什么样的问题,比如说解决下棋的问题、解决作诗的问题,写出来你看就行了。但是它没有意图,没有表达,比如说喜怒哀乐,比如我为什么要这么写啊,因为我当时的心境啊,各种体会啊,我要表达微妙的感受,我的感受你不知道,而计算机没有感受。我们社科院语言所的团队做儿童语言习得,小孩从出生一个月后就做,小孩很早就有自己的意图,他还能够理解你的意图,然后建立共同的意图。我们的学生经常把录像机的镜头,把液晶屏幕反转过来给小孩看,有一次小孩在吃奶的时候指着镜头,他要实现他的意图让你反转,但是大人没有反转过来。小孩就用手做出反转的动作,还伴随“嗯嗯”的声音,让你反转。小孩十一个月。你想,计算机是没有灵魂的,它怎么会变成人呢,不可能的。


刘丹青所长做大会总结

  中国社会科学院语言研究所所长、《中国语文》主编刘丹青在总结发言中说,这个沙龙到今天已经是第十二次了,但其前身可以追溯到2002年1月的中青年语言学论坛,已经有15年了。多年以来,我们每年都能听到很多高质量、贴近时代的报告和由此引发的精彩讨论。名称上,社科院语言所和北京语言大学一直排在前面,但实际上,商务印书馆周洪波总编辑是这个沙龙的总策划和总导演,他为此倾注了大量的心血。让我们向他表示感谢!

  刘丹青说,我在2002年的中青年论坛上的发言标题叫“深度和广度——21世纪中国语言学的追求”。今天的主题正好体现了深度和广度的结合。就广度来说,我们语言学所能拓展到的领域已经越来越多,包括人工智能,尽管在其最近的发展阶段,语言学家的贡献不是那么直接,但基础性的工作还要语言学的知识背景和大数据形式的语言学成果来支撑;就深度来说,深度的计算和深度的学习是人工智能发展的阶段性标志,也跟语言学向深度发展是密切相关的。下面我从这几个方面来稍加展开。

  首先,人工智能、语言智能给语言学带来的机遇和挑战。机遇首先表现在,人工智能以及大数据的发展,给我们语言研究添插了很多起飞的翅膀,大大增强了研究实力。语言所曾经在人工智能、机器翻译等方面创下过历史的辉煌,我们的老前辈刘倬先生、刘涌泉先生和语言学家范继淹先生都参与了最早的、第一代的机器翻译系统的研制,在当时代表了我们国家最先进的水平。随后的研究取得了一点成绩,但也有起伏。近些年跟随大数据的步伐,重新整合资源,强调在多模态、大数据的背景下加强语言研究的力量。这也是人工智能、大数据的发展对语言学的促进。以前我们所里的有关技术精英被大公司吸引去了,最近我们也挖来了这方面的人才,来做多模态、大数据的工作以及基于语料库的词典编纂平台的研制。各个单位都应该从人工智能和大数据的成果中获益,来推动语言学研究。同时我们也有挑战,但挑战并不意味着我们无事可做,我们仍然有很多事要做。人工智能经历了几次起伏,我们再想一下语言学和计算机的关系,热一阵冷一阵,也有这样的起伏。现在也许处在相对较冷的时候,但随着形势的发展,也可能会迎来下一步的热。不必为现在的、暂时的某些分离而失落,语言学本身的性质决定了它终将起到重大作用。前阵子参加了科大讯飞的年度发布会,印象非常深刻。他们的人工智能AI新技术,已从语音产业向大的人工智能发展。这是先进技术与语言学、语音学成果的结合,带来的结果非常令人震撼。同时也给语言学家提出了挑战,我们应该去迎接挑战。我们所里把大数据、多模态语料库的研究和儿童语言获得研究结合起来,进一步扩展到人的终身语言能力发展(包括老龄人语言能力的衰退)的研究。2016年社科院有个登峰计划,其中就有顾曰国老师和胡建华老师牵头的特殊学科,叫“语言的获得与发展”,就是想把语言获得的研究和新技术、大数据的研究结合起来。随着中国老龄化社会的到来和计划生育政策的改变,我们要关注从儿童到年老整个人的一生的语言发展变化,这也是语言学广度的拓展,这方面我们还有很多事要做。前几天参加北语的会,我也感到很振奋。会上大家的共识是,语言学在人工智能的社会能做的工作不是少了,而是大大增加了。语言学面临着更多的任务,需要我们在更高层面确定语言学的地位,会上提出语言学需要跳跃性的发展,要争取将语言学作为一个大的学科门类,下面再设立几个一级学科。原来我们是争取语言学作为一级学科,现在我们要争取几个一个学科。这些要靠语言学界全体同仁的努力推动。

  其次,语言学作为人学的永恒价值。说“文学是人学”,这是个隐喻;但说“语言学是人学”,这是个断言、是个直陈。语言学是真正意义上的人学。人之所以区别于动物就在于智能,智能的起点来源于语言能力的进化,没有语言能力就没有人类的智能。所以,研究透语言就是研究透人的本质必需的关键要素。从这意义上说,语言学是最直接的、最本质的人学。人对世界的关注都是由近及远,从人出发,是人本主义,就是从语言出发,最贴近地了解我们作为独一无二的高等物种的本质,所带来的认识是任何别的学科包括人工智能学科不能取代的。这是我们永久存在、壮大发展的基础。现在的疏离,原因在于语言学原先的基础比较接近理性,经过理性主义的探索以后,人工智能计算语言学目前选择的方案是数据主义,这样我们就看到了一些距离。我个人的看法是,逻辑主义、理性主义和数据主义都不能代表人类语言最本质的东西,它们都只是在一定程度上反映了人类语言的侧面和属性,但是都不能单一地依靠理性主义、逻辑主义或大数据的统计主义去反映语言的本质。形式逻辑、形式语义学反映的更多的是人借助数学的工具所发展出来的逻辑能力,但是逻辑能力和语言能力不是完全等同的。语言学之所以独立就在于最初跟逻辑学分家,开始分工合作。我们现在要在理性主义、逻辑主义和统计主义之间搭起桥梁,这个使命只有语言学家来完成。我们把逻辑的东西和通过数据反映的东西贯通起来,形成我们对于人类的认识。我怎么想象大数据对人工智能和语言能力的反映呢?它是依靠强大的工具力量,比如早期的X光、后来的CT和核磁共振,这些手段展示的始终是隔了一层的,永远代替不了实验室里的解剖看到的人体的真实情况。语言学家就是解剖式地看语言。智能专家则是借助工具和技术手段来看待语言,借助这些了解到的语言只是数理意义上的语言,而不是我们的自然语言。有一个很有趣的现象,真正研究自然语言的不说“自然语言”,只有研究人工智能的人才说“自然语言”。我们应该自信,我们才是看到语言实体、本质的人。语言学家要明确自己的使命,立足自己的领域,同时以开放心态吸收各种学术成果,包括技术手段。计算语言学、机器翻译、儿童语言获得、语言教学等对我个人影响非常大。以往学界对形式和意义关系的认识过于直接和简单化,没有充分反映人类语言形式和意义的复杂性,导致我们的一些模型在使用时带来一些问题。近些年来我自己思考的所谓库藏类型学,就是基于从现实生活中、从人类对语言的应用中发现现在理论可能存在的局限。

  最后,语言资源和语言智能的关系。今天会议的主题中,“资源”放到“智能”的前面,但“智能”是更显赫的范畴,一下子就把“资源”给掩盖下去了。今天的讨论围绕着“智能”的问题,“资源”谈得少。语言资源和语言智能有非常密切的关系,现在的人工智能是建立在大数据统计的基础上,本身就是以资源为原材料的加工的产物。没有资源,人工智能很难建立起来。对于那些没有办法获得大规模资源的语言来说,它在人工智能方面的构建能力就会弱,反过来又会影响到它在信息化时代的生存。语言资源本身是动态的,既有空间广度的延伸,也有时间纵向的演化。广度上,比如“一带一路”涉及上千种语言,资源一下子就变得广泛了。纵向的演化,我们每年都发布年度词语,新词新语新构式的涌现非常快。对资源本身的研究也将奠定人工智能研究的基础。面对动态的资源,语言学家还有很多任务要完成。从今天的报告里,我们体会到的不是无事可做,而是还有很多事情要做。当然今天是人工智能的话题,我们语言学家还有很多别的事情要做。对于我们语言学家来说,今天不是夏天,不是秋天,不是冬天,我们仍然是春天。