首页
我们
党建
科研
学人
资源
教学
搜索

特别策划 | 罗琼鹏:语言学如何与人工智能结合—— 关于杰弗里·辛顿尤利西斯奖章获奖感言的思考

作者:罗琼鹏 来源:今日语言学 时间: 2025-02-28
字号:

  杰弗里·辛顿教授的尤利西斯奖章获奖感言给在人工智能时代的语言学家提供了一次宝贵的机会,重新审视语言学这门学科的终极目标、研究路径以及未来走向。

  第一,语言研究的目标是什么?老子在《道德经》开篇,开宗明义地阐明了两种不同类型的知识来源与路径:“道生一,一生二,二生三,三生万物”,其中的“道”是天道,是自然规律,是先验的,先验的知识与经验发生交互作用后,会产生指数量级的新知识。至少老子认为,知识的产生遵循“先验→后天”“自然(nature)→养成(nurture)”的演进路径。这一观点引申到语言学,体现了两种语言观的对立:语言是一种抽象的、先验的、人出生的时候就已经预装在大脑中的蓝图,还是后天所有关于语言使用场景的集合?对不同语言观的信仰,导致了完全不同的研究路径——这其实也是不同语言学研究取向争议的根源所在。坚持前者,往往也意味着坚持一种万物皆数的、毕达哥拉斯或者柏拉图式的研究目标,以构建简洁优雅的逻辑模型(借用爱因斯坦的表述)为终极目标。和理论物理学、数学一样,秉持这一宗旨的语言学属于科学中的“无用之学”。乔姆斯基的生成语法,尤其是他最近30年来所倡导的最简方案(The Minimalist Program),可以视为这一研究路径的实验。其成效如何,尚需历史来检验。人工智能的兴起,尤其是基于大语言模型的ChatGPT的广泛应用,也让语言学家开始思考,语言学这一“无用之学”,是否需要成为“有用之学”?先验与后天知识的界限在哪里?自然与养成的边界何在?究竟是“自然→养成”,还是“自然图片养成”?深度学习、深度神经网络等模型为学界重新思考这些问题提供了新的契机。

  第二,刺激贫乏假设(The poverty-of-the-stimulus argument)是否仍然有效?ChatGPT所依赖的大语言模型,是建立在复杂的中间连接层以及海量的参数和权重之上的。假设没有庞大的语料输入以及复杂的中间层和联结模式,ChatGPT能否取得目前的成功?乔姆斯基的语言学模型,很大程度上是刺激贫乏假设——婴幼儿在有限的时间内受到有限的(语言)刺激,但是发展出了复杂的语言系统——的逻辑结果。大语言模型的成功,只是证明了刺激足够丰富的情况下,可以取得什么样的成功,但并未证伪刺激贫乏假设。除非能彻底证伪刺激贫乏假设,才能推翻乔姆斯基的语言理论。就目前的情况来看,两种模型(研究路径)可能都是需要的:一种致力于探索先验的语言蓝图,另一种则试图说明纷繁复杂的语言现象背后的大数据和统计基础。

  第三,知识表征的本质是什么?是逻辑取向的基于符号的规则系统,还是生物-心理学取向的对意识图像的构建?(在传统家庭语境中)(如果Y是X的母亲)且(Z是Y的丈夫),则必然推出(Z是X的父亲),这一知识固然可以通过基于意识图像的构建来表示,但同样可以通过基于符号的规则系统来表述。很多涉及到推理的知识——至少亚里士多德总结出来的若干种基于三段论所得的结论——具有普遍性和先验性。乔治·布尔(George Boole)对这些三段论的逻辑解构,证明了这些推理背后蕴涵着深厚的数学基础。这也表明毕达哥拉斯或柏拉图式的探索路径是可取的。实际上,采用基于符号的规则系统进行推理,具有不可比拟的简洁性。考虑谓词逻辑中经常提到的一种三段论:

  (1)a. 有些蘑菇是有毒的。

  b. 有毒的东西是有害的。

  c. 所以,有些蘑菇是有害的。

  给定前提(1a)和(1b),必然可以推出(1c)。使用谓词逻辑中的存在实现规则(EI)、存在概化规则(EG)、普遍概化规则(UG)以及命题逻辑中的合取分解律(Simp.)、合取组合律(Conj.)和肯定前件律(Modus Ponens),很容易证明这一推论是有效的。

 

   

 

  类似这样的推理过程在大脑中是如何表征的?基于神经元的意识图像构建如何准确捕捉这一推理过程?无疑,深度神经网络为探索这样的问题提供了一扇窗口,但这还远远不够。人工智能的未来,尚需依赖包括语言学家、逻辑学家、哲学家、心理学家、计算科学家在内的各类学者的通力合作。尽管前路漫漫,但未来可期。

 

作者简介

  罗琼鹏,南京大学文学院教授、博士生导师,南京大学人文社会科学高级研究院驻院研究员。主要研究领域:汉语语法理论、形式语义学。

 

 

往期回顾    

 

《当代语言学》过刊电子版下载:      

  https://www.ncpssd.org/journal/details?gch=82143X&nav=1&langType=1      

《当代语言学》电子版微信小程序订阅: