首页
我们
党建
科研
学人
资源
教学
搜索

特别策划 | 冯志伟:乔姆斯基•所罗门诺夫•大语言模型

作者:冯志伟 来源:今日语言学 时间: 2025-01-09
字号:

  2024年2月19日,“深度学习的先驱”辛顿(Geoffrey Hinton)在英国牛津大学罗曼讲座(Romanes Lectures)上发表题为“数字智能会取代生物智能吗?”的演说,他认为,乔姆斯基(Noam Chomsky)关于天赋语言的学说是“疯狂的理论”(crazy theory),对其语言理论提出了尖锐的批评。辛顿于2024年4月被授予“尤利西斯奖章”(Ulysses Medal),在爱尔兰都柏林大学学院授奖大会的讲话中,他再次批评乔姆斯基,再次指出乔姆斯基的理论是一种“疯狂的理论”。

  辛顿说:“语言学家被一个叫乔姆斯基的人误导了好几代——此人实际上也获得了这枚享有盛名的奖章。可见,名望不会持久。他有一个偏执古怪的理论,即语言不是学会的。他成功地说服很多人相信这一点。这个说法显然是一派胡言。语言显然是学会的。大型神经网络学习语言,不需要任何先天结构,只是从随机权重和大量数据中开始学习。乔姆斯基却仍然在说,但这并非真正的语言,这不算数,这是不对的。”

  我觉得辛顿对于乔姆斯基的这种批评比较偏颇,而且也不符合历史事实。

  首先我们来看一看历史事实。

  我们知道,现在的大语言模型的核心机制是“预测下一个词元”(next token prediction),其数学原理是“所罗门诺夫归纳推理”(Solomonoff's theory of inductive inference)。

  美国数学家所罗门诺夫(Ray Solomonoff,1926-2009)1964年在计算理论的重要刊物《信息与控制》(Information and Control)上,发表了题为“归纳推理的形式理论”(A formal theory of inductive inference)的文章,提出了所罗门诺夫归纳推理。

  所罗门诺夫归纳推理可以如下定义:

  给定序列(x1, x2, …, xn), 预测xn+1。归纳推理就是力图找到一个最小的图灵机,可以为(x1, x2, …, xn)建模,从而准确地预测后续序列。

  例如,如果一个序列是n个1:,如(1, 1, 1,…),那么我们可以写出如下程序输出该序列:

  for i = 1 to n:

  print 1

  这个序列的描述长度就是O [ log(n)] 。

  又如,如果我们给出序列(3, 5, 7),会有无穷多种预测后续的结果,其中一种是 9,因为程序有可能输出奇数,程序如下:

  for i = 1 to n:

  print 2i+1

  但也许计算机猜得不对,还有一种可能性是 11,因为程序也有可能是输出素数。很明显,输出素数的程序就要比输出奇数的程序复杂很多,也就是说素数的描述长度要大于奇数的描述长度。

  这个“在下一个字符上下赌注”(bet on next symbol)的问题,其实就是以GPT为代表的大语言模型的核心机制:“预测下一个词元”。

  在这个意义上,我们认为,大语言模型的理论根据,就是“所罗门诺夫归纳推理”。

  其实,所罗门诺夫归纳推理与乔姆斯基的形式语言理论(formal language theory)是有联系的。所罗门诺夫曾经想到一个问题:给定一些句子,看计算机能否学会生成这些句子的语法。1956年,乔姆斯基的“语言描述的三种模型”(Three models for the description of language)的文章已经发表,所罗门诺夫看了乔姆斯基的这篇文章,并从乔姆斯基的文章中受到启发。于是,所罗门诺夫把乔姆斯基的形式语法推广成概率语法(probabilistic grammar)。他的“归纳推理机”( inductive inference machine)的一种应用场景就是通过输入文本学会语法,这被他后来称为“语法发现”(discovery of grammar)。

  后来乔姆斯基的形式语言理论进一步发展,提出了“刺激贫乏”(property of stimulus)理论和先天内生语法(innate grammar),乔姆斯基的先天内生语法其实就是所罗门诺夫的先验概率分布,只不过乔姆斯基采取了理性主义(rationalism)的立场,而所罗门诺夫采取了经验主义(empiricism)的立场。

  因此,我们认为,从历史发展的角度看来,乔姆斯基的形式语言理论和先天内生语法与所罗门诺夫归纳推理有密切联系,而所罗门诺夫归纳推理就是大语言模型的理论基础。因此,大语言模型与乔姆斯基的语言学理论是有关系的。我们不能轻易地把乔姆斯基的语言理论看成是一种“疯狂的理论”而全盘否定。

  乔姆斯基认为,语言学理论的构建需要语言事实作为其经验的明证,但是,采用经验明证的目的是为了更好地服务于理论的构建,生成语法所采用的经验明证一般是与理论的构建有关的。因此,生成语法研究的目的不是全面地、广泛地、客观地描写语言事实和现象,而是探索和发现那些在语言事实和现象后面掩藏着的本质和原则,从而构建具有可解释性的语言学理论。这是作为科学的语言学理论与作为技术的大语言模型的不同之处。辛顿从技术的立场来批评乔姆斯基的科学理论,显然有偏颇之处。

  此外,描写语言学中的分布(distribution)方法与大语言模型中的词向量(word vector)和词嵌入(embedding)技术也有密切的关系,大语言模型研究不应当无视这些语言学的研究成果。

  大语言模型取得的成就应当算是当代语言学研究的重大成果,可惜的是,除了乔姆斯基的形式语言理论和描写语言学的分布理论之外,语言学对于大语言模型几乎没有贡献,语言学家本来就是以揭示语言的奥秘为己任的,大语言模型的巨大成就似乎成为了对于语言学家焚膏继晷、几十年如一日的艰苦探索工作的辛辣讽刺。语言学家应当从象牙塔中走出来,奋起直追,与时俱进,赶上时代的步伐。

  大语言模型对传统的语言学理论提出了严峻的挑战,在人工智能时代,语言理论究竟还有没有用?语言学何去何从?语言学的出路何在?语言学家应当怎样进行更新知识的再学习,从而赶上大语言模型时代的步伐?这是值得我们每一个语言学研究者深思的重要问题。

 

作者简介

  冯志伟,计算语言学家、中国计算机学会高级会员、中国人工智能学会理事。现为教育部语言文字应用研究所研究员、博士生导师、学术委员会委员。用中外文出版著作51部,发表论文500多篇。主持研制ISO国际标准1项和国家规范3项,参与研制国家标准14项。曾获国务院政府特殊津贴(1991)、奥地利维斯特奖(2006)、中国计算机学会NLPCC杰出贡献奖(2018)、香港圣弗兰西斯科技人文奖(2022)、中国中文信息学会会士(CIPS Fellow)荣誉称号(2022)。

 

 

往期回顾

 

 

《当代语言学》过刊电子版下载: 

  https://www.ncpssd.org/journal/details?gch=82143X&nav=1&langType=1 

《当代语言学》电子版微信小程序订阅: