GPT的成功说明大语言模型覆盖了规模可观的语言现象并捕捉到了其背后起作用的关键结构模式,但这种模式是以一种语言学界并不熟悉的方式体现在数量巨大的参数之中的。只要算力足够大、语料足够多,语言中任何细微的差异都是可以反映在“端到端”的大语言模型之中的。尽管大模型还做不出令人满意的理论概括,但不可否认的是,大模型可以具有并且已经具有了直接来自非标注语料的、支持多任务的非常强大的语言能力。
GPT的成功说明影响语言解析的多层面因素——语义、语用和世界知识(常识),是以一种统一的方式参与化解局部不确定性,从而达到全局更为确定的解读的,这也就是我们常说的“统一度量衡”。大语言模型不像语言学界那样层次边界分明,各个层次相对独立甚至主张“自治”,而是把各个层次的因素放在一起“打统仗”。尽管大语言模型不一定是化解语言局部不确定性的唯一方式,但这种把各个层面的“角力”用同一的度量拉通的做法,不仅工程上有可取之处,认知上也有可能更加接近人类的语言机制。
辛顿对乔姆斯基的批评,是经验主义对理性主义的批评,其中有对语言学界积弊的扬弃,但也流露出对理性的不够尊重。毫无疑问,当下的大语言模型绕开了语言学理论,从语料直接通向了语言能力,但这是有代价的,其代价就是巨大的算力。须知算力已经成为了大国竞争中不亚于武器的打压手段。按现有的模式发展下去,早晚有一天,算力会成为制约人工智能发展的瓶颈因素。人类社会对低资源人工智能的需求,必然呼唤“低资源”的语言模型,而这又必然促进基于语言学第一性原理的研究。毕竟,有了第一性原理,就可以直接在其基础之上构建更加低成本、低资源的算法、模型和系统。但是我认为,仅凭乔姆斯基学派过去数十年的成果,还不足以建立这样的第一性原理。语言学界还有努力创新的空间。
语言是不是“学会的”这件事情,并不是乔姆斯基理论的本质。语言学界内部在这个问题上误解乔姆斯基的也大有人在。乔姆斯基是在更高的层次来论证所谓“先天性”的。正如任何机器学习都要先有“模型”,而模型要先有“框架”,它是先于任何语料而存在的,就如同transformer框架之于大语言模型的学习。乔姆斯基说的是,学习任何自然语言,都要有一个先于语言而存在的框架,他把这个东西叫做“普遍语法”。尽管他在学术生涯中无数次地修改过这个框架,这个框架也还必须受到来自像中文(与英语非常不同的语种)的语言事实的检验,而进行不断修正和迭代,但指出这样一个框架的存在和不断揭示它的真相的努力,和大语言模型要做的事情其实是一致的。但是我们也看到,大语言模型使用的是一种“端到端”的思路,即除了初始框架transformer之外,尽量避免借助任何中间概念。这也告诉我们,其实,很多语言学的中间概念,从词类范畴、句法范畴到语义类型,都不是天经地义的。要适配语言事实,条条大路通罗马,要有足够的耐心和雅量去鼓励和包容百家争鸣,而不要党同伐异。
乔姆斯基对待大语言模型的态度并不十分正面。我认为这也和他历来的学术观点相一致,并不是年龄和身体状况所导致的。作为语言学界的“旗手”,乔姆斯基这样的表态可能并不是语言学界众多学者所期待的。我倒是觉得,语言学界面临一个新的发展契机,就是借打造“小而美”的低资源语言模型这个东风,重振语言学第一性原理研究的活力与影响力,在人类社会走向智能化的过程中,留下我们语言学人的贡献。
作者简介
白硕,北京大学理学博士,师从计算语言学家马希文。目前任恒生电子股份有限公司研究院院长,中国科学院计算技术研究所兼职博士生导师。
往期回顾
《当代语言学》过刊电子版下载:
https://www.ncpssd.org/journal/details?gch=82143X&nav=1&langType=1
《当代语言学》电子版微信小程序订阅: