首页
我们
党建
科研
学人
资源
教学
搜索

【学术报告】祖漪清研究员:综合语音、语义、语法的 AI 语言研究

作者:赵彬 来源:今日语言学 时间: 2023-10-24
字号:

  2023年10月12日上午,科大讯飞信息科技股份有限公司祖漪清研究员应邀在中国社会科学院语言研究所做了题为《综合语音、语义、语法的AI语言研究》的学术报告。报告由当代语言学研究室主任完权研究员主持,采用线下线上相结合的方式举行。中国社会科学院语言研究所、中国社会科学院大学等单位的部分在京师生参加了此次学术报告会。

 

 

  祖漪清研究员毕业于中国社会科学院研究生院语言系实验语音学专业,曾任职于中国社会科学院语言研究所和摩托罗拉中国中心,现任科大讯飞股份有限公司AI研究院研究员、中国科学技术大学语言科学交叉中心兼职教授,主要从事美洲、欧洲、亚洲、中国少数民族、方言等数十种语言语音合成系统等方面的研究。

 

 

  在这次讲座中,祖漪清研究员从近来取得巨大成功的大语言模型入手,提出可以利用语音合成平台和大数据分析技术来发现语音标记、推断语言空间中所隐藏的多层结构,从而反向通过建立模型和预测,验证语言学提出的假设,解决语音合成中的韵律表达问题,特别是影响可懂度的连读变调设置问题。

  目前的大语言模型在文本生成方面取得了突破性的进步,由于文本不存在明显的语音标记,在语音生成的韵律表达方面并不完美。传统的韵律分析主要是基于韵律音系学,将韵律层级和语法结构看作两个层次。其中韵律层级的获取依赖于语音信号的声学参数和感知听辨。然而,在语音数据的“韵律层级”中,只有“韵律短语”及以上更高层级的边界才具有明显的声学特征并可获得明确的感知;而“韵律词”及以下较低的韵律层级,无论是声学还是感知,都存在不确定性。此外,传统的分词体系和词类分析没有充分考虑到词在语句中语音形态的变化以及汉语语法的特性,导致自动分析结果中存在相同语言结构划分不一致的现象。汉语,作为一种声调语言,其语音标记问题本身就要比非声调语言复杂。而对于藏语、闽南语等连续变调复杂的方言,除了语义变调外,还有语法变调。这些多样化的语种和语体能够为韵律分析提供广阔的对立环境,揭示更多句法层面的内容。然而,在现有的韵律分析框架下,任意文本的语音合成难以达到真正意义的韵律高表现力。

  针对以上问题,祖漪清研究员提出:基本语言单元(SE)是解决连读变调所不可回避的语音韵律研究基础。在连续话语中,语音、语义和语法等多个层次相互交织,构成一个统一的语言空间。在这个复杂的语言环境中,虽然基本语言单元的划分可能有多种方式,但这些基本语言单元之间的关系,如主谓、定中、状中、动补、动宾等结构关系是一致的。通过建立基本语言单元的统一划分规范,可以更有效地预测连读变调的发生。此外,汉语连读变调所涉及的语义变调、语法变调以及构式结构划分等问题,为研究语言单元及其组合以及话语结构组块提供了重要线索,可以将确定有限的基本语言单元及其自动划分作为解决汉语连调域以及整体语音韵律表达的线索。因此,在实际的数据分析过程中,科大讯飞采用了人机耦合的方法,对声韵调、连读变调、连调域、基本语言单元、词类和功能等内容进行了5个不同层级的语言学标注。并通过建模和预测,将在闽南语中确定的基本语言单元迁移到了汉语普通话、上海话、苏州话等多种语音数据的文本中,这不仅提高了对多种方言连读变调域的预测准确性,同时也增强了汉语普通话的韵律表达效果。

  祖漪清研究员认为,要在更为复杂的文本结构中实现对语音韵律变化的准确预测,还必须突破传统思维,将大语法观作为指导思想。言语感知和产生的各个环节都不是孤立的,需要将基本语言单元纳入更广泛的汉语多方言大数据环境中进行深入分析,综合考虑语音、语义、语法等多层次的信息,在全新的“大语法观”下构建人工智能研究范式,实现言语产生和感知的闭环,最终让语言研究的智慧得到涌现。以上观点引发了现场热烈的讨论。与祖漪清研究员进行深入交流的学者包括李爱军研究员、王蓓副教授、熊子瑜研究员、储泽祥研究员、侯瑞芬副研究员、彭馨葭助理研究员、张帆助理研究员、以及黄靖雯博士等。本场学术报告在热烈的气氛中圆满结束。