社科网首页|客户端|官方微博|报刊投稿|邮箱 中国社会科学网

您现在的位置:今日语言学 → 本所概况 → 机构设置 → 语音研究室

2017年度语音学学科发展报告

作者:语音室  来源:今日语言学  时间:2018-08-15
 

一、语音学发展前沿动态

  近年来,人工智能和脑计划在国际和国内范围持续升温,未来中国的“一体两翼”脑计划也将涉及“大脑本体的认知机制”“面向脑病的研究”和“面向人工智能的类脑计算”等内容。其中,言语作为人类认知智能的重要组成部分以及人机交互最自然的方式,无疑将在国家的重点发展战略中面临重大的机遇和挑战。而语音与言语科学研究也进入了一个新时代,呈现出多学科交叉融合的特点,逐渐与认知科学、神经科学、生物科学、计算机深度学习等领域深度结合,通过对相关理论开展证实或证伪研究,产生了一些新的研究领域。正如王士元先生所说,“如果我们的目的是要真正理解语言是什么,那么我们就不能把自己的视野限制得太狭窄,就不能因已有的学科界限而墨守成规。不同学科之间的边界犹如划在沙滩上的线条,随着每一次先进知识的波涛到来,这边界就会发生变化,甚至完全消失。人类的知识,特别是研究语言的知识,应该彼此相连,并且最终是相互贯通的。”(《语言、演化与大脑》,2011 年,商务印书馆)

  1.1 发音生理研究

  发音生理建模

  在2017年国际言语处理顶级会议Interspeech中,多篇论文运用统计学习和深度神经网络对发音器官轮廓的自动提取技术做了探索性研究。比如,Somandepalli 等在 Semantic Edge Detection for Tracking Vocal Tract Air-Tissue Boundaries in Real-Time Magnetic Resonance Images 一文中提出了基于卷积神经网络的编-解码结构,对大规模实时MRI图像中的发音器官轮廓进行标注的方法。而在文章Vocal Tract Airway Tissue Boundary Tracking for rtMRI using Shape and Appearance Priors中,Asadiabad 等则提出通过建立发音器官轮廓和纹理统计特性的统计分析模型并利用训练得到的统计模型对MRI中的发音器官进行分割的方法。然而,这两种方法均需要对发音器官的轮廓进行大量的人工标注,然后基于标注的轮廓训练统计模型,来对MRI图像中的发音器官进行分割。而如何利用图像自身的灰度信息和发音器官轮廓的先验信息直接从图像中抽取出发音器官的轮廓还是一个很有挑战性的问题。此外,姚云等的《矢量半径驱动的汉语普通话立体声道模型》(《清华大学学报(自然科学版)》第57卷第9期)从MRI3-D图像数据中提取了汉语普通话7个单元音的声道边缘、中线和矢量半径数据,并建立了用矢量半径驱动的汉语普通话立体声道模型。

  利用口鼻气流计的鼻化度研究

  2017年的《中国语音学报》集中刊登了一系列利用口鼻气流计技术的鼻化度研究。比如谭力超等的《北京话双音节中鼻音韵尾鼻化度的大样本统计分》(第7辑)、王静和时秀娟的《北京话句子中语速对鼻化度的影响》(第7辑)、王李和时秀娟的《广州普通话陈述句语调停延率的大样本分析》(第7辑)、黄小干等的《Daniel-IPA元音系统唇形参数数学模型的探讨及其在汉语韵母系统定量与动态分析中的应用》(第7辑),以及张婧祎和时秀娟的《北京话CVN音节鼻尾鼻化度的统计》(第8辑)

  病理语音发音研究

  在病理语音发音方面,原梦和和王洪翠等发表了《构音障碍话者与正常话者发音的比较分析(《中国语音学报》第7辑)。文章利用电磁发音仪采集了正常话者和脑瘫引起的构音障碍话者的发音数据,从声学分析和发音运动分析两方面对比了构音障碍话者和正常话者的发音特点。实验结果表明使用隐马尔可夫模型的方法可以有效区分正常话者和构音障碍话者;两者在发音运动方面也有显著差异,比如,构音障碍话者的舌头位置状态不稳定,呈现多种类型,在发不同音素时,发音运动形状和轮廓也很难区别等。

  1.2 言语产出研究
  2017年的言语产出国际会议ISSP发表了多篇关于言语产出的研究。比如,Hool等用调节听觉反馈的方法考察被试对言语中时间结构扰动的敏感度,发现被试对音节起始位置的扰动比对音节结尾位置的时长扰动更敏感 ( Probing the Representation of Temporal Structure in Speech Using Auditory Feedback Manipulation )。 Trudeau-Fisette 等考察了先天失明的人与正常人在听觉反馈受到干扰的情况下发音动作和声学特征的补偿情况,发现先天失明的被试听觉目标比正常人的变动区域小 ( Contribution of Vision in Speech Production: Acoustic and Articulatory Compensations to Auditory Feedback Perturbations in Congenitally Blind and Sighted Speakers )。 Birkholtz等考察了不同的唇几何模型对声道一维声管模型的影响 ( Considering Lip Geometry in One-Dimensional Tube Models of Vocal Tract )。 Cattelain 等用表面肌电考察了法语唇部塞音发音过程中口面肌的时间活动模式 ( Time Activation Patterns of Orofacial Muscles in French Labial Stop Consonants )。 Laprie等用多元线性回归的方法对会厌软骨进行了统计建模,其模型考虑了下颚、舌和喉等多个器官对会厌软骨形状和位置的影响 ( Artciulatory Model of Epiglottis )。 W.-S. Lee用EMA技术考察了粤语中CV和CVC音节中辅音-元音、元音-辅音的协同发音现象,发现音节起始位置辅音-元音的协同发音程度依 /p/、/k/、/t/ 的顺序逐渐减弱,音节尾位置的元音-辅音的协调发音程度依 /p/、/t/、/k/ 的顺序逐渐增强 ( CV and VC Coarticulation in Cantonese )

  2017年的《中国语音学报》中,有关言语产出的研究内容涉及了元音和声调,研究对象多样,包含汉语普通话、方言、中国境内的濒危语言以及非洲语言,比如杨青和曹文的《儿韵的构音方式和实际音值》(第7辑)、王萍和石锋的《汉语普通话基础元音三维空间的统计性研究》(第8辑)、陈玉东和吕士楠的《从五度标调法到五度值的准确推算(第8辑)、刘新中等的《海南付马话的文白两套声调系统的实验研究》(第8辑)、曹梦雪的《昌黎城关方言单字调研究》(第8辑)、祖漪清等的《用语言复制的方法记录濒危语言——锡伯语案例》(第8辑),以及Sandrine等的《喀麦隆Ghomálá语声调实验研究》(第8辑)等。

  语调和韵律研究中的关键议题,如焦点的韵律表征以及疑问句的语调等,2017年仍然受到了广泛关注,内容涉及多种语言。比如,Rao等人 ( Acoustic Correlates of Focus in Marathi: Production and Perception,Journal of Phonetics 第65期 ) 考察了马拉地语中焦点的实现;Kelly和Smiljanic ( The Effect of Focus and Phrase Position on East Norwegian Lexical Tonal Accents, Phonetica 第74期 ) 考察了挪威语Trondersk方言中焦点和短语位置对L和HL两种词汇音高重音的影响。Zygis等人 ( Segmental Cues to Intonation of Statements and Polar Questions in Whispered, Semi-Whispered and Normal Speech Modes, Journal of Phonetics 第63期 ) 考察了波兰语中正常嗓音、半耳语和耳语中陈述句与极性疑问句语调的差别。

  从方法论上来说,除了传统的实验语料,越来越多研究开始使用语料库进行韵律和语调研究。例如,为了考察法语中上升语调与升降语调的不同,Portes和Lancia ( Earlier or Higher? Comparing French Rising-Falling Contour with Rising Contour in A Corpus of Conversation,Journal of Phonetics 第63期 ) 采用了基于小波的函数混合模型,对电台辩论节目的录音进行了分析。Simko等 ( Comparing Languages Using Hierarchical Prosodic Analysis,Proceedings of Interspeech 2017 ) 运用小波变换的方法,通过对不同语言语音信号的基频和能量包络进行分析,并按照分析后的信号成功对不同韵律结构的语言进行了聚类和区分。

  对不同语言语调以及韵律系统的描写也有一些成果。Rognoni等 ( Pashto Intonation Patterns,Proceedings of Interspeech 2017 ) 利用仔细标注的对话语料系统描写了普什图语的语调系统,包括普什图语中最常用的语调模式、疑问句的语调以及焦点实现等现象。Chong和German ( The Accentual Phrase in Singapore English,Phonetica 第74期 ) 考察了新加坡英语的韵律层级。此外,在2017年Walter de Gruyter出版社出版的的Intonation in African Tone Languages一书中,作者Downing和Rialland系统描写了非洲声调语言的语调系统,全书涵盖了不同系属的十二种语言,为探讨声调与语调的互动以及语调在声调语言中的变异提供了丰富的数据。

  北京大学中文系语言学实验室针对少数民族语言以及戏曲嗓音发表了系列研究,比如,孔江平的《藏语声调起源的多维视角》(《语音乐律研究报告2017》)从不同的视角对藏语声调产生和起源进行了研究。刘文和张锐峰的《鱼粮苗语低平调和低降调的声学感知研究》(《语言学论丛》第五十四辑)以基频、开商和速度商为参数,对鱼粮苗语的声调调值和发声进行了系统的声学分析,并进一步通过感知实验发现,在鱼粮苗语中,除了基频外,发声对低平调和低降调的感知起主要作用。刘文等的《新寨苗语单字调及双字调声学实验研究》(《民族语文》第2期)基于田野实地录音语料,分析了新寨苗语单字调及双字调的基频模式。董理和孔江平的《昆曲闺门旦颤音的嗓音特征》(《清华大学学报(自然科学版)》第57卷第6期)对2名专业的昆曲闺门旦演员演唱颤音时的喉头仪信号进行分析,从颤音周期、幅度、发声类型、生理动作等角度研究该行当颤音的特性,揭示了闺门旦颤音的产生有其独特的发声规律。

  1.3 言语感知与认知机理研究

  2017年度,韵律信息的加工机制由于实验技术的革新再次令人瞩目。前人大量研究显示,双侧额区和颞区、尤其是外侧颞横回和颞上回,是加工言语音高信息的核心区域。然而表达不同内容的音高特征在皮层表征上是否得以区分、如何区分,以往采用的技术手段由于受制于有限的空间和时间分辨率难以给出准确的答案。Tang等人的文章 Intonational Speech Prosody Encoding in the Human Auditory Cortex Science 第357期 ) 使用高密度脑皮层电图描记法,在10个病人的皮层置入高密度的电极网格,通过考察每个电极记录到的局部区域神经元电活动强弱与病人听到的语音刺激的音高特征的关系,描绘出了负责语气韵律(一般陈述/疑问/焦点重读)、语音音段信息、说话者信息加工的电极分布图。

  语言加工机制的理论构建也在这一年有了新的发展。Friederici等来自多个顶级研究单位的研究者对Friederici本人2012年提出的语言加工模型从解剖、影像、功能、发展、比较神经学等多方面进行了更详细的论证 Language, Mind and Brain,Nature Human Behavior 第1期 )。有别于其他双通路模型,该模型认为背侧和腹侧通路各有两条,背侧通路包括由上纵束和弓形束连接的“颞皮层 (主要指颞上回后部)——前运动皮层”以及“颞皮层——布洛卡区的BA44”两个路径,而腹侧通路包括额枕下束连接的“BA45——颞、顶、枕皮层”,以及钩状束连接的“额岛盖——颞上回前部”两个路径。除了“颞皮层——BA44”外,其余通路在发育早期已经成熟,足以支持婴儿早年的词汇和语音学习。然而“颞皮层——BA44”则要到儿童时期才真正成熟,结合影像和行为证据,作者认为这一通路很可能负责的是层级结构复杂的、递归式的句法加工,是人类语言能力有别于动物的关键所在。

  2017年心理语言学界还就实验数据和统计分析的可靠性展开了一场辩论。Ito等的文章How Robust Are Prediction Effects in Language Comprehension? Failure to Replicate Article-Elicited N400 Effects Language, Cognition and Neuroscience 第32期) 在重复DeLong等于2005年发表的关于预期机制的经典实验Probabilistic Word Pre-Activation during Language Comprehension Inferred from Electrical Brain Activity Nature Neuroscience 第8期) 时发现,无论被试是母语者还是二语者都无法重复出2005年的经典结果。此后,围绕经典能否复制、乃至预期机制在语言加工的作用,学界出现了多篇文章。首先,DeLong等对质疑进行了全面反驳 ( Is There A Replication Crisis? Perhaps. Is This An Example? No: A Commentary on Ito, Martin, and Nieuwland (2017),Language, Cognition and Neuroscience 第32期 ),认为不可复制的原因是效应量太小而在单个实验中被掩盖,在跨实验中实质上有着稳定的表现。Ito等随后对此予以了反击 ( Why the A/AN Prediction Effect May Be Hard to Replicate: A Rebuttal to Delong, Urbach, and Kutas (2017),Language, Cognition and Neuroscience 第32期 ), 更对统计方法进行了更新,采用了探索性贝叶斯分析对效应大小以及零效应进行了判断。而到了3月底,在第30届CUNY大会上,Nieuwland等基于9个不同实验室总共334个被试的数据发表了文章Limits on Prediction in Language Comprehension: A Multi-Lab Failure to Replicate Evidence for Probabilistic Pre-Activation of Phonology bioRxiv111807 ), 发现经典实验中不定冠词上的预期效应无法复制,不定冠词上观察到的脑电反应大小也和离线填空概率没有显著相关。而Yan等 ( Prediction (or Not) during Language Processing. A Commentary on Nieuwland et al. (2017) and DeLong et al. (2005),bioRxiv143750 ) 细致梳理了两方的实验操作和数据分析细节,对两方的差异给出了解释。不仅如此,他们进一步提出,比起离线填空概率,Bayesian Surprise作为可预期性的指标与观测到的脑电效应有着更紧密的线性相关,因此更贴合理论,也能更好地解释数据。

  国内方面,《中国语音学报》第7辑刊出了4篇语音感知方面的文章。李卫君和杨玉芳的《绝句中的韵律层级边界及其知觉研究》,将绝句划分为四个不同的韵律层级:音步、句内、句末和联间。用脑电成分CPS(Closure Positive Shift)为指标,通过ERP实验,对不同层级韵律边界进行了考察。王韫佳等的《从范畴感知看重庆话阴平和阳平的调型——兼论重庆话阳平和上声演变的动因》结合声学测量和感知实验的结果,对重庆话阴平和阳平的调值和调型进行了讨论。张昊等的《普通话元音感知影响因素探》,采用范畴感知实验研究方法,通过辨认和区分实验任务,探讨了影响普通话元音感知的重要因素。李艳萍等的《基于连续统的汉语普通话前后鼻音关键声学线索初探》发现鼻音前元音的F2和F3是前后鼻音感知的声学线索,其中F2对前后鼻音的感知起关键性作用。

  1.4 语篇-韵律接口研究
  语篇的韵律特征一直是言语工程等领域重点关注的对象。2017年度,韵律与语篇的接口研究呈多样化发展趋势,涉及语言的范围更广,研究视野及思路更宽。研究主题除传统的语篇结构与关系之外,还涵盖了语篇中的韵律感知、交际中的韵律特征、临床评估以及言语工程等。

  语篇结构关系
  Sahkai和Mihkla在文章 Intonation of Contrastive Topic in Estonian Proceedings of Interspeech 2017 ) 中研究了对比话题的音高重音类型、音高重音的加重实现以及其后的韵律边界,发现上述韵律特征可以区分对比话题句与宽焦点句或相关性话题句。Riou在The Prosody of Topic Transition in Interaction: Pitch Register Variatio Language and Speech 第60期 ) 中发现,美式英语中三种韵律参数可标记话题转换:更高的基频最大值、更高的基调以及扩展的调域跨度。Yanko 在Word Order and Accent Placement in Topics, Foci, and Markers of Discourse Language and Speech 第60期 ) 中对比俄语、德语和英语在同一小句中标记话题、焦点与语篇连续性的特定模式,发现俄语中焦点重音词之后的句尾升调被用来标记语篇连续性。Kleinhans等在Using Prosody to Classify Discourse Relations Proceedings of Interspeech 2017 ) 中通过用韵律属性预测语篇关系的方式,研究独白语篇结构与韵律的相关性,结果显示,可通过语段间和语段内的韵律特征预测归因、解释与使能这几种语篇关系。White 等在 Prosodic Effects on Pronoun Interpretation in Italian Proceedings of BUCLD 2017 ) 中研究了韵律对意大利语代词解析的影响,结果表明韵律因素会影响语篇中的代词解析,因此代词类型与先行词位置交互作用的研究中不一致的结果可能由默读时加入的停顿或代词重音所致。Hou等在 Disambiguate or Not?–The Role of Prosody in Unambiguous and Potentially Ambiguous Anaphora Production in Strictly Mandarin Parallel Structures Proceedings of Interspeech 2017 ) 研究了韵律对潜在歧义与非歧义回指词产出的作用,发现虽然重读回指词和歧义性具有一定程度的相关性,但重读仅表示指称上的变化(回指词与先行词的句法位置不同),歧义性并不影响回指词的韵律模式。

  韵律感知
  Turnbull等在Prominence Perception Is Dependent on Phonology, Semantics, and Awareness of DiscourseLanguage, Cognition and Neuroscience 第32期) 中通过三个实验研究了音系突显(是否承载音高重音)、语篇语境(是否形成对比)以及被试对语篇的了解程度对韵律突显度判断的作用,发现对比语境仅能提高音高曲线为L+H*0的短语突显度的感知。此外,对比效应的大小与听话者是否了解语篇语境有关。

  交际中的韵律特征
  夏志华的Prosodic Entrainment in Mandarin Chinese Conversations: An Experimental Study (《中国语音学报》第7辑) 发现随着交互的进行,交际双方的韵律趋同在话轮上有明显的表现,局部趋同比全局明显,不同的韵律特征体现不同级别的趋同,而且男性与女性之间交互的趋同性最高。Ouyang等在Speakers’ Rapidly-Updated Expectations Influence Prosodic Realization of Information Structure Proceedings of LSA 2017 ) 中通过言语产出实验研究了视角选择是否对信息结构的韵律标记有所影响,发现说话者对听话者知识状态的预期会影响新旧信息的韵律实现,且说话者会根据听话者的表现快速更新预期。Michelas等在How Does the Absence of Shared Knowledge between Interlocutors Affect the Production of French Prosodic Forms Proceedings of Interspeech 2017 ) 中研究了听话者对法语韵律产出的影响,发现会话双方缺乏共享信息可在全局、语音层面影响说话人的韵律产出,但在音系层面(如韵律短语切分)并无影响。加州大学洛杉矶分校的两篇博士论文:Wang的Prosody and Functions of Discourse Markers in Mandarin Chinese Conversation: The Cases of “ Ranhou ”, “ Wo Juede ”, and “ Meiyou ” 和Cha的Interplay of Prosodic Features and Discourse Functions in Korean Conversation 在互动语言学的框架下,分别考察了汉语和韩语对话中话语标记词实现不同功能时的韵律特征差异。Ha和Grice在Tone and Intonation in Discourse Management – How Do Speakers of Standard Vietnamese Initiate a Repair Journal of Pragmatics 第107期) 中研究了标准越南语使用者如何在会话中利用语调发起他发修正,以及语调与词汇声调的相互作用。

  临床评估

  语言产出方面,Holt等在Discourse Strategies and the Production of Prosody by Prelingually Deaf Adolescent Cochlear Implant Ear and Hearing 第38期) 中发现,相对于正常听力者,耳蜗植入者更倾向于利用重复指令而不是信息请求去理解对方,通过韵律手段指示语篇功能的模式也与正常听力者相反。语言理解方面,Huang等在Using Prosody to Infer Discourse Prominence in Cochlear-Implant Users and Normal-Hearing Listeners Cognition 第166期) 中,通过眼动实验研究了耳蜗植入者如何利用音高变化的强度、时长变化等额外信息来推断篇章突显度,发现上述额外信息能否促进理解与语言处理需求以及对劣化信号的先前经验有关。

  言语工程

  语音合成方面的代表性文章为Fukuoka等的Prosody Control of Utterance Sequence for Information Delivering Computer Speech & Language 第50期),该研究观测新闻播报语料中,韵律特征如何随语句在语篇中的作用及位置特征而改变,然后将这两项特征引入深度神经网络的输入层,作为韵律生成的控制参数,从而实现通过特定韵律方式突出语篇中的显著信息。语音识别方面的代表性文章为Ward等的Inferring Stance from Prosody Proceedings of Interspeech 2017)。该文将英语、汉语和土耳其语新闻广播语篇切分为6秒长的交叠片段,并以此为基础对立场与韵律特征进行建模,结果表明这一技术可通过韵律信息在新闻广播语篇中自动检测出多种立场。

  1.5 语音发展研究

  儿童语音习得研究
  在母语获得中,研究者一直很关心每种语言中各个层级中的类别也就是范畴的获得机制。语音系统的建立是语言获得中其他系统建立的基础,因此,0-1岁音位范畴的获得和感知以及词汇爆发期的音位范畴的表征一直是研究热点。Chen等人的Pitch Perception in the First Year of Life: A Comparison of Lexical Tones and Musical Pitch Frontiers in Psychology 第8期)发现,4个月大的荷兰婴儿不能区分阳平和上声,也不能区分音乐上类似的音高变化,但是12个月大的荷兰婴儿既可以区分阳平和上声,也能区分音乐上类似的音高变化,证明随着年龄的增加,婴儿对言语的感知能力增强。Ma等人的Spoken Word Recognition in Young Tone Language Learners: Age-Dependent Effects of Segmental and Suprasegmental Variation (Cognition 第159期)发现了两岁和三岁普通话儿童学习新词时大脑对声调(超音段)和元音(音段)的表征差异。实验发现,两岁的儿童不能意识到声调和元音的改变,到了三岁时,儿童能够意识到声调的变化,但在这种对声调的敏感性在声调最小对立对中的表现更明显,一旦元音也发生变化,儿童的辨认结果就会受到影响,也就是说此阶段的儿童对于音段信息更为敏感。结合两岁到三岁的发展过程来看,该研究认为声调和元音在大脑中的音系地位有可能不一。Felicitas在On the Role of Temporal Variability in the Acquisition of the German Vowel Length Contrast Proceedings of Interspeech 2017)一文中调查了德语中稳定VC时间模式在表示元音音位长度和清浊对立中的习得。德国儿童一直到12岁,时长变化都很大,这个研究的目标则是为了测试:(1)元音产出的长度对比是否随着年龄的增长而减小;(2)随着年龄的增长,时长特征的范畴化感知特性是否会增加?产出和感知的数据来源于11名学前儿童,5名学龄儿童和11位成年人。结果显示尽管在年龄更小的儿童中以及快速说话时元音时长整体偏长、变化偏高,但儿童产出的时长对比与成年人模式相似。此外,两组儿童在产出中无异。然而,对从长元音到短元音单词的连续体的感知结果表明,学龄儿童的反应模式介于成年人和学前班儿童之间。可以推测,元音音位的长度对比在两组儿童中的抽象表达仍不稳定。

  语言老化的产出与感知研究
  而在语言发展的另一端,随着学界对于言语老化问题的关注,越来越多的团队开始了针对非病理正常言语老化现象的探索。在国际范围内,加拿大拉瓦尔大学CERVO大脑研究中心的Tremblay等多年来就语音老化现象做了一系列的研究,是言语老化研究领域的重要团队之一。该团队在2017年就嗓音老化现象发表了论文The Moderating Effect of Frequent Singing on Voice Aging Journal of Voice 第31期 )文章考察了不同年龄段有不同声乐经验的被试在持续发元音/a/以及在朗读法语短文《北风与太阳》时的基频均值、基频标准差、基频最大值和最小值、振幅均值、振幅标准差、信噪比等参数。结果显示,对于实验所考察的大部分参数来说,年龄是一个显著的影响因素;此外,实验还发现,经常唱歌对大部分参数上的老化起到一定的延缓作用。对于经常唱歌的被试,音高和振幅的稳定性相对不受年龄因素影响。因此,从应用的角度来看,唱歌对于延缓嗓音的老化具有积极作用。此外,从认知与神经的角度出发,该团队同年的另一篇文章Age Differences in the Motor Control of Speech: An fMRI Study of Healthy Aging Human Brain Mapping 第38期 ) 结合了行为数据和磁共振成像数据,考察了年龄因素在言语产出过程中神经运动控制的作用。实验考察了27个健康成年人产出不同序列和发音复杂度的非词时的神经活动。实验结果表明,运动和执行控制机制的老化可能是造成言语产出过程中年龄差异的重要原因之一。

  值得注意的是,国内学界近年来也开始出现对言语老化的现象和机制的研究,但基本上以感知研究为主。比如Wang等人2017年的文章 Categorical Perception of Mandarin Chinese Tones 1-2 and Tones 1-4: Effects of Aging and Signal Duration Journal of Speech, Language, and Hearing Research 第60期 ) 主要通过经典范畴感知范式的声调辨别与区分实验,考察了老化对于普通话“阴平-阳平”声调对立以及“阴平-去声”声调对立的范畴感知情况。此外,与一般声调范畴感知实验不同,该实验考察了时长在声调范畴感知中的作用。实验结果发现,与年轻组被试相比,老年组被试对于“阴平-阳平”声调的范畴化程度较弱,但对于“阴平-去声”连续统,老年组与年轻组被试无显著感知差异。这一结果表明,对于不同类型声调的感知,老化造成的感知水平下降具有一定的选择性。此外,实验发现,虽然当刺激时长较短时(比如短于100ms时),老年组被试对于“阴平-阳平”的范畴化程度较弱,但刺激时长的增加能够促进老年组被试对于“阴平-阳平”声调的范畴化程度,而这一结果有可能是由老化引起的时间维度处理能力下降造成。该组同年的另一篇文章Aging Effect on Categorical Perception of Mandarin Tones 2 and 3 and Thresholds of Pitch Contour Discrimination American Journal of Audiology 第26期 ) 考察了不同年龄对于“阳平-上声”的范畴感知问题,发现了类似的老化作用,此外,实验还测量了老年组被试与年轻组被试各自的最小可觉差,结果发现,老年组被试对于声调曲线区分的阈值要显著高于年轻组被试,因此老年人辨识阳平和上声时的困难有可能是老年人声调范畴化能力减弱以及由老化造成的听觉心理学层面能力的退化共同导致。

  第二语言语音习得研究

  从母语者和非母语者的韵律使用差异的角度,Saha和Mandal在文章 Discourse Prosody Planning in Native (L1) and Nonnative (L2) (L1-Bengali) English: A Comparative Study International Journal of Speech Technology 第20期 ) 中对比了英语母语者与母语为孟加拉语的二语使用者对英语篇章的韵律规划。研究发现L1使用者的语速更快;由于母语韵律对非母语在语篇层面上的影响,L2使用者在每一语篇层级上的边界停顿更多,说明L2使用者会运用更多的中间组块单元以及更大的规模规划单元。Ward和Gallardo在Non-Native Differences in Prosodic-Construction Use Dialogue and Discourse 第8期 ) 中研究了韵律结构的非母语差异,选取两组自然会话数据,一组来自英语母语使用者,另一组是来自非英语母语使用者(母语为西班牙语)与英语母语使用者的对话,此外还有一组对比数据。研究发现,在话轮转换时,非母语使用者表现出语速和音高的差异;对于表达参与与解释的英语韵律结构,非母语使用者使用更少,且用法更加多样。Luo等的 Prosody Analysis of L2 English for Naturalness Evaluation through Speech Modification Proceedings of Interspeech 2017 ), 采取了重音修改技术,即在不改变音段性质的情况下,利用学习者错误的韵律特征来修正本地参照的语音,实验结果表明,在不受音段因素干扰的情况下,时长和音高特征都会影响二语语音的自然度, 而时长比音高在自然中起着更为关键的作用。通过重音修正来纠正时长和音高错误,可以提高语音的自然度。张圆圆和丁红卫的A Preliminary Study of Prosodic Disambiguation by Chinese EFL Learners Proceedings of Interspeech 2017 ) 考察了母语为汉语的英语学习者在韵律解歧中的表现,发现学习者可用韵律边界解决句法歧义,但需被提醒和多次重复,且其韵律特征在时长和基频上的变化与母语者存在差异。

  从方言口音与L2语音习得的角度来看,超音段层面的研究多在AM理论的框架下展开,如刘姗姗《中国东北地区英语学习者陈述句语调特征研究》(吉林大学硕士学位论文)、范晓丹《中国东北地区英语学习者与美国人朗读英语祈使句的韵律特征对比研究》(吉林大学硕士学位论文)分析了东北地区英语学习者陈述句、祈使句的习得;丁云霞《中国英语学习者英语疑问句的语调特征研究——以山东方言区学习者为例》(山东农业大学硕士学位论文)分析了山东各方言点英语学习者疑问句的实现模式等。而王秋颖《基于语篇韵律学视角的中国大学生英语句重音声学分析》(延边大学硕士学位论文)则采用了韵律句群结构模型,讨论中国英语学习者与本族语者在句重音以及韵律边界重音、韵律层级以及节奏与时长分布上的差异。此外,屈乐园等的《基于特征选择优化的p、t、k偏误自动检测研究》(《中国语音学报》第7辑)则是从应用的层面对二语口音进行了偏误分析。

  从二语的认知加工机制角度,Bohn等的A Comparison of Danish Listeners’ Processing Cost in Judging the Truth Value of Norwegian, Swedish, and English Sentences Proceedings of Interspeech 2017 ) 采用句子验证任务来三组丹麦本土听者分别听丹麦语和挪威语中的句子、丹麦语和瑞典语中的句子以及丹麦语和英语中的句子。回应时间和正确回应的比例用来作为加工成本的指数。结果表明,丹麦本土听者在理解丹麦语和英语语句的加工成本是等价的,而加工挪威语和瑞典语语句在回应时间和正确评估方面的成本要更高一些。Alejandra等的Qualitative Differences in L3 Learners’ Neurophysiological Response to L1 versus L2 Transfer Proceedings of Interspeech 2017 ) 考察了L1为西班牙语和L3为西班牙语的语者对于不一致现象的事件相关脑电位(ERP)反应,比较由L1(瑞典语)或L2(英语)迁移导致的差异,发现相比处理L2迁移的句法特征,L3学习者以一个不那么自动的模式处理由L1迁移的语法特征,因此L3学习者似乎从L2中受益更多。关于中国人说英语,以及外国人说汉语的研究也有丰富的成果,程冰等《语音学习的神经机制研究及其在纠正外语口音中的应用》(《外语教学》第4期)分析了成年人语音学习困境背后的大脑神经机制,从认知神经语言学的视角解释母语磁吸效应对二语学习中辨音和发音产生的巨大影响。胡伟杰等的《第二语言口语认知流利性对口语能力的预测作用》(《世界汉语教学》第1期),以50名韩国汉语学习者作为研究对象考察了第二语言口语认知流利性对口语能力的预测作用,结果表明口语认知流利性能够有效地提高对第二语言口语能力的预测力,而且比表达流利性具有更高的预测贡献度。

 

二、语音与言语科学重点实验室年度进展

  “语音与言语科学重点实验室”在创新工程第一期的基础上,继续在儿童语音发展、二语语音习得、方言语音研究、口语语篇韵律研究、语音与语篇认知、语调类型学、面向教学的三维发音建模研究和面向言语测听的语音学研究等方面开展深度跨学科研究。

  2.1 儿童语音习得与认知发展研究

  1.5-6岁普通话儿童发音标准测试词表和常模

  基于3600多名1.5-6岁普通话儿童看图说词的发音数据库“CASS_CHILD_Word” (见Gao等的Normative Database of Word Production of Putonghua-Speaking Children - Beijing Articulation Norms Project: CASS _ Child _ Word, Proceedings of O-COCOSDA 2013), 项目组初步制定出《1.5-6岁普通话儿童的发音标准测试词表和常模》,同时基于CASS_CHILD_Word开展了儿童普通话的语音产出研究。李爱军和高军的 Production of Neutral Tone on Disyllabic Words by Two-Year-Old Mandarin-Speaking Children ( ISSP 2017特殊议题 ), 分析了2岁普通话儿童轻声产出的声学模式,发现2岁儿童已经有轻声变调的音系意识,但在语音产出上还没有达到成人的模式。高军和李爱军的 The Production of Tones in Monosyllabic and Disyllabic Words by Mandarin-Speaking Children ( ISSP 2017特殊议题 ), 考察了1.5-6岁普通话儿童单字调和双字调错误分布模式,并对单字调和两字调的产出错误模式进行了对比分析,发现两字调中前字声调的错误模式和后字声调错误模式不一样,两字调中后字声调错误模式和单字调错误模式类似。

  儿童音系习得机制的神经网络建模研究

  婴幼儿对母语音位范畴的习得依赖于其与语言社会的交互。曹梦雪、李爱军和方强的《婴幼儿母语音位范畴习得机制的建模研究》(《中国语文》第3期),从计算建模的角度出发,通过建立语言习得模型,利用家长输入语语料,模拟婴幼儿在言语交互中习得母语音位范畴的过程。基于联结的模型网络结构,观察了语音信息和语义信息在音位习得中的交互作用。模拟结果揭示出,婴幼儿母语音位感知的建立不是一个由单一因素所决定的过程,基于语义的由高层到底层的加工对形成正确的母语音位范畴感知起着至关重要的作用。

  普通话婴幼儿声调感知题

  Shi R.、Gao J.、Achim A.和Li A.的Perception and Representation of Lexical Tones in Native Mandarin-Learning Infants and Toddlers Frontiers in Psychology 第8期 )通过感知实验调查了0-2岁普通话儿童声调的感知发展。关注的两个发展阶段,一个是语前阶段,也就是一岁以前,一个是词汇爆发期阶段。实验一研究的是汉语普通话4-13个月婴儿对汉语普通话中相似声调对立对(阳平-上声)的区分。实验结果表明4-13个月的婴儿都能范畴化区分这两种声调,而且没有年龄效应,即小年龄组的婴儿和大年龄组的婴儿对这组声调的区分能力相同。实验二测试的是汉语普通话19-26个月大的幼儿在词汇爆发期大脑对熟悉词的声调的表征。测试的方法是看当目标词的声调发生改变后会不会影响幼儿对跟这个词对应的图片的识别(听音看图,两张图片选择其一)。测试的目标词包括声调是阳平的词和声调是上声的词。当阳平目标词的声调变成了上声或者上声目标词的声调变成了阳平时,幼儿对图片的识别不受影响,也就是阳平目标词的声调即使发成了上声或者上声目标词的声调即使发成了阳平,幼儿还是去看跟目标词(声调正确)对应的图片,而不去看另外一张图片。这说明在大脑词库中幼儿的阳平和上声是混淆的。但是当词的声调阳平或上声发成去声时,幼儿对目标词图片的识别就会受到影响,这说明在大脑词库中去声是单独的一个调类,跟阳平和上声不是同一个调类。去声这个调类在幼儿两岁左右时已经建立起来了。综合这两个结果说明,普通话幼儿大脑中熟悉词中的阳平和上声语音信息储存不充分,可以互相替代。一个可能的原因是普通话语音系统中存在上上变调规则。在上上变调规则中,第一个上声会变成阳平,因此幼儿有可能把阳平和上声当做自由变体。

  Shi, R.、Santos, E.、Gao, J.和Li, A.的 Perception of Similar and Dissimilar Lexical Tones by Non-Tone-Learning Infants Infancy 第22期 )测试了非普通话婴儿(加拿大法语婴儿)对普通话语音系统中的相似声调对立对(阳平-上声)和差异较大声调对立对(阴平-去声)的区分以考察0-1岁婴儿“知觉重构”的感知发展情况。根据“知觉重构”假说,刚出生的婴儿可以区分世界上所有语言中存在的各种语音对立,无论是母语中存在的语音对立还是其他语言中存在的语音独立,但在半岁以后,婴儿对非母语语音对立的区分能力会逐渐降低或者消失。婴儿感知能力的发展还受语音对立本身差异性大小的影响,即,即使是非母语语音对立,但如果这对非母语语音对立在语音上差异较大,那么婴儿对这些非母语语音对立的区分能力可能会保持的时间长一些,半岁以后或者一岁以后也能区分,或者一直保持下去,一直具有区分这种非母语语音对立的能力。实验结果显示:4个月、8个月和12个月的法语婴儿都能区分普通话语音系统中差异较大声调对立对(阴平-去声),没有年龄效应,也就是三个年龄段的婴儿对阴平和去声的区分能力相同。4个月、8个月和12个月的法语婴儿也能区分普通话语音系统中语音相似的声调对立对(阳平-上声),但是随着年龄的增加,区分能力有一定下降趋势。这说明对于声调的感知,其发展模式有可能跟前人研究的元音、辅音感知发展的模式不太一样,非声调语言的婴儿对普通话声调对立的感知能力保持的时间比“知觉重构”预测的时间要长一些,发生“知觉重构”的时间点比元音或辅音的时间点要更晚一些。

  2.2 二语语音习得与认知发展研究
  关于二语语音习得音段层面的研究主要集中于单元音的产出,例如,在大规模分析多个方言点英语学习者数据的基础上,Jia等的 Typology of Convergences and Divergences of English Monophthongs by EFL Learners from Guanhua Regions Communications in Computer and Information Science 第807期 ) 从类型学角度考察了官话区英语学习者产出的单元音声学特征的共性与个性,发现北京、西安、济南以及哈尔滨英语学习者产出的英语单元音具有较大差异。具体而言,北京、西安学习者产出的单元音/i/、/u/、/a/受北京、西安方言影响,而济南、哈尔滨学习者产出的/u/则与本族语者的发音因类似。

  在韵律方面,李爱军和王功平的The Longitudinal Development of Focus Duration of Korean Chinese LearnersProceedings of APSIPA 2017 对韩国的汉语学习者焦点语音特征进行了历时分析,发现焦点的时长习得与焦点位置和焦点上的声调密切相关,也有来自韩汉语序的迁移,发展模式分为正向、负向和复杂等三种模式。

  在语音教学方面,长期以来,汉语语音教学主要是以字词层面的语音现象为基础。语音教学的重点包括声调、声韵母系统、音节结构、轻声、连上变调和一些特殊变调规律,而对语句和语篇层面的语音规律鲜有涉及。李爱军与李智强《口语对话中的语音教学与研究》(《国际汉语教学与研究》第4期)指出在教学中应该更加关注口语交流中的语音规律。字词层面的语音教学只是语音教学的开始,培养学生流利自然的语音表达能力必然要过渡到语句和语篇层面的语音教学。在口语对话中,句子的轻重音分布除了受到句法和韵律结构的影响,还受到上下文信息结构,即语境的影响。也就是说,轻重音分布也是语篇意义的一部分,是语篇意义的一种表达手段。我们在语音教学中也不应忽视语篇层面的语音规律。

  2.3 实验描写主义框架下的汉语普通话与方言的语音研究

  汉语方言的实验语音学的研究旨趣在于以生理、物理、心理实验为基础对语言中的语音现象进行描写或者解释,是一种证据导向的研究范式,秉承“语言学的语音学”和“实验音系学”的传统,对汉语方言的语音与音系提供以实验分析为基础的全新描写。
  普通话
  李爱军的《普通话不同信息结构中轻声的语音特性》(《当代语言学》第19卷)将普通话两音节轻声词和其对立的非轻声词置于五种不同的信息结构中,分析了轻声的语音产出编码方式。研究使用了一些新的语音特征,如描写声调调形的斜率特征和谐噪比等特征。分析发现轻声声学特征与信息结构、轻声前字调和轻声底层调等相关。在这些特征中,音高和时长作用最大;在单念的时候,音高的作用大于时长;在语流中,轻声相关量不但与信息结构相关,还与轻声的底层调相关。另外一个发现是,与非轻声词相比,轻声词除了轻声音节的音高变化外,其前字音域明显拉大,从而使得前后音节产生更大的轻重对比。

  休宁徽语
  Zhang, M.和Hu, F.的Diphthongized Vowels in the Xiuning Hui Chinese Dialect Proceedings of O-COCOSDA 2017 )。 基于声学语音学分析,介绍休宁徽语的元音系统,尤其是休宁元音的双元音化。文章从元音的时间结构、频谱特性、动态特征等方面进行论述。结果显示:休宁徽语的双元音化元音是介乎于单元音与双元音之间的一个中间类别。与同属徽语的黟县方言、祁门方言相比,休宁明显处于双元音化的后期阶段:除了/u/之外,黟县方言的双元音化元音与单元音基本上不构成音位对立;祁门方言的双元音化元音与单元音构成音位对立;但是,在黟县与祁门方言中,双元音化元音的时间结构均已原先的主元音为主,而在休宁方言中,不仅双元音化元音与单元音构成音位对立,而且,它们的时间结构也与普通双元音更为接近,即首、尾成分、过渡段三者的分布相对比较平衡。文章揭示了单、双元音并不是一对截然对立的元音范畴,而是一个渐变的连续统;文章为元音的动态理论提供了依据,与一个静态频谱目标的单元音是一个元音音位相类似,一个动态频谱目标的双元音化元音、部分双元音也是一个元音音位,而不是两个元音音位的序列。

  歙县徽语
  Hu, F.和Zhang, M.的 Vowels in the She County Hui Chinese Dialect ( 《中国语音学报》第8期 ),介绍歙县徽语的元音系统。歙县方言的元音很有特色,元音音位在 CV、CVC、CGV、CGVC 音节,即开音节、入声音节、带介音的开音节、带介音的入声音节等坏境中拥有相似的对立分布,只有在鼻尾韵中才中和为一个央化的/ʌ/。而且,不同于黟县、祁门、休宁等其他徽语方言中的双元音化,一般均是在主元音后面添加额外的央化元音/ɐ/,比如/i u y e o/ > /iːɐ uːɐ yːɐ eːɐ oːɐ/,歙县徽语的双元音化发生在中高元音/e o/ > /ej ow/。

  怀集粤语
  粤语的元音系统在汉语方言中独具特色。Jin, J.和Hu, F.的When On-Glides Become Nuclei: Phonetics and Phonology of the Vowels in the Huaiji Cantonese Proceedings of O-COCOSDA 2017 ), 在声学语音分析的基础上尝试描写怀集粤语的元音音系。怀集粤语的元音在CV开音节中具有高低、前后、圆唇对立,而且,除此之外,在鼻尾韵与塞尾韵等闭音节中还拥有长短对立。最为复杂的是,怀集粤语还有介音G,而且,介音在CGV、CGVN、CGVS、CGVG音节中会演变成主元音,这同时也违反了响度原则。
  天津官话
  
天津官话是北方官话中较有特色的方言,其声调系统,尤其连读变调现象,自上世纪80年代受到学界的关注以来,一直是音系学界争论的热点问题之一。由于与普通话在音段(元音、辅音)上比较相似,关于天津话已有的文献大多只关注其声调现象(特别是连读变调现象),对音段方面的描述和讨论较少。然而,值得注意的是,天津话与普通话在音段上并不完全相同,即便与普通话相同的音段,文献中的许多处理方式也值得重新讨论。此外,近年来对于天津话声调的一系列实验研究也发现了一些不同于此前的结论。Li, Q., Chen, Y.和Xiong, Z.的Tianjin Mandarin The Journal of the International Phonetic Association 2017 ) 一方面对天津话进行了细致的语音系统描写,另一方面也对已有针对天津话的研究进行系统地梳理总结和讨论。

  2.4 语篇韵律接口

  结合多种篇章理论,从全局层面开展汉语朗读语篇的韵律接口研究,考察范围以及所考察的韵律特征日趋丰富。从信息结构理论出发,Jia等的An Interface Research on Information Structure and Prosody in Chinese Reading Texts Proceedings of O-COCOSDA 2017 ) 从修辞结构理论出发,讨论了修辞关系、层级性对小句间停顿时长、重音分布的影响,并将修辞关系考虑在内,从表达效果的角度出发将修辞关系归为表述性、信息性和多核心关系,发现三类关系的停顿时长有显著差异。殷治纲的《“雄辩”者的风险:美国最高法院庭辩律师的声学分析》(法律语言高端论坛 2017)通过对真实法庭辩论语言的语音特征分析,总结律师等说话人在不同辩论场景下的语音模式和策略,并分析这些语音现象和策略对法官判决的影响。

  2.5 汉语语音与语篇认知机制

  普通话上声变调眼动研究

  在普通话中,“上上变调”一直被认为是从上声变成了阳平。而这种观点近年来不断受到声调产出实验和声调感知实验结果的挑战。迄今为止,普通话母语者在实时言语感知的过程中如何处理上声变调的机制尚不明确。Li, Q.、Luo, Y.和Li, A.的Revisiting the Perception of the Third-Tone Sandhi in Standard Chinese – Evidence from Eye Movements Proceedings of O-COCOSDA 2017 ), 采用对实时言语感知进程更为敏感的“视觉情景范式”,测量被试在感知上声变调时的眼动模式。结果不仅揭示了上上-阳上不同的线上感知进程,也解释了前人在线下判断实验中观察到的“上上-阳上不能区别”现象的原因。

  汉语语篇因果关系的认知加工研究
  
Zhang, L.、Luo, Y.和Li, A.的 The Role of Conjunction in Chinese Discourse Reading with Different Linear Orders: Evidence from Corpus Analysis and Eye Tracking Proceedings of NACCL 2018 )基于汉语修辞关系语料库,发现汉语口语中隐含的因果关系高达91%,而且因果语序没有优势语序。研究采用心理学的眼动实验,考察因果连词和因果语序对语篇中因果关系的在线加工的影响。结果显示,虽然我们在心理表征中更加倾向使用连词和前因后果的因果关系句,但是并没有对其在线认知加工产生影响。

  2.6 语调类型学研究

  语言类型学关注的核心问题是语言的共性和差异,阐述其类型差异与其背后的语言共性的关系。林茂灿和李爱军的《语调类型学研究——英汉语调的共性和差异》 ( 《NCMMSC 2017论文集》 )一文在自主音段节律音系学语调理论基础上,对比英语和汉语语调成分在音系表达和音高实现上的共性和差异,从认知和生理上给出一定的理据。呼吁开展语调类型学研究,从语义、语用范畴出发,研究语调在不同语言,特别是汉语丰富方言中的具体形式表达。认为,语调类型学的研究在丰富语言学本体研究的同时,也为自然话语分析和理解、汉语普通话语音教学等提供帮助。

  2.7 面向语音教学的三维发音建模研究
  Fang, Q.等的Acoustic VR in the Mouth: A Real-Time Speech-Driven Visual Tongue System Proceedings of IEEE VR 2017 ) 结合EMA、语音和fMRI数据,利用DNN方法,构建了一个实时3D VR发音模型。研究提出了舌头的二次重构模型,大幅提高了模型的重建精度。对舌头模型引入了体积不变性约束,保证运动过程中发音器官形态的合理性。研究还初步考察了考虑不同时刻不同发音器官在发音过程中重要性高斯加权对进一步提高发音逆推的准确性的作用,实验表明效果不明显。

  2.8 面向言语测听的语音学研究

  “林氏六音”测试是针对儿童助听能力的测试,测试音包括频率中心从低到高覆盖言语声的6个音:/m, u, a, i,,/,目前是临床中广泛使用的听觉言语语言能力的康复效果评估指标。Li, A.等开展了面向儿童言语测听的语音研究,发表论文The Frequency Range of ‘The Ling Six Sounds’ in Standard Chinese Proceedings of Interspeech 2017 )。 通过分析60个普通话发音人六音的频谱特性,确定普通话版“林氏六音”的频率范围,发现普通话对应“林氏六音”的频率范围比美语大,位于200~12000KHz范围。研究针对汉语为声调语言的特点,提出增加声调音域的测试。

 

三、年度重要的学术会议

  2017年召开的重要国内外学术会议,从主题上体现了学科发展的热点、理论和最新动态

  3.1 语音、语言与大脑研讨会

  2017年12月18日,由中国社会科学院语言研究所语音与言语科学重点实验室主办的“语音、语言与大脑”研讨会在社科院语言所举行。来自中国社会科学院、中国科学院、北京大学、北京师范大学、北京语言大学、首都师范大学、北京外国语大学、南京师范大学、兰州大学、香港中文大学、美国俄亥俄大学、美国中阿肯色大学等科研院所和国内外高校的学者在论坛中就言语认知、言语病理和大脑疾病等话题进行了深入的交流与讨论。

  3.2 Interspeech 2017

  Interspeech是国际言语通讯组织下属最大的语音技术国际会议,本次为第18届。参展商中,中国企业占有很大的份额,特别是有很多中国的数据公司参展,说明了在AI发展的国际行列里,中国发展势头强劲。这次会议规模达到历史新高,会议收到论文1771篇,最终接受839篇论文。正式注册的参会代表1800多人。语音交互是本次大会的主题和热点。

  3.3 ISSP2017

  10月16至19日,第11届国际语音生成研讨会 ( ISSP 2017 )在中国天津滨海高新区举行。会议由国际语音通信协会( ISCA )主办,天津大学、中国社会科学院语言研究所、天津市高新技术企业协会共同承办。该会议30年来首次在亚洲举办。来自法国、日本、德国、美国、加拿大等国家的150余名领域内专家学者参加了会议。语音生成国际研讨会第一次在亚洲举办,体现出我国近些年来在语音领域,特别是语音生成领域,所取得的巨大成就,是国际同行对我国语音生成领域工作的高度肯定。语音生成作为语音相关研究的基础研究,为语音识别、语义识别等提供理论基础。该大会旨在推动语音的相关研究,为人工智能的发展提供新动能。来自全球的近百位专家学者围绕“发音器官的运动与感知”“声学的数字化模拟”“情感”等领域展开研讨。期间语言所李爱军与香港中文大学莫碧琪共同组织了专题 “Production and Perception of Tone in Language Acquisition”, 来自中国大陆、中国香港、澳大利亚以及加拿大的学者报告了L1和L2中声调感知和产出的最新研究成果。

  3.4 O-COCOSDA2017

口语语音资料库协调暨标准化国际研讨会东方分会 ( O-COCOSDA ) 是一项跨学科的国际会议,已进入IEEE国际会议列表。会议主题不仅包括对多种语音分析、语音合成、语音识别与语音对话及技术的研究,同时也涵盖语音学、语言习得、心理学与认知科学等研究方向,对各类语音及文本语料库的研究与评价进行探讨与交流。2017年11月1日至3日,由首尔国立大学承办了O-COCOSDA 2017。亮点之一是由清华大学联合海天瑞声数据公司组织了第二届的Oriental Language Recognition 2017 Challenge的评测活动。研究室4位科研人员参会并发表研究成果。

  3.5 APSIPA 2017

2017年12月12-15号在吉隆坡举行的亚太信号和信息处理国际会议年度峰会 ( APSIPA ASC 2017 )。 参会人数超过400人,第一作者的注册国家为27个。邀请了4个大会报告,主办了教育论坛、工业论坛、5个tutorial和2个overview sessions, 有51个报告组 (8个并行口头报告组和1个poster组),还组织了3个friend lab session。大会的主题报告和主要技术报告的内容显示,今年的热点也是与AI和人机交互相关,在语音、图像和多语言交互等方面更多的采用深度学习等AI最新技术,针对实际应用场景的信息处理,如噪声、混响、情感、语义的处理得到更多的关注。

  3.6 全国人机语音通讯会议
人机语音通讯会议 ( NCMMSC ) 是我国人机语音通讯领域研究中,最具有权威性的学术会议之一。2017年10月11-13日,第十四届全国人机语音通讯学术会议在连云港召开。本次会议主题涵盖内容广泛,会议期间还举行了相关产品和技术的展示活动,展现人机语音通讯技术的应用发展。在信号处理、大数据、机器学习以及人工智能等领域交叉成果的推动下,智能交互技术经历了跨越式发展。和传统的语音通信系统相比,智能交互系统所面临的拾音环境要复杂的多。如何从复杂的声环境中获取系统所需的有用信号,是一个非常重要且极具挑战的问题。在言语感知和产出研究中,如何结合语义和语言知识也是一个研究方向。我所有5位老师和同学参加了此次学术会议,报告研究成果。

—END—

 

友情链接

COPYRIGHT © 2017

中国社会科学院语言研究所版权所有

京ICP备17005063号-1

邮编:100732

地址:北京市东城区建国门内大街5号

电话:010-85195379

Mail:lingcass@yeah.net