部门简介:
应用语言学研究室正式成立于1977年,刘涌泉任室主任,刘倬、廖秋忠等先后担任副主任。当时的研究重点是机器翻译和自然语言信息处理。此后应用语言学研究室的工作逐步涉及计算语言学、应用语言学、语料库语言学的多个领域,包括:语言信息处理、汉语字/词的统计和计量分析、计算词汇学、语言规划、术语研究、语言数据建模、语言数据资源建设和应用、基于自然语言数据处理的汉语辞书编纂等。
目前应用语言学研究室承担多语种多模态资源库的建设和智能化辞书编纂系统的研发,并进行《现代汉语词典》《新华字典》及相关辞书的数据库建设,为传统辞书编纂出版的数字化和现代化提供技术支持。此外,应用语言学研究室开始逐步在特殊人群话语研究领域和少数民族地区国家通用语言资源数据库建设上展开研究,并取得了一定成果。
联系方式:
办公电话:(+86)010-85195397
通讯地址:北京市东城区建国门内大街5号中国社会科学院语言研究所607房间
邮编:100732
工作人员:
张永伟(副主任)、张弘、胡钦谙、关越、薛嗣媛
历届主任、副主任有:刘涌泉、刘倬、廖秋忠、姚兆炜、林联合、傅爱平、顾曰国
2021年以前曾经在本室工作过的人员(按时间先后顺序):
刘涌泉、刘倬、高祖舜、王广义、林联合、傅爱平、徐志敏、姜一平、廖秋忠、王丽、吴杰、吴亮、姚兆炜、范宇思、李维、任效军、张林、张弘、李芸、张永伟、顾曰国、胡钦谙、贾媛、关越、薛嗣媛。
以往培养学生:
博士:李晨(2013级)
硕士:冯树仁、黄秀铭、乔毅、秦璋、冯志伟、李卫东(1978级)
刘力平(1979级)
李维、王承宏(1983级)
傅爱平(1987级)
胡凤国、骆彬(2000级)
宋培彦(2003级)
张伟萌(2005级)
闻欣怡(2016级)
李彬(2018级)
合作博士后:黄萍
历史沿革:
应用语言学研究室的前身是五十年代到六十年代前期的语言研究所第三组,这个研究组的主要研究领域是实验语音学和机器翻译,组长曾由当时的副所长石明远兼任,副组长刘涌泉负责机器翻译小组的工作。
中国是世界上很早开始机器翻译研究的国家之一。1956年,机器翻译就被列入了中国国家科学工作的发展规划,课题名称为“机器翻译、自然语言翻译规则的建立和自然语言的数学理论”。在这个国家规划之下,语言所从1957年开始了机器翻译研究,作为主持单位与中国科学院计算技术研究所等单位合作,于1959年成功地进行了俄汉机器翻译系统的实验,这是当时世界上为数不多的几个机器翻译系统之一。随后出版了我国第一本机器翻译学术著作——《机器翻译浅说》(刘涌泉、高祖舜、刘倬,科学普及出版社,1964),论述“汉-外机器翻译系统”的研制方法。这个阶段后来被学界公认为我国机器翻译研究的开创期。
经过“文革”十年的停滞,语言研究所的业务工作从1975年开始恢复。1977年语言研究所第三组改组为应用语言学研究室,刘涌泉任室主任,刘倬、廖秋忠先后担任副主任。1985年改组为计算机室和应用语言学研究室,担任室主任和副主任的先后有刘涌泉、刘倬、廖秋忠、姚兆炜、林联合、傅爱平。1995年以后,由于工作的需要,两个室再度合并为应用语言学研究室,傅爱平任室主任。七十年代以后至2014年,应用语言学研究室的研究重点是机器翻译、语言信息处理、语言数据资源建设和基于自然语言数据处理的汉语辞书编纂,在这个领域的学术带头人先后是刘涌泉、刘倬、王广义、林联合和傅爱平。2014年底,顾曰国任室主任,研究重点是多语种多模态语言资源库的建设、特殊人群话语研究和辞书编纂系统的研发。2017年,应用语言学研究室并入新成立的“中国社会科学院辞书编纂研究中心”,研究方向为多语种多模态语言资源库的建设和智能化辞书编纂系统的研发,为传统辞书编纂出版手段的数字化和现代化提供技术支持。
在机器翻译研究方面,七十年代以后,应用语言学研究室先后主持研究和设计了俄-汉、英-汉、法-汉、德-汉等多种语言的实验型和应用型机器翻译系统。其中比较有影响的系统有:ECMT-78英汉机器翻译系统、JFY系列英汉机器翻译系统和GRA篇名英汉机器翻译系统,都曾分别获得国家级和省部级科学技术进步奖项。机器翻译的研究是理论方法和工程技术并举的。语言所的机器翻译研究始终注重国内外的语言理论,注重语言工程实践,结合汉语的特点,提出了多种语言分析和生成的方法。譬如:融合结构层次、结构功能和原语译语对比差异的中介成分分析法,以谓语为轴心、语法和语义同步分析的句素分析法,个性规则与共性规则相结合的语言分析生成策略,转换、递归、回溯、超前、动态上下文等语句分析算法,开放式系统的设计方法,机器翻译系统语言知识库的建立,等等。这些方法对我国基于规则的机器翻译研究和开发起到了奠基的作用,在外-汉机器翻译的发展历史中代表了相应时期的主流研究方向。
应用语言学研究室曾参与了多项国家重大语言应用项目,如1970年代末国家标准《信息交换用汉字编码字符集(基本集)》的研制,该项目于1985年获得国家标准局和电子工业部的国家标准二等奖暨电子工业部优秀科技成果奖;参加了1980年代国家首次大规模汉语字词的统计和分析,统计结果编成《现代汉语频率词典》(北京语言学院出版社,1986)、《常用字和常用词》(北京语言学院出版社,1985)和《汉语词汇的统计与分析》(外语教学与研究出版社,1985),其中后者获得1985年北京市社会科学和政策研究优秀成果一等奖;负责2000年代初全国科学技术名词审定中的语言学名词计算语言学分支学科;参加了2010年代初国际标准ISO-7098中文罗马字母拼写法的研制,2015年9月获国际标准化组织通过,2015年12月《ISO7098:2015》由国际标准化组织正式出版。
重要成果:
著作类:
《俄汉汉俄对照语言学名词》,刘涌泉,科学出版社,1961
《机器翻译浅说》,刘涌泉等,科学普及出版社,1964
《英汉语言学名词》,刘涌泉,中国社会科学出版社,1979
《语言和计算机》1--3辑,中国社会科学出版社,1982—1986
《中国的机器翻译》,刘涌泉,知识出版社,1984
《语言学现代化和计算机》,刘涌泉,武汉大学出版社,1986
《多语对照语言学词汇(英、法、德、俄、汉)》,刘涌泉,北京语言学院出版社,1988
《应用语言学》,刘涌泉、乔毅,上海外语教育出版社,1989
《海峡两岸词语对释》,刘涌泉,中国标准出版社,1992
《写作措辞参考词典》,林联合,中央编译出版社,1995
《汉语字母词词典》,刘涌泉,外语教育与研究出版社,2009
语言信息处理应用系统和数据库类:
ECMT-78英汉机器翻译系统
JFY系列英汉机器翻译系统
GRA篇名英汉机器翻译系统
汉语词汇资料数据库
汉语语句自动分析实验系统
《现代汉语词典》系列数据库系统
汉语辞书XML数据库系统
基于自然语言数据处理的汉语辞书编纂系统
面向语料库机助辞书编纂系统(COCAL)
科研成果奖项:
JFY-3(又称科译一号)英汉机器翻译系统于1989年获得国家科技进步二等奖,同时获中国人民解放军科技进步二等奖
JFY-5(又称GAOLI)英汉机器翻译系统于1993年获得北京市科技进步三等奖
GRA篇名英汉机器翻译系统于1994年获得国防科工委科技进步二等奖
机器翻译系统的语言知识库管理软件于1992年获得首届中国社会科学院青年优秀成果二等奖
基于自然语言数据处理的汉语辞书编纂系统(2011年结项),获中国社会科学院重大研究课题优秀成果
近期科研项目:
社科院创新工程项目“汉语语言资源库—多模态语料库的研发与应用”,主持人顾曰国,2013年立项
社科院创新工程项目“专门用途语料库与知识本体研究”,主持人顾曰国,2018年立项
国家语委项目“辅助语文辞书编纂的人工智能关键技术研究”(WT135-69),主持人张永伟,2020年立项
国家社科基金重大项目“面向新疆义务教育的语言资源数据库建设及应用研究”(20&ZD294),主持人贾媛,2020年立项
国家社科基金一般项目“融合句法信息的大规模汉语语料库分析工具研制研究”(22BYY086),主持人张永伟,2022年立项
国家语委项目“语言文字规范标准规范效力评估方法与应用研究”(WT145-32),主持人张永伟,2024年立项