首页
我们
党建
科研
学人
资源
教学
搜索
欢迎您访问语言研究所!

王洪君教授访谈

作者:王洪君、乐耀 来源:今日语言学 时间: 2017-03-09
字号:

  乐耀:您跟信息学界联系很多?

  王洪君:的确如此。不仅跟汉语语音信息处理学界有密切的联系,注意吸收他们新的研究成果,还两次参与了跟文本自动分词有关的信息处理的工作,这主要是跟属于语法层次的汉语的“词”和词库有关。

  第一次是参加由当时还在北工大人工智能所任所长的宋柔老师领衔的“两字结构库”项目的一个下级小课题,是宋柔老师看到我的《从字和字组看词和短语》那篇文章后邀请我参与的,希望能够解决两字结构收词库而引发的新问题——引发了机器自动切分结果的歧义切分大量增多。他把他们科研的最新成果,包括大规模无标记语料库,自动切分后的所有歧义切分库,按五种结构分别统计的两字结构的前接字、后接字频率统计库,还有各种检索统计工具。我和我当时的硕士生梁源有一年多时间在这些资料、工具和数据库中反复游荡,在数据库中加各种新的分类属性,根据这些属性重新做各种排序,最后终于提出了一个解决方案。这就是梁源的硕士论文。估计,我们的方案还是太书生气,大约是很难直接运用到自动分词的工程上。不管怎样,通过这些工作,我们对于汉语“词”的复杂性、自由生成性以及某些虚词和特别高频词在两字组合中的特殊性有了充分的实际感受。

  第二次是参加由清华计算机系主任孙茂松老师领衔的国家社科重点项目《信息处理用现代汉语通用词表》的研发工作。信息处理用词表比各种语文词典所收的词条都多,孙老师用自己设计的软件在10亿字节的大语料库中跑,得到了各词条同形之字串的出现频率(串频,不等于词频),并把各词条初步分为7个子库:单字词库、带字母词库、普通词库、专名库、常用接续库、成语库、俗语库。记得我们的主要任务是:①根据大语料库的随机抽样计算跨层非实际接续的比例并估算各词条的真实词频并提出非词;②根据估算的真实词频将词条分加注一级常用、二级常用的频率特征;③加注三音节以及以上词条的层次属性,主要是音节组合紧密度是1+2还是2+1,还是2+2;④加注词条的层次属性,主要标是否述宾、述补结构。在这些工作中,更加体会到汉语字本位理论的合理性。 


王洪君老师在青海湖 

  第六个领域就是语篇研究了,这是你的主要领域。前面介绍过我很早就接触并长年教授韩礼德功能语法导论,而韩礼德是当代语言学界从事语篇研究的开创者。这个领域其实应该与我第二个接触的领域合并。但是我接触虽然非常早(1983年),研究成果却又最晚,非常晚(2009年);放在一起谈不方便,就分开来谈吧。

  我在语篇方面的研究,一个是纯语法的《“了2”与话主显身的主观近距交互式语体》(2009)。这个题目我关注了很长时间,总有六七年吧。缘由是偶尔听一位对外汉语教学的老师说,他们按课本教留学生“凡结句并表示新情况的出现时,一定要用‘了2’”,结果在批改他们交上来的日记时发现,他们在每个句子的后面都用“了2”,完全符合课堂教授的规则,却不符合汉语习惯,他只好把这一个个结句位置上的“了2”删去了一多半。学生拿到批改又问老师“了2”使用的规律,他也说不好。我自己想了想,的确日记跟平常说话不太一样,就订了两个月的《北京晚报》来观察一下。结果发现,尽管《北京晚报》属于比较贴近生活的一类,但除了连载小说之外,几乎不出现“了2”,即使是报道某小区污水井井盖一夜全部被偷这样日常小事也不出现一个“了2”。于是我继续观察,发现央视的“新闻联播”中不用“了2”但现场直播或凤凰卫视的鲁豫讲新闻中用,等等;总之是跟所要说的客观内容没有关系,而好像是与说话人选择的与听话者的距离有关。2004年哈佛燕京校友会要在苏州召开,我在哈佛的导师Kuno教授要来,所以专门开设了一个语言学的小会场,需要我提交一篇论文,且最好是语法而不是语音的,以便能跟Kuno教授和其他与会的语言学的哈佛校友搭上话,于是就提交了关于“了2”的,叫做“何时用‘了2’?”,只提交了大约二三百字的提要。而大会场的议题总是很宏观,这次的是《文明的对话:东亚现代化的涵义和全球化中的文化多样性》,后来还正式出版了论文集,我的摘要也淹没在许许多多“文明对话”的摘要之中。后来的事你就知道了,我利用语料库分别小说、报纸和是否为有引号的直接引语等进行了大量的统计;李榕提供了叙事学的观察视角,给我介绍了一本叙事学的中文书;你提供了我之前要求你读的1994年出版的Eggins的《系统功能语法导论》对于交际距离的理论阐释,这书是张敏送我的;写成了这篇长长的文章,好像文字比较涩滞,这也是我文章一贯的缺点。最近有山东的一位高校老师通过邮箱向我请教这篇文章中提到的戏曲中两个空间的问题,说明至今还有人在关注这一研究。

  另一篇有略有不同的两个版本,一个叫《论汉语语篇的基本单位和流水句的成因》,收在《语言学论丛》上,另一个叫《汉语最小和次小语篇单位的特点和流水句的成因》,收在冯胜利组织在香港召开的《汉语韵律语法新探》国际研讨会的会议论文集上。后来可能又收在了人民大学召开的首届“互动语言学与汉语研究”国际会议的论文集上了,用的是后一版本。很不好意思,一稿三发了,但会议论文集的编撰者坚持索要这篇文章,他们说会议论文集收入的会议论文可以是会后又公开发表过的,而且还鼓励发言者先在杂志上发表。看来,在杂志上发表有速度更快和有更大的读者群的好处,而会议论文集有论题专业、在一本书得到一个专题的多方研究成果的好处。这篇文章的思路是结合汉语语调单元的韵律属性和语篇单元的语法语用属性来阐述汉语语篇单元的特点,得到结论是,汉语语篇单位的最小单位是“逗”就是赵元任称为“零句”的,它比英语的单句小,其语法构成是词组且不一定含有动词性成分。换句话说汉语的词组不一定是主谓结构,只要加上了说话人表达交际时间/交际角色/语气/情态等语用范畴就成为语篇的最小单位“逗”而不仅仅是语法层的单位词组了。汉语次小语篇单位“句”则大于英语的句或复句,大致相当于英语的句群,由逗或若干逗的组合构成。汉语的词没有动名的形态变化,句没有必须有定式动词或主谓结构的语法要求,是汉语流水句的成因。

  语篇方面没有其他成果了。所有涉足过的领域也说完了。


王洪君老师在塔尔寺

  乐耀:那么,您是如何打通这些领域的? 

  王洪君:这几个领域中,最早涉足的近代汉语语法的研究基本跟其他领域没有什么联系,我获益并在其他领域中有所体现的只是喜欢上了在具体材料中游览并从材料的统计中发现、分析和解释问题。最后一个语篇研究的领域,与其他领域是否有联系,我现在还没有把握,有把握的只是汉语语篇的单位跟词法、音系一样有自己独特的类型学特点——从音系或文字层面单位与高一层的语法单位的交会点来看,汉语两个层面三种单位的交会点在最小的语法单位“字”,而英语等其他语言的交会点在高一级语法单位的“词”;而从语法单位与高一层的语用层面的语篇单位的交汇点来看,汉语语法单位与语用层面的交会点在“词组-逗”,而英语等其他语言的交会点在“主谓结构的语法小句-语篇句”。

  其他几个领域的联系可以说都有一个基本的出发点——以跨文字/音系和语法层面关联的一音节一义的小单元“字”为基点,也即是“字本位”的。历史语言学有关文白异读的研究是以字音为基础的,当然异读在词音中的扩散也是十分重要的。在汉语的历史比较中要以单音节有意义的单元为基础,我的同门陈保亚有更多的理论阐述,我则把精力主要放在了层次离析,没有着力说明过与字本位的关系。我的音系与现代汉语词法的研究,则很明确地采用了字本位,从我这两个领域的代表作《汉语非线性音系学:汉语的音系格局与单字音》《基于单字的现代汉语词法》研究就可以看得很清楚,前面也已经说了不少,就不重复了。