(SCCSD BJ-500)
![]()
Latest
Development of the Project
有关本项目
北京地区现场即席话语语料库是中国社会科学院的重大课题之一。主要目的是通过收集大量的现场即席话语语料研究现场即席话语的各种动态机制,以揭示现场即席话语的使用规律。“北京地区”在该项目里不是作为一个区域参数,而是出于收集语料的方便。我们希望通过这个项目以取得足够的经验以便将来在全国范围内展开更大规模的研究。
研究策略和取样方法
我们采用了两个大的研究策略。一是我们对资源库和语料库作了较严格的区分。所谓资源库,即凡是符合现场即席话语定义的录音材料都可以入库。语料库则是按照一定的标准从资源库提取出来的语料建立起来的材料库。二是先做摸底性研究。聘请两位不同地位、身份的调查员把他们一周内的活动在条件允许的情况下全部录下来供作详细的分析。通过摸底性研究我们对现场即席话语的真实情况有了较深刻的了解,为我们制定科学且切实可行的取样方法提供了可靠的依据(初步研究成果见Gu 2001)。
对取样方法的反思
我们已经取得了近600小时的录音语料,以及50多小时的录像材料。具体内容不在本文的讨论范围之内而略过。经过一年多的实际操作后我们对取样方法做了一些反思,以共后人借鉴。
a. 我们采用的取样方法,先定取样域,再定取样范畴,然后根据取样范畴聘用录音人去录现场典型材料,是一种层次范畴化取样方法,国外学者对此法有过剖析。社会语言学家Wolfram and Fasold (1997 [1974]:91)指出,虽然此法不是严格意义上的随机取样法,但是它有两个优势。一是可操作性好,二是可以避免取样不足和取样过剩的情况。我们一年多的实践证实了这一点。
b.取样的典型性难以保证。
c.我们力图保存现场即席话语的所有能够保留的信息,实践证明录音还不是十分有效的手段。鉴于此我们增加了录像手段。
d.有些取样范畴难以找到合适的录音人员。
*建议使用Acrobat Reader 6中文版*
目前北京地区现场即席话语语料库的总体语料状况
general
catalogue
*.pdf
audio
corpus catalogue 1
*.pdf
audio
corpus catalogue 2
*.pdf
video
corpus catalogue
*.pdf
有关语料库取样的一些理论问题
Sampling
spoken Chinese corpus by Gu Yueguo
*.pdf
语料库取样问题
*.pdf
Tutorial
compiling corpus
*.ppt
Report bad links to webmaster.