Trust the text.

John Sinclair

做语料库建设的我

本科时一心想读高翻硕士,因为看总理发布会身边的翻译各个神气又漂亮。后来发现大家伙都是这么想的,所以高翻的分数高的吓人。那就换一个方向,找来找去发现有个计算词典学,这个看起来应该挺有意思,就这样成了一名搞应用语言学的学生。

广外应该是对自己的语言学很有自信,所以考语言学的学生初试不考语言学,只考英文基础能力,入学后再学习语言学知识。教学阵容也真是强大,句法学由温宾利老师讲,语用学由冉永平老师讲,词典学由章宜华老师讲。在这些大家的影响下,我们也逐渐发现了语言学也挺好玩。

现在编词典离不开语料库的支持,也正是这时候开始接触到语料库。先是听说语料库的概念和一点浅显的理论,后来参与词典编纂实践,就跟语料库天天打交道了。

二年级时导师申请了国家项目,要建设语料库,我被选为学生负责人。初期语料库的总体设计,语料收集,文本整理每个步骤我都参与其中,有的步骤还是主要负责人,毕业后还帮助导师继续处理语料,年前还帮助团队设计了一个程序来判别N-grams是否有意义。

虽说现在的语料来源比广,获取较容易,但建设一个过亿词次的专用语料库还是很锻炼人。我们建设的涉华英语语料库库容超过1.3亿词次,包括国内外跟中国相关的书籍、报刊、杂志、网站等内容。从扫描书籍,到光学识别,从网络爬虫,到语料清洗,每一步我们都参与其中。所以参与过这个库的建设之后,再也不担心语料库建设的问题了。

从教以后,年轻老师分配的课时量很多,每周26个课时。我很喜欢跟学生交流,他们到二年级要考四六级,而四六级新改革的听力题型里加了新闻听力。学生们担心这个新题型,到处找新闻听力词汇。各个辅导书也出版了一些所谓新闻听力词汇,但大多数是互相抄袭的。于是我从网上找到一个资源建成了VOA Special English Transcript Corpus,以Brown语料库做参照得到了关键词表供学生参考。

之后还跟学院的研究生一起又搜集了近20年的四六级真题做成了四六级真题语料库,我们提取出了词表供学生参考。我没有去进一步验证我们的词表对新的四级题目的覆盖比率,但有三个学生在考完四级后主动在QQ上跟我反馈说词表很有用。值得一提的是,其他学校早已建成了四六级真题语料库,只是我们无法使用才自己又造了轮子。我们的语料库很乐意公开,在我的网盘里可以找到。

我申请了一个校级课题“农业硕博士论文摘要汉英平行语料库的建设与研究”。我们已经建设了近9万句对的平行语料库。该库也会尽快公开。顺便建设的农业硕博士论文摘要汉英可比语料库库容已经超过3000万汉字,可联系我索取。

我很喜欢分享,很讨厌有人藏掖资源。因为这些人的存在,很多人在做重复劳动,浪费宝贵的时间。所以我也在此保证,只要不涉及到版权问题,我今后建设的语料库都会及时公开。