论文写作 语料库 对比

博士论文摘要文体学比较-以山东农业大学动物科学为例

Publish Time:2018/03/28 21:55:35

Update Time:2018/04/15 21:53:55

用农大硕博论文摘要语料库与dart的英国语料对比(检索条件是subject 含有animal,共193篇论文)

文献阅读:

Corpus Stylistics in Principles and Practice

by Yufang Ho 2011

文体学研究文学作品的语言和风格,但一众学者认为文体不应该是文本的一种属性,而是一种隐性的关系概念(an implicitly relational concept)。也就是说,提及某个文本有某种特征既等同于讲该文本在某些方面与其他文本有区别。

Given that comparison is the basis of stylistic study, our next questions should be: what exactly should we compare with, and how?


检索山农硕博论文摘要语料库条件:

"SELECT discipline from [abstracts] where discipline like '%动物%' and sourceDatabase='博士'"

共检得36篇论文。


检索dart-europe语料库条件:

"SELECT subject,identifier2 from [abstracts] where subject like '%animal%' and (identifier2 like '%Doctoral thesis%' or identifier2 like '%PhD thesis%')"

检索到137篇论文。

其中112篇来源于University of Nottingham,22篇来源于University of Warwick,2篇来源于University of Southampton,1篇来源于University of Gloucestershire。

年份

1983,1

1984,1

1987,1

1989,2

1990,2

1991,2

1994,2

1995,2

1996,1

1997,2

1998,1

1999,3

2000 , 1

2001 , 6

2003 , 1

2004 , 1

2005 , 3

2006 , 2

2007 , 4

2008 , 4

2009 , 12

2010,15

2011,19

2012,13

2013,25

2014,4

2015,2

2016,3

2017,2

总数138,多了一个。

还是要写程序啊,数来数去总有错。已经改正。

Voice 也是一个可研究数据。通过parser应该可以检索出主动被动句的比例。

程序处理获取文本文体属性:

步骤,获取文本句子,单词,字母数量:

function getSWLNum(inputStr){//传入Stanford tagger分析后的文本
	var sentenceNum = 0;
	var wordNum = 0;
	var letterNum = 0;

	for s in string.gmatch( inputStr,"_\.") { 
		sentenceNum++;
	}
	
	for wt in string.gmatch( inputStr,"_[A-Z]{1,4}${0,1}\s") { 
		wordNum++;
	}
	
	var wordsStr = "";
	for w in string.gmatch( inputStr,"(\w*)_[A-Z]{1,4}${0,1}\s") { 
		wordsStr = string.concat(wordsStr,w);
	}
	
	letterNum = string.len(wordsStr);
	return sentenceNum,wordNum,letterNum; 
		
}


syllable计数代码:

import console; 
import nodeJs;

nodeJs.require('http')
nodeJs.require('syllable')
js = /*
var syllable = require('syllable');
var fs = require('fs');
var path = require("path");
var dirPath = "./res/subdir/22/"
fs.readdir(dirPath,function(err, files){
	files.forEach(function(file){
		var ext = path.extname(file);
		if(ext === '.txt'){
			var fp = dirPath+file;
			fs.appendFile('do-list.txt',fp+'	'+'\r\n',function(){});			

			fs.readFile(fp,{flag: 'r+', encoding: 'utf8'},function(err,data){
				var syl = syllable(data.toString());
				fs.appendFile('syl-list.txt',file+'	'+syl+'\r\n',function(){});
			});
				
		}
					
	});
	
});

*/


nodeJs.exec(js)
console.pause(true);


是否结构化?dart里有结构化的摘要。


作物栽培学均值比较:


诺丁汉大学

https://baike.baidu.com/item/%E8%AF%BA%E4%B8%81%E6%B1%89%E5%A4%A7%E5%AD%A6/324318

南安普顿大学

https://baike.baidu.com/item/%E5%8D%97%E5%AE%89%E6%99%AE%E9%A1%BF%E5%A4%A7%E5%AD%A6/2066399?fr=aladdin&fromid=8625657&fromtitle=University+of+Southampton

华威大学

https://baike.baidu.com/item/%E5%8D%8E%E5%A8%81%E5%A4%A7%E5%AD%A6/325462?fr=aladdin&fromid=8722448&fromtitle=University+of+Warwick

被动语态的标志:par 文件里的auxpass标签。