科技论文摘要句子分类方法
1、概述
当前互联网上的科技论文数量正以指数级速度增长,如何对这些海量文档进行分类已成为一个重要的研究课题。现有的文本分类大部分是面向粗粒度的,即考虑的是整篇文档的类别划分。例如,各大门户网站根据新闻性质的不同将新闻文本分为娱乐、财经和法律等类别;文本分类系统根据内容题材的不同将文本进行归类;文献检索系统根据论文研究领域的不同将论文分为农业、计算机、电子和医学等类别。相对而言,面向细粒度的文本分类研究较少,事实上,这种文本分类在日常生活中有广泛的应用前景。例如,在科技论文查新时,有些研究人员可能只关心哪些论文在研究背景上是相似的、哪些在主题上是相似的、哪些在方法上是相似的、哪些在实验结果上是相似的。然而,面对此类问题,传统的粗粒度文本分类方法存在一定的局限性。
基于此,本文以科技论文的摘要句子为研究对象,根据句子的语境信息,将摘要句子分为 4 个语境类型:背景知识(Background, BA),主题(Topic, TO),研究方法(Methodology,ME),实验结果(Result, RE),提出一种两阶段的无监督论文摘要句子分类方法,第 1 阶段通过一些启发式规则完成摘要句子的初分类;第 2 阶段利用机器学习方法对初分类中未分类的句子重新分类。
2、相关工作
当前的细粒度句子分类研究大部分都是基于语境信息进行的。根据文献[4]的定义,句子的语境信息是根据句子在文本上下文中所起的作用为句子设定的一个信息标识,是对不同句子在文本中所起相同作用的一个共性描述,同时定义了语境类型是对语境信息种类的概括。语境类型识别在自动文摘、文本分类、文献检索服务等方面有较广泛的应用基础。
提出了语境信息标注决策树的概念,将句子的语境类型识别应用于抽取式自动文摘生成。提出一种利用句子的语境信息抽取摘要候选句的方法,同时验证了利用此方法生成的摘要更加接近人工生成的摘要。对 MedLine 中的医学论文摘要句子分类进行了研究,定义背景知识、研究主题、研究方法、实验结果 4 类语境类别标签,选择单词集合和句子相对位置特征,分别在支持向量机(Support Vector Machine, SVM)分类器和线性分类器下进行实验,实验结果表明,SVM 分类器效果明显优于线性分类器。
开发的 TextLens 医学文献检索服务系统在选用实验特征的基础上,进一步增加了句子的时态、TF*IDF 值、助动词等特征,对论文摘要句子进行语境类型识别,利用识别出的语境信息对同一领域的背景知识、研究方法、研究成果等历史记录进行概括总结,从而可以为用户返回更符合搜索请求的候选文献。本文方法是对文献[6-7]研究方法的扩充,探索了规则与机器学习技术相结合的方法识别句子的语境类型,从而实现摘要句子级别的分类。
3、两阶段的无监督论文摘要句子分类方法
3.1、种子样本的确定
通过句子所在的位置信息、关键词信息和上下文信息等启发式规则,对论文摘要中的每个句子所属的语境类型进行初分类。
(1)位置信息。位置信息即摘要中句子的编号,通过分析发现,句子所属语境类型与句子在摘要中所在位置关系密切。例如,摘要的第 1 句通常介绍背景知识;中间部分介绍方法;最后部分一般是实验结果。
(2)关键词信息。通过对摘要句子的分析,发现除背景知识外,其他类型都存在重复率较高且具有明显类别区分度的单词或短语。这些关键词信息对于确定句子所属语境类型同样具有非常重要的作用,利用统计的方法,取词频排名靠前的 N-gram(N<3)作为在初分类过程中所用到的关键词表。篇幅限制仅列出了统计的部分关键词。
(3)上文信息。指待判定语境类型的句子的上一句、上上句的语境类型信息。上文信息对判定句子的类别具有重要的指导作用。例如,论文主题的上一句一般是背景知识,研究方法的上一句通常是论文主题,而上上句通常是背景知识。
3.2、基于机器学习的分类
经过上述基于规则的分类算法的初分类,把符合规则的句子挑选出来,将它们作为机器学习的训练集样本(种子样本),对剩余未分类的句子利用机器学习方法重新分类。主要考虑以下特征:(1)位置信息:取值 0、1、2 等;(2)关键词:
选择表 1 中的关键词;(3)上下文信息:本句上句和下句的类型;(4)Unigram 单词:去除停用词后的单词。
4、实验
由于目前没有通用的细粒度论文摘要句子分类语料,因此本文进行了语料的收集和标注工作。
4.1、实验语料
本文共收集 2010 年自然语言处理国际顶级会议 ACL 发表的 200 篇长文中的摘要,共 1 000 个句子,分以下 3 个步骤进行标注。
4.2、实验结果与分析
为清晰起见,先解释实验中用到的几个变量:种子样本数目,即初分类阶段,经过规则分类器筛选,选为机器学习的训练样本的句子数量;总样本数目,即用于实验的所有句子数目;种子样本率,即种子样本数目与总样本数的比值。
通过逐步增加种子样本的规模观察其对系统性能的影响。随着种子样本数目的增加,所训练出的分类器对剩余句子分类的准确率上升,当种子样本率选择 0.6 时会得到最优的分类效果。继续增加种子样本率会因种子样本的质量下降而影响分类器的分类效果。
5、结束语
本文提出了一种无监督的细粒度论文摘要句子分类方法,与现有的细粒度分类方法相比,由于在分类中考虑了关键词和上下文信息,实验证明能够获得更高的分类正确率和召回率。
本文的分类方法目前还处于探索阶段,许多工作还有待展开深入的研究。种子样本的选择对于接下来的机器学习效果非常重要,如何更好地选择种子样本需要继续研究;机器学习过程中特征的选择也是非常关键的,之后将加入一些句法、依存关系、词性标注的特征,以获得更好的结果。
《科技论文摘要句子分类方法》转载自互联网,如有侵权,联系我们删除,QQ:369-8522。
相关图文
-
自驾车旅游论文前言(精选范文3篇)
自驾车旅游是一种新兴的旅游方式,具有自由,灵活,时尚等特点。自驾车旅游者有其自身的特征,并且随着人们生活水平的提高,旅游者的旅游观念不断成熟,旅游市场环境也在相应发生变化。下面我们就为大家介绍一些自驾车旅游论文前言,希望对大家了解论文写作时有所帮... -
员工压力管理论文提纲(范文3篇)
员工压力管理是组织帮助员工缓解和控制自己的压力,从而使员工能够更好地工作和生活所采取的各种措施。下面我们就为大家介绍一下关于员工压力管理论文提纲,供给大家参考。... -
自动变速器的论文前言(最新范文推荐)
随着国民经济的迅速发展,汽车产量逐年增加,我国汽车保有量越来越多,车型也越来越多,尤其是高科技的飞速发展,自动变速器在汽车中的应用更加广泛,许多汽车驾驶员在操纵变速器时沿用普通手动变速器的方法,造成不必要的损坏,传统的汽车维修工人对自动变速器的维修... -
园林工程技术毕业论文提纲(范文2篇)
园林工程技术主要研究设计美学、景观艺术、园林规划设计、园林工程预算等方面的基本知识和技能,进行园林景观设计、园林规划设计、园林施工图绘制、园林施工管理等方面的基本知识和技能。那么园林工程技术毕业论文提纲该怎么写呢?下面我们就为大家介绍一下吧... -
员工流失论文提纲怎么写?(写作方法和步骤)
员工流失是指组织不愿意而员工个人却愿意的自愿流出。这种流出方式对企业来讲是被动的,组织不希望出现的员工流出往往给企业带来特殊的损失,因而又称之为员工流失。那么对于员工流失论文提纲怎么写?下面我们就为大家介绍一下吧!...



王老师















