@
est 当然有,我给你贴一段我的本科毕业论文的一段, NLP 相关的
以百度百科为例,现在的百度百科,已将整个文档进行了处理。在每个词条之前,加入了与该条目相关性最强的同时也是对用户最为有用的一些信息,在相关信息之后,条目正文开始之前,百度百科将整个正文的章节和不同章节的章节标题描述以及各章节的小标题罗列出来。而这些条目相关信息和条目章节信息是由百度百科的用户自行维护,由社区在后面进行审核,换言之,这些条目相关信息和条目索引是可靠性极高的人工标注,其对整理文本语料的作用不言而喻。如果能有效的利用这些信息,其准确率毫无疑问要高于纯使用程序进行主题分类。
以百度百科的“成龙”词条为例,在成龙的词条正文开始之前,百度百科将成龙的一部分常用的个人信息罗列出来,如原名、曾用名、代表作、职业、国际、民族等等,如图 3.1 所示;在词条正文开始之前,百度百科将词条正文的目录章节标题和小标题罗列出来,如图 3.2 所示,这些标题和小标题和章节内容直接相关,而且具有极高的相关度,可以直接作为段落主题使用。
?1
图 3.1 成龙的个人信息
图 3.2 成龙的词条正文目录索引
从图片中可以看到,这些信息的页面组成具有其规律性,查看源代码也可以看出,其源代码也具有规律性,如图 3.3 所示,可以对 HTML 源代码进行处理得到其相关信息。通过对维基百科的调查研究,我们可以发现,维基百科也具有同样的性质和特征。
?1
图 3.2 成龙的个人信息目录网页源码
事实上,我们可以认为,原本非结构化的百科网站的组织,经过不断优化,现在已经可以认为其具有一定的结构化特征,非结构化文本的粒度由以前普遍认为的篇章,转变成为现在的段落。甚至能直接从百科词条中提取出相关条目最重要的一部分知识。对于采用结构化知识的知识库,在语料处理的时候,能够直接得到一系列人工标注的知识;对于非结构化的知识库,能够以章节标题作为索引,同时拥有该词条相关的无信息噪点的文本内容。