主题网络爬虫关键技术研究
无需注册登录,支付后按照提示操作即可获取该资料.
主题网络爬虫关键技术研究(论文18000字)
摘 要
随着互联网的迅速发展,Web的信息量越来越大。为了在网络中,快、准、全地找到相关信息变得越来越困难。因此,搜索引擎应运而生。以往的搜索引擎很大程度上帮助人们在互联网上查找信息更加方便,然而,慢慢地也暴露了很多弊端,不能提供专业化的信息搜索,查准率偏低、内容陈旧等。于是面向主题搜索的第四代搜索引擎应运而生。主题搜索引擎,专门面向特定的对象、能够满足特定领域及特定人群的要求。
本文的研究对象是主题搜索引擎中的主题爬虫。首先概述了主题网络爬虫的研究现状;然后分析了主题网络爬虫的体系结构,将其分为:数据存储、下载模块、网页主题识别和链接分析,并阐述各部分的功能。主要研究内容如下:
(1)主题内容的抽取是网页主题识别的重要步骤,本文结合网页内容分布特征以及主题内容的相关特征,设计了一种网页主题内容抽取方法。
(2)提出了一种基于实体链接的主题识别算法,去识别网页的主题。将基于知识库的实体链接方法运用于特征抽取,实验表明该方法提高了主题网页识别的准确率。
(3)提出了一种基于Best-First算法的主题搜索策略。主题搜索策略是指导主题网络爬虫抓取网页的关键,本文采用基于Best-First算法的主题搜索策略。
关键词:主题网络爬虫,实体链接,Best-First算法,主题搜索策略
目录
摘 要 II
第一章 绪论 1
1.1 背景与意义 1
1.2 主题网络爬虫的国内外研究现状 1
1.2.1 主题识别算法及主题搜索策略 2
1.2.2 主题爬虫系统 3
1.3 本文的研究内容 3
第二章 主题网络爬虫的体系结构 5
2.1 组成部分及基本流程 5
2.1.1 基本组成 5
2.1.2 基本流程 6
2.2 主题页面的分布特性 7
2.2.1 Hub/Authority特性 7
2.2.2 Linkage/Sibling Locality特性 7
2.2.3 站点的主题特性 7
2.2.4 隧道特性 8
2.3 搜索策略以及链接提取 8
2.3.1 robots协议和相对链接的转换 8
2.3.2 搜索策略概述 9
2.4 本章小结 9
第三章 网页主题内容抽取 10
3.1 HTML简介 10
3.2 网页文件解析 11
3.3 网页去噪 12
3.3.1 利用统计学去噪 14
3.4 主题内容的抽取 15
3.5 文本分词 15
3.6 本章小结 16
第四章 基于实体链接的主题识别算法 17
4.1 实体链接简介 17
4.2 CN-DBpedia 17
4.3 基于实体链接的特征抽取 18
4.3.1 候选特征集合抽取 18
4.3.2 常见特征抽取算法 20
4.3.3 最终特征抽取 22
4.4 基于朴素贝叶斯算法的分类器 23
4.5 实验分析 25
4.6 本章小结 26
第五章 基于Best-First算法的主题搜索策略 27
5.1 通用搜索策略 27
5.2 常用主题搜索策略 28
5.2.1 基于内容评价的搜索策略 28
5.2.1 基于链接结构评价的搜索策略 29
5.3 基于Best-First算法的主题搜索策略 30
5.3.1 链接价值评估 30
5.3.1 主题搜索策略 31
5.3.2 实验分析 33
5.4 本章小结 33
第六章 总结与展望 35
6.1 总结 35
6.2 展望 35