基于.NET技术的并行网络爬虫的实现
以下是资料介绍,如需要完整的请充值下载. 本资料已审核过,确保内容和网页里介绍一致. 密 惠
无需注册登录,支付后按照提示操作即可获取该资料.
无需注册登录,支付后按照提示操作即可获取该资料.
资料介绍:
基于.NET技术的并行网络爬虫的实现(中文4000字,英文PDF)
摘要:万维网的增长速度非常快,网络上的数据或信息经常发生变化。由于网络是动态的,因此很难获得相关的、新鲜的信息。本文设计并开发了一个基于多个HTTP的网络爬虫程序。这里我们使用多个线程来实现多个HTTP连接。通过多线程的帮助,可以减少整个下载过程。本文介绍了一种基于.NET技术的网络爬虫系统。该方法在VB.NET中实现,多线程并行对网页进行爬行,爬行数据存储在中央数据库(SQL Server)中。记录的重复性是通过预先编译的存储过程来检查的,并且可以很快地检查结果。该结构速度非常快,允许许多爬虫同时对数据进行爬行。
关键词:万维网;网络爬虫;多HTTP连接;多线程;URL;数据库