智能搜索引擎设计与实现(附答辩记录)(论文)
无需注册登录,支付后按照提示操作即可获取该资料.
智能搜索引擎设计与实现(附答辩记录)(论文)(包含选题审批表,任务书,开题报告,中期报告,毕业论文15600字)
摘 要:随着Internet网络的飞速发展及普及、人们消费和生活观念的改变,电子商务受到世界各国尤其是发达国家的高度重视,并且得到了快速发展,像 eBay、阿里巴巴、Amazon等著名的购物网站。本文结合网上购物项目,基于J2EE规范、框架技术和MVC设计模式的研究,分析Struts、 Spring、Hibernate和DWR等框架的组成机制、工作原理和整合方法。基于应用需求,给出系统用例图、功能模块划分、部分模块的活动图、系统类图、各层的概要设计及数据库设计。论文以网上购物系统的商品管理模块为例,整合框架在多个分层的应用实现过程、技术要点和细节。
论文重点研究网络爬虫Heritrix、检索工具Lucene、正则表达式和解析器HTMLParser所构建的搜索引擎。实验总结Heritrix在 Eclipse环境下的配置。认真分析指定网站的产品信息页面,扩展Heritrix的抓取组件。使用相关技术和方法,实现信息的采集、过滤、提取、存储及索引应用的全过程。
关键词:网上购物;HTMLParser;Heritrix;Lucene;J2EE框架
Design and Implementation of Intelligent Search Engine
Abstract:With the rapid development of Internet network and popularization, people consumption and life of the concept of the change, the electronic commerce by the world countries, especially the developed countries highly, and given the rapid development, like eBay, alibaba, Amazon, and other famous shopping website of. Combining with the online shopping project, based on J2EE specification, frame technology and design mode MVC, analysis, Spring, Hibernate Struts and the composition of the framework and DWR mechanism, working principle and integration method. Based on the application requirements, given safety systems use case diagram, function module partition, the activities of the module of figure, system of each layer of the outline of the figure, design and database design. Papers to the shopping system online commodities management module as an example, the integrated framework in the application of multiple layered process, technical points and details.
Key words:Online shopping; HTMLParse ; Heritrix;Lucene; J2EE Framework
课题研究的主要内容
(1)研究了网上购物系统的概念,研究的现状和目前正对网上购物系统有哪些主流的技术。研究了软件工程中的UML技术,用来对网上购物系统进行分析。
(2)研究J2EE多层体系架构,选择J2EE作为开发平台,并对J2EE多层架构的不足之处进行了分析。研究开发环境的搭建技术。
(3)讨论和分析了J2EE的Web应用开发系统,针对国内外目前研究的相关文献,对J2EE应用系统的几个流行框架Struts,Spring和Hibernate的体系结构和特点进行了研究和分析,并在J2EE架构的基础上对这个几个框架进行了整合和分析。
(4)研究了网络爬虫Heritrix、检索工具Lucene、正则表达式和网页解析器 HTMLParser,研究如何基于搜索引擎构建数据存储的方法。
(5)总结了Heritrix在Eclipse下的配置,认真分析了指定网站产品信息页面,并提出了扩展Heritrix的方法,使用相关方法,实现了信息的采集、过滤、提取、存储以及索引的全过程。
目 录
摘要 1
关键词 1
1 前言 2
1.1 课题研究的目的和意义 2
1.1 课题研究的主要内容 3
2 基于J2EE规范和框架技术的系统总体架构设计 4
2.1 J2EE的分层体系结构 5
2.2 框架技术 5
2.1 框架整合 6
2.1 系统总体架构分析 7
3 系统的分析设计和实现过程 8
3.1 系统需求分析 9
3.1.1 系统描述以及系统用例图 9
3.1.2 功能模块分析 9
3.2 系统设计 10
3.3 系统实现 11
3.3.1 DWR技术 11
3.3.2 框架整合过程 12
3.4 本章小结 13
4 基于搜索引擎构建数据存储 13
4.1 相关技术研究 13
4.1.1 网络爬虫Heritrix 13
4.1.2 信息检索工具lucene 15
4.1.2 正则表达式和HTMLParser 16
4.2 Eclipse环境下配置Heritrix 17
4.3 网页信息抓取 18
4.4 数据存储和索引的设计实现 20
4.5 索引模块 24
5 总结和展望 26
参考文献 27
致谢 28