网络搜索引擎性能分析模型与系统ASP+SQL

时间:2020-09-01 16:15:02 计算机应用毕业论文 我要投稿

网络搜索引擎性能分析模型与系统ASP+SQL

毕业论文

目   录
摘要 1
前言 3
1 搜索引擎概述 4
1.1 模糊搜索技术 4
1.2 多个关键字查询 4
1.3 爬行网页 6
1.3.1 页面的选择 6
1.3.2 爬行策略 6
2 开发工具的简介 8
2.1  开发环境介绍 8
2.1.1  ASP概述 8
2.1.2 ASP运行环境 8
2.2 VISUAL INTERDEV概述 8
2.3 VISUAL INTERDEV的集成开发环境 9
3 ASP网络数据库开发简介 11
3.1 建立ODBC数据源 11
3.2 SQL简介 11
3.3  ADO概述 11
3.3.1  ADO的对象 12
3.3.2  ADO的操作流程 12
3.4 创建ODBC DSN文件 13
3.5 连接数据库 15
4 系统总体规划 17
4.1 系统需求分析 17
4.2 系统功能模块图设计 18
4.3 搜索引擎系统设计结构图 19
4.4 数据流图 20
4.5 系统数据库设计 21
5  系统具体实现 24
5.1 主要系统文件组成 24
5.2 网站搜索模块 24
5.2.1 模块的具体实现 24
5.2.2 搜索模块存在的问题 30
5.3 分类目录模块 30
5.4 网站登录模块 34
5.5 网站修改模块 37
5.6 管理员登录模块 39
5.7 网站管理模块 40
5.8 网站审核模块 42
5.9 分类管理模块 42
5.10 退出系统模块 44
结束语 46
参考文献 47
致谢 48
附录 49


网络搜索引擎性能分析系统模型及设计
 

摘要:搜索引擎是绝大多数网站都提供的功能,搜索引擎分为站内文件搜索引擎和网站搜索引擎两大类,站内文件搜索引擎是指对1个固定的站内的文件进行搜索,搜索的结果是含有关键字的站内文件;网站搜索引擎是指对登记过的网站进行搜索,搜索的结果是含有关键字的所有网站。
我利用ASP技术,采用Visual InterDev开发工具开发1个搜索引擎模型。本论文主要介绍了本课题的开发背景,所要完成的功能和开发的过程等,重点说明了系统设计的重点、设计思想、难点技术和解决方案等,并给出了在开发过程中的1些经验体会。
关键字:搜索引擎;关键字;ASP;Visual InterDev
 

Net Search Engine performance analysis system model and design
 

Abstract:Search engine is a function provided by most of networks. It includes Localhost File Search Engine and Net Search Engine. Localhost File Search Engine refers to search on files fixed in the local machine and its results are some files withkeywords.  Net Search Engine searchs on registered networks whose results are all the networks with keywords.
I make use of ASP and adopt Visual InterDev to research a model for Search engine. This article mainly introduces development backgrounds, functions to be finished and processes of research about this subject and so on. It stresses on key points and thoughts of designing, difficult technology and schemes about this system. In addition, it shows some experience in the process of research and development.
Key words: Search engine;Key words;ASP;Visual InterDev
 

前  言

在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。
现代意义上的.搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage想到了开发1个可以以文件名查找文件的系统,于是便有了Archie。Archie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以1定的表达式查询。由于Archie深受用户欢迎,受其启发,美国内华达System Computing Services大学于1993年开发了另1个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件外,已能检索网页。
随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Matthew Gray的Wanderer基础上,1些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟踪1个网站的链接开始,就有可能检索整个互联网。到1993年底,1些基于此原理的搜索引擎开始纷纷涌现,其中以JumpStation、The World Wide Web Worm(Goto的前身,也就是今天Overture),和Repository-Based Software Engineering (RBSE) spider最负盛名。
最早现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福(Stanford)大学的两名博士生,David Filo和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。比如最近风头正劲的Google,其数据库中存放的网页已达30亿之巨!
然而我国的搜索引擎技术与国外先进技术相比仍然相差较大,较有名的引擎寥寥可数,如百度等。中国拥有巨大的市场潜力,若能充分挖掘,将产生巨大的经济效益,所以应该积极发展搜索引擎技术,故我选此作为毕业设计课题,使自己能尽早了解其原理和技术,为以后向这方面发展打下基础。
 

1 搜索引擎概述 
目前,关于搜索引擎的说法很多,国内还没有1个明确的定义。1般而言,我们可以从广义和狭义上去理解。从狭义的角度来说,搜索引擎由信息收集软件、索引数据库和查询接口3部分组成。信息收集软件从1个已知的文档集中读取信息,并检查这些文档的链接指针,找出新的信息空间,然后取回这些新空间中的文档,将它们加入到索引数据库。查询接口通过索引数据库为用户的查询请求提供服务。即搜索引擎指的是基于某种技术在整个网上自动执行网页全文搜索的网上指南工具。
从广义的角度上讲,搜索引擎是因特网上的1类网站,这类网站与1般的网站不同的是它是提供查询、搜索的网站,或称查询站点、导航站点,即因特网上具有检索功能的网页。从这点上说,搜索引擎分为两种,1种是分类目录型的检索,它将因特网上的信息资源,如网址、描述主题、字顺或时间顺序汇总整理,形成图书馆目录1样的分类树型结构目录,用户通过逐级浏览这些目录来找寻自己需要的网址或相关内容;另1种是基于关键词的检索,这种方式用户可以用逻辑组合方式输入各种关键词(Keyword),搜索引擎计算机根据这些关键词寻找用户所需资源的地址,然后根据1定的顺序(如字母排列、时间、相关级别等)反馈给用户包含此关键字词信息的所有网址和指向这些网址的链接。现在的发展趋势是以基于关键字的检索为主、分类目录型检索为辅。基于关键字检索的功能强大、维护成本低廉,但实现技术比较复杂,本论文以这种搜索引擎为讨论对象。
然而在中国,中文搜索引擎存在着许多问题。首先中文搜索引擎的分类体系尚不完善。由于我国搜索引擎发展起步晚速度又快,目前在这方面尚未出现统1的分类标准,也没有实施和规定规范的网络术语,以致于各搜索引擎在分类和命名时无据可依。具体表现在:1是中文搜索引擎很多。他们之间没有1个统1的严格的分类标准,导致类目体系不1,且层次不合理,类目设置不科学,类目之间逻辑差,类目设置随意,无分类代码,分类体系变动大;2是我国网站许多术语并不规范,类名也不统1,结果造成了混乱,让用户无所适从。再次,国内的网站所采用的收集资料的技术比较落后。这主要是由于它们绝大多数采用目录式搜索引擎,即通过人工发现信息并依靠编目员的知识进行分类,从而使搜索引擎收集的范围小、信息少,获得的信息资料不齐全、不完整。这些问题的实质是搜索引擎缺乏知识理解能力和自然语言的处理能力。
要实现1个搜索引擎系统,用到的技术很多,其中最主要的两项关键技术是数据库中模糊搜索的实现和多个关键字查询。
1.1 模糊搜索技术
所谓“模糊搜索”就是根据1个关键字,搜索到相关的资料,这里的“相关”是指资料中有类似这个关键字的字符串。例如:“ASP”这个关键字,只要数据库资料中包含“ASP”
这个关键字的都要把它们找出来。模糊搜索的实现其实很简单,只要使用1个SQL语句就可以了,下面看看SQL语句的写法。
 在SQL语句中,包含如下几个关键字:LIKE、NOT LIKE、BETWEEN。LIKE关键字是搜索与搜索条件相匹配的数据。而NOT LIKE与LIKE正好相反,是查找与搜索条件不匹配的数据。BETWEEN关键字是查找在1定范围内的数据,它总是与AND关键字1起使用。如果事先知道查找范围的起点和终点,可以采用BETWEEN关键字。在编程实现搜索引擎时,1般最常用的就是LIKE关键字。
 用个例子来说明。首先建立1个数据表example,表中有两个字段:ID字段和CONTENT字段,CONTENT字段中包含1些文本信息。编者在这里使用SQL语句查询CONTENT字段中是否包含“example”关键字,如果包含,将显示包含关键字的所有ID值;如果不包含将给出提示。

【网络搜索引擎性能分析模型与系统ASP+SQL】相关文章:

1.Oracle性能分析与优化

2.系统结构模型网络工程论文

3.基于OpenGL的邦宝模型积木分析系统设计与实现

4.沙盘模型设计与制作分析

5.海洋经济系统区域网络模型探析论文

6.论析网络应用流分析与风险评估系统

7.电动拖拉机电动悬挂系统的设计与仿真性能分析论文

8.会计信息系统REA模型重构分析论文

9.计算机网络管理系统设计与应用分析