摘要:最近,将数据挖掘技术应用于学习系统成为一个热点。本文主要介绍了将数据挖掘技术应用于学习系统,尤其是基于Web的学习系统。介绍了多种挖掘技术在学习系统中的应用:统计分析、可视化、聚类、分类、关联规则和文本挖掘。
一、引言
在过去的十年中,教育方式最重要的变革是引入诸如基于的学习系统。这是一种借助计算机的辅助,搭建一个独立于具体地点和硬件环境的平台。该学习模式已经被引起了高度的重视,在过去几年中成千上万的基于Web的课件被开发出来。但是,目前基于Web的学习系统仅仅将资料放置于平台上,而忽略了不同学生的差异性。为了使得学习系统能够适应学生的多样性,因此需要构建具有自适应、智能的系统。通过对学习者目的、爱好和已有的知识进行建模,使得学习系统能够提供个性化学习服务。数据挖掘(Data Mining)或者知识发现能够在大量的、杂乱无章的数据中发掘出隐含的、有用的、感兴趣的知识。通过对学习过程中产生的数据的挖掘,不仅能够发掘出学习过程和学生行为相关的有用知识,而且能够对学习系统进行评价,以至对学习系统进行改进。
二、学习系统
在传统的学习环境中,学生和教师面对面交流,教师通过对学生行为的观察,结合教学经验,采取不同的教学策略。但是,在基于Web的环境中,这种方式变得不可能,教师(或者是教育者)必须通过其它的方式获得学生的相关信息。基于的学习环境中,学生在学习过程中会在服务器上自动地产生大量的数据,这些数据记录了学生的学习行为。最近,对产生在服务器上的、大量的数据的分析成为一个热点。为了分析这些数据,数据挖掘技术被引入。数据挖掘技术包括数据预处理、模式发掘、数据后期加工几个阶段。数据挖掘技术已经被成功地应用于电子商务等领域, 并且已经开始应用于—learning环境中。虽然电子商务和e—learning及其相似,但是仍然有许多不同的地方:
领域。电子商务主要目的是引导消费者在该平台购物,而e—learning平台是引导学习者学习。
数据。在电子商务平台产生的数据通常是简单的用户登录信息,而e—learning平台产生的数据更多的是关系学生的学习过程。
目的。在电子商务平台使用数据挖掘技术主要是为了增加消费者购买某种商品的可能性,它能够通过用户访问量、销量等相关信息来对引用策略进行评估;而在e—learning平台使用数据挖掘主要是改善不同学习者的学习,这使得对策略的评价将是主观的、难以测量的。
技术。由于学习系统固有的一些特点,使得在挖掘过程中需要特别的处理。从而,某些挖掘算法能够直接应用于该系统,而另一些则需要修改。
将数据挖掘技术应用于教育学习系统能够使得在系统开发过程中不断地修改和完善,以期更好地为学习者服务。同时,教育工作者也能够根据挖掘出来的信息不断地改进教学方法。
数据挖掘技术将反复地作用于学习系统、教学方法的各个阶段。
三、数据预处理
数据预处理的作用是对原始数据进行整理,删除冗余数据,使得数据的格式符合挖掘算法的需要,数据预处理是进行挖掘之前的一个重要环节。主要进行以下工作n :
数据清洗。数据清洗是预处理的一个重要任务,它主要是删除那些被认为与挖掘不相关的冗余数据,比如图片、脚本等;.用户识别。确定哪些页面是被同一个用户访问;会话识别。对某一用户访问的所有页面按照某一规则进行划分,这样有利于发掘在某一段时间内用户的爱好、目的等;路径补充。由于浏览器和代理服务器的原因,可能造成用户访问的某一路径不完整,因此需要在预处理时进行路径补充。
数据转换。它的主要任务是对数据的格式进行转换,使它适合挖掘算法的需要;数据集成。将来自不同数据源的数据整合成一致的格式;数据降维。将高维数据转换为低维数据。
四、数据挖掘技术
在学习系统中的使用数据挖掘技术是一个多学科融合的领域,它包括:决策树、规则规约、人工神经网络、基于案例的学习、贝叶斯学习、逻辑程序设计、统计算法等 。
一)统计和可视化对学习系统的评价通常通过对学生使用情况进行统计来完成,它建立在人为的假设前提之上。而数据挖掘技术采用相反的方式,它的假设是通过对数据的挖掘自动产生的。在没有采用数据挖掘的统计方法中,通常是简单地统计访问某一页面的总人数、学习者的在线学习时间、学习者访问频率最高的页面等。当然,也有较为深入的统计,比如统计平均的违规行为、学习问题的平均复杂性、学习者学习某一问题付出的平均时间等。所有的这些都涉及到回归分析、关联分析、多元统计方法等。
数据可视化技术能够以图像的方式,多角度地呈现系统的使用情况,这非常适合对大量数据的分析。数据可视化技术已经应用在协作学习系统、点对点的团体关系系统以及在线团体的交流系统等。教师可以随意地产生图像,使得更直观地获得学生的学习情况,以及在学习过程中发生的问题。
二)Web挖掘挖掘是利用数据挖掘技术对Web数据进行挖掘。
挖掘可以分为以下几种:Web内容挖掘,它通过对Web页面内容的挖掘而获得有用的知识;Web结构挖掘,通过对Web结构进行挖掘来获得相关知识;Web使用挖掘,通过对用户使用网站过程中产生的数据进行挖掘来获得有用知识。目前,不同的挖掘技术应用在学习系统中,但归纳起来主要是聚类分 析、分类分析、关联规则分析、文本挖掘等。
聚类、分类聚类是对将一组数据分为若干个簇,使得在同一簇中的数据具有最大的相似度,不同簇中数据具有最大的相异度。而分类,则是将数据分到已经划分好的若干类中。聚类和分类都是分类方法。聚类和分类的区别在于是否需要先验知识。分类和聚类分析方法被广泛地应用于基于Web的学习系统中。聚类分析可以将具有相同内容的页面归到同一簇中,也可以将具有相似学习习惯、背景知识以及访问模式的学习者归到同一簇。分类分析可以对具有相似内容的网页、相似学习习惯的学习者的属性进行刻画,这有助于发掘网站、学习者的薄弱点。
关联规则分析关联规则挖掘是一个被广泛关注的挖掘方法。该方法通过数据间的一个或多个属性进行分析,产生if—then这样的关于数据属性的语句。关联规则方法最先是被Agrawal,和Swami在1993年提出,随后得到了蓬勃的发展。
关联规则最初的应用是对购物篮分析,以期发掘出商品之间的某种关联,从而达到促销的目的。关联规则同样被广泛地应用于基于Web的学习系统中。它可以发掘出学习者的学习路线,从而为新的学习者进行推荐。
文本挖掘文本挖掘可以作为数据挖掘的一个补充,它和基于内容的挖掘极其相似,它是一个多学科的融合,包括:机器学习、数据挖掘、统计学、信息获取和自然语言处理等。文本挖掘可以作用于无组织或半组织的数据集,比如全文字的文件、文件、电子邮件等。
五、总结
将数据挖掘技术应用于学习系统是一个年轻的领域,它需要更多的专门、面向该领域的挖掘算法。总结起来,包括如下几个方面:挖掘工具更加地简便,以至于没有任何数据挖掘相关知识的教育者也能使用;标准化的数据格式和方法;将数据挖掘技术与学习系统的完美整合;专门的、面向学习系统的挖掘算法。