• 学前教育
  • 小学学习
  • 初中学习
  • 高中学习
  • 语文学习
  • 数学学习
  • 英语学习
  • 作文范文
  • 文科资料
  • 理科资料
  • 文档大全
  • 当前位置: 雅意学习网 > 高中学习 > 正文

    python 文本挖掘 实例 Web日志挖掘在校园网建设中的应用

    时间:2018-12-25 03:31:23 来源:雅意学习网 本文已影响 雅意学习网手机站

      摘要: 本文以某高校校园网日志数据为应用实例进行日志挖掘,并根据挖掘结果对校园网网站的结构改进提出了建议。   关键词: 数据挖掘 Web日志挖掘 Agent技术
      
      1.引言
      
      Web是一个开放性的全球分布式网络,资源分布在全球不同的地方,并且网上的资源没有统一的管理和结构,导致了信息搜寻的困难。本文设计了一个利用Agent技术实现Web日志挖掘的系统模型,把Web挖掘任务分配给多个Agent来共同完成,包括预处理Agent、数据挖掘Agent、测试Agent、评价Agent等,每个Agent都有自己的目标,有独立完成任务的能力,也可以和用户等外部环境进行交互。模型能适用于Web信息处理的各种应用,在信息的个性化推荐、电子商务的个性化服务、智能教学系统的建立、网站结构的改进等方面有应用前景。
      本文以某高校校园网日志数据为应用实例进行日志挖掘,并根据挖掘结果对校园网网站的结构改进提出了建议。
      
      2.具体应用
      
      2.1选取数据源
      实验的数据源为某高校校园网服务器上的日志文件,选取2007年9月份的Web访问日志作为挖掘对象,该校园网主页共链接有18个分类页面,如“学院概况”、“机构设置”、“师资队伍”、“招生就业”、“校园风光”、“图书馆”等,称为一级子页面。一级子页面链接的下一级页面称之为二级子页面,二级子页面共有96个。二级子页面链接的下一级页面定义为三级子页面,以此类推。由于信息量巨大,为了简化实验过程,只选取了8万余条日志进行分析。
      2.2数据预处理
      (1)数据净化
      数据净化是数据预处理的第一项任务,指的是将服务器日志中无意义的、无关紧要的数据去除,仅保留对挖掘有意义的数据。潍坊学院校园网服务器上的日志记录包括用户ID、用户IP地址、用户请求访问的URL页面、请求方法、访问时间、传输协议、传输的字节数、错误代码等属性,而与数据挖掘相关的只有用户IP地址、用户ID、用户请求访问的URL页面及访问时间,其他属性都可以去掉。另外,URL页面中除了用户关心的正文外,往往还有图像、声音、视频等辅助信息,挖掘Web日志的目的是找出用户的共同访问模式,关于辅助信息的记录是无用的,可以删除。通过检查URL的后缀,将后缀名为GIF、JPEG、JPG、gif、 jpeg、jpg、swf、css、js和map的请求项删除。
      (2)用户识别
      系统使用的技术是基于日志/站点的方法,并辅助一些启发式规则帮助识别用户:不同的IP地址代表不同的用户;用户的IP地址相同,但相应的代理日志如果显示用户的操作系统或者浏览器类型改变了,就代表不同的用户;如果用户的IP地址相同,操作系统和浏览器的类型也相同,则根据网站的页面链接结构对用户进行识别;如果当前浏览的页面同用户已浏览的页面没有超链接关系,那么就认为存在另外有相同IP地址的用户。
      (3)会话识别
      系统使用的会话识别方法是使用时间戳timeout,将时间戳设置为30分钟。如果用户在连续浏览一些页面后,30分钟后再访问了其它的页面,也只把前面所连续访问的页面作为一个页面集;如果30分钟之内接着访问了其它页面,则计入同一个会话中。
      (4)路径补全
      检查当前引用日志确定引用请求来自哪一页,如果在用户的历史记录中有多个页面都包含于当前请求页的链接,则将请求时间最接近当前请求页的页面作为当前请求的来源。若引用日志不完整,可以使用站点的页面链接结构代替。通过这种方法将遗漏的页面请求添加到用户的会话文件中。
      (5)事务识别
      系统采用的事务识别算法是时间窗方法,具体算法如下:
      输入:日志L
      输出:用户访问事务集T
      T=NULL;
      UserAccessSet=Partition(L);//根据每一个IP和代理对划分日志。
      FOR each ua ∈UserAccessSet BEGIN
      ua=sort(ua);//对每一个访问者的访问记录根据时间升序排列
      t=NULL;
      FOR each l[j]∈ua BEGIN
      IF (l[j].time-l[j-1].time)

    推荐访问:校园网 挖掘 建设中 日志

    • 文档大全
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章