• 学前教育
  • 小学学习
  • 初中学习
  • 高中学习
  • 语文学习
  • 数学学习
  • 英语学习
  • 作文范文
  • 文科资料
  • 理科资料
  • 文档大全
  • 当前位置: 雅意学习网 > 小学学习 > 正文

    基于Hadoop的陶瓷行业信息聚合平台设计

    时间:2021-01-08 12:03:25 来源:雅意学习网 本文已影响 雅意学习网手机站


      摘要:
      在陶瓷行业信息聚合网站的基础上,通过Web日志分析可以获取网站用户的访问情况,但是随着Web服务器上日志的剧增,在单机上运行日志分析或挖掘程序变得越来越不可行。采用Hadoop并行计算平台对日志进行预处理,然后对页面访问量、用户访问量、网站流量等指标进行统计,还应用Apriori算法对日志进行挖掘,对群集在不同节点数、不同数据集以及不同最小支持度的情形下的性能进行比较。实验结果表明,在Hadoop平台上,随着集群节点的增加,大数据集处理性能会得到较大提升。应用Hadoop 平台构建的日志分析平台可以为陶瓷行业信息聚合平台的管理者提供各种有价值的信息。
      关键词:Hadoop;Apriori;陶瓷信息系统
      DOIDOI:10.11907/rjdk.173070
      中圖分类号:TP319
      文献标识码:A 文章编号:1672-7800(2017)012-0128-03
      Abstract: Based on the development of the ceramic industry information aggregation website, User"s access informationcan be obtained through Web log analysis. However, with the rapid increase of the logs on the Web server, it becomes more and more impossible to run log analysis or mining programs on a single computer Row. In this paper, Hadoop parallel computing platform for log pretreatment, and then page views, user traffic, website traffic and other indicators statistics, but also Apriori algorithm to log mining, the cluster in different nodes, different data sets and different Minimum support in the case of performance comparison. Experimental results show that the processing of large data sets on the Hadoop platform will be greatly enhanced with the increase of cluster nodes. The log analysis platform built using the Hadoop platform can provide valuable information to managers of the ceramic industry information aggregation platform.
      Key Words:Hadoop; Apriori; ceramic information system
      0 引言
      Hadoop[1-2]平台实现了HDFS分布式文件系统,它具有高容错性的特点,而且可以部署在低端硬件上,提供高吞吐量的处理能力,适合处理超大数据集的应用程序。Hadoop框架最核心的设计是HDFS和MapReduce,HDFS为海量数据存储提供了物质基础,MapReduce为大数据提供了计算技术。
      本文在一个陶瓷行业信息聚合平台的基础上,应用Hadoop技术,实现了网站访问日志的预处理、统计、挖掘等功能,为网站管理者提供了改进依据。
      1 研究背景
      陶瓷行业信息聚合平台网站是一个前端采用BootStrap框架,应用HTML5、AJAX、JQuery等相关技术,后台采用Struts+Hiberate+Spring框架技术的网站。系统功能包括用户注册与管理、陶瓷产品上架与展示、供求信息发布、各类信息搜索等功能。网站布局如图1所示。
      系统后台数据库采用MySQL框架, 数据库设计了business_chances, product, news, category等表,分别对应供需信息、产品、新闻、产品类别等信息。
      为了更深入了解网站访客的使用习惯,可以对网站访问日志进行分析。例如tomcat服务器上记录的访问日志的信息。
      通过这些字段的统计分析,可以得到每个页面的访问、IP访问量与用户某个时段的访问量、用户来源,用户访问浏览器(设备)等指标的统计。通过对日志进行预处理后,形成一个用户访问事务文件,在Hadoop平台上应用并行化的挖掘算法[3-6],实现关联、聚类等分析。
      2 Hadoop平台处理网站日志
      2.1 日志处理模块
      对于海量日志数据,如果用单机来进行统计分析、挖掘,处理效率将会降低。此时可以采用Hadoop平台[2],在集群上完成日志的分布式处理。日志分析/挖掘模块框架如图2所示。
      日志分析及挖掘处理可以分为3个子模块。第一个模块是日志收集模块。日志收集模块主要负责定期把日志文件从Web应用服务器上传到集群的HDFS系统;然后在NameNode节点上启动Hadoop Job,完成日志文件的分片、分配Mappe及Reducer节点,执行完Job之后,把结果导出到MySQL, 用户可以在陶瓷信息聚合网站上查看统计或挖掘的结果。
      日志收集模块可以采用Java编写GUI程序, 然后用Socket定期完成日志的上传。这种方式需要开发服务器端及客户端软件。日志上传客户端的界面如图3所示。

    推荐访问:聚合 陶瓷 行业 设计 平台

    • 文档大全
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章