基于分布式数据的学习分类器的研究

时间：2022-12-07 21:45:02　来源：雅意学习网本文已影响人

信晓艺

(德州学院数学与大数据学院，山东德州 253023)

在提出分布式数据的学习分类器问题之前，先介绍几个关键定义。

定义2 令ci∈C是xi的分类标签。分布式数据集D={(x1,c1),…,(xn,cn)}是多组标签的分布式事例。表1给出了由三个对象组成的一个分布式数据集。

表1 三个患者的分布数据集

定义3 (分布式分类器)：
每个分类器h接受一个分布式事例x为输入，然后输出一个预测分类标签h(x)∈C。

定义4 (分布式分类器学习问题)：
给定分类器的一个分布式数据集D，分类器的假设H类，以及一个性能判据f，一个分布式分类器学习算法L输出能使f最优化的一个分布式分类器h∈H。

分析DIL问题的三种基础方法：将分布式数据编码成属性值(即传统的监督机器学习算法能应付的事例)的元组的聚合依赖型算法；
基于分布式数据生成模型的方法；
基于分布式数据生成模型的辨别方法。

2.1 聚合

通过聚合函数如连续Δ的最小函数、最大函数、平均值和离散Δ的模式，用单个值来表示一个事例DI表达式里的每个单元组特征。将数据集缩减成一个传统的属性值数据集，其中每个事例代表一组有限的属性，每个属性的单一值取自对应属性的可能值集合。将分布式数据学习问题简化成标准监督学习问题。

(3)分类条件向量距离之间的差异(DCCVD)：计算每两个分类条件向量距离之间的成对差异，得到M|C|(|C|-1)/2大小的一个向量。

将上述过程应用到数据集D的每个分布式事例，可以有效地将学习分布式分类器的问题简化成在传统条件下研究过的分类器的监督式学习问题，其中每个待分类对象用一组属性值来表示。

2.2 生成模型

分析联合分布p(B1,…,BK,c)。在朴素贝叶斯假设条件下,如果给定分类标签c，多组特征都是条件独立的，那么最有可能的分类标签是：

(1)

分析p(Bk|c)的几种模型，包括基于伯努利或多项式事件的模型、狄利克雷分布模型、狄利克雷多项式(Polya)分布模型。将它们分别表示为：NB(Ber)，NB(Mul)，NB(Dir)和NB(Pol)。令bkt∈{1,0}表示属性组Bk里dkt∈Δk的存在或缺失。同样，令vkt表示dkt的出现次数。一个分类条件组的概率p(Bk|c)可以用式(2)或式(3)来进行建模。

(2)

(3)

狄利克雷分布模型(4)可以将Bk看成是分布模型的一个样本，反过来它又可由其他分布模型推断出来。

(4)

其中，αck=(αck1,…,αcksk)是ci∈C狄利克雷分布模型的一个向量参数；
Vk=(vk1,…,vksk)是Bk与vkt数组值的归一化向量。最后，得到由狄利克雷分布和多项式分布组成的狄利克雷多项式分布模型(5)。

(5)

对于上述四种模型，它们的参数是由各个分类和各个属性的值组成的一组参数，可应用拉普拉斯修正方法求最大似然率来得到。

2.3 辨别模型

应用生成模型转化成辨别模型的标准方法来分析前面提到的生成模型的辨别模型。在以下方程式中代入四种不同的分布可以得到辨别模型。

p(c=1|x)

(6)

后验分布存在等价的参数形式p(c|x;w)。通过估算得到参数w的一个向量：

(7)

设λ>0，采用2-正则化方法将过度拟合数据缩减成训练数据。给定估计参数w*，分布式数据事例的预测表示为伯努利和多项式分布的辨别模型分别将后验分布定义如下：

(8)

(9)

其中，(8)和(9)是逻辑回归模型(LR)。利用逻辑回归专用的优化工具可以得到这两种模型的参数。对于狄利克雷和Polya分布，可将公式(2)和(3)分别替换公式(4)里的p(B|c)来计算p(c|x;α)。设w=ln(α)，降低限制条件α>0，并应用无限制梯度递增方法。

通过设计实验，可以得到以下问题：

(1)三类DIL方法中的每一种有代表性的DIL算法之间如何互相比较(实验1)；

(2)以分布式事例形式表现的信息的分类器如何与将DIL简化为传统监督型学习的同类方法进行比较(实验2)，本文采用两组真实数据集以及合成数据集来解答上述问题。

3.1 实验1

由于公共的分布式数据有限，本文采用可以建模为分布式数据的可用数据集。

第一组数据集即Last.fm数据集，来源于社交音乐网Last.fm[11]。如图1所示，选择两个不相交的组，它们包含大约相等数量的用户(2098/2081)。收集各用户偏爱的乐曲、艺术家、乐曲标签和艺术家标签当作单元组。应用Apache Lucene对收集的所有标签进行停用词消除和音符去尾处理。本文只利用出现次数在45-100的乐曲和艺术家。结果是含有8340个乐曲的一组分布式数据集可以是3753中的一个或多个艺术家之作。同样，将出现分别少于350和120次的乐曲标签和艺术家标签清除掉。

图1 Last.fm的数据集与实体之间的联系

第二组数据集选自Splog(垃圾博客)数据集，包含HTML格式的700篇真实博客和700篇垃圾博客。对于每篇博客，摘取四个属性：正文、锚文字(带超级链接的文字)、URLs以及HTML标签。然后，去掉每个属性里不常出现的元素，去掉数值有遗漏的事例。两组数据集统计如表2所示。

表2 两组数据集统计

比较提到的三类DIL，聚合模型主要有：(1)模式聚合与简单的朴素贝叶斯分类器组合(MODE+NB)；
(2) CCVD与高斯朴素贝叶斯组合(CCVD+NB); (3) CCVD与逻辑回归组合(CCVD+LR)。其中只选CCVD与逻辑回归组合模型，因为文献[10]提到它能得到更准确的分类器。对于一个2-正则化的辨别模型，设未优化前公式(7)里的λ=1，利用10层交叉验证评估两组数据集并得到它们的ROC(受试者工作特征)曲线和AUC(曲线下面积)。

基于聚合的上述三种模型中，CCVD+LR在准确性和AUC方面都优于其他模型。在生成模型方面，NB(Pol)在准确性和AUC方面都优于其他模型，而NB(Dir)在Last.fm数据集方面也具有竞争力。对于辨别模型，DM2(Pol)、DM2(Dir)和DM2(Ber)在Last.fm数据集方面表现不相上下；
而对于Splog，DM2(Pol)表现优越。DM2-正则化辨别模型普遍优于其他非正则化模型(但DM2(Mul)对Splog的准确性最高)。事实上，非正则化的模型只是超参数λ=0时正则化模型的特殊方面；
原则上，正则化模型的结果通过对超参数进行优化后还会进一步改善。如表3所示。

表3 10层交叉验证评估两组数据集

3.2 实验2

第2个实验的目的是比较利用分布式事例表示信息的分类器与未充分利用此类信息的分类器。我们生成一个具有二进制类(C={+, -}) 以及组合两个Polya分布的样本的单属性(K=1)。我们观察到，所有的朴素贝叶斯模型在所有三组中表现相似。特别是，NB(Dir)、NB(Pol)和NB(Ber)的准确度随着z的增加而增加，而NB(Mul)无法区分这两类，图2显示了该实验的结果。

图2 六个分类器在不同数据集上的准确性

Mode+NB和CCVD+LR的行为在三组实验中有所不同。在Mode+NB的情况下，第2组失败，因为第2组两个值中的一个最有可能被选为独立于实例标签的实例的模式；
第3组失败是因为所有值都同样可能是模式。在CCVD+LR的情况下，在所有三个组中，两个类的预期类条件参考向量相同。第1组和第3组保证正实例和负实例的预期距离相同。

许多大的数据应用都产生了分布数据，其中的对象或个体很自然地被代表着特征值单位组的K元组，而每个单位组的特征值取样又源于特征和对象特定的分布数据中。本文研究了分布式事例学习问题，即分布式数据的学习分类器问题。文章分析了学习分类器的三类方法，在比较了不同算法对真实数据及合成分布式数据集的表现情况后，得出利用以分布式事例形式表现的信息的分类器优于那些未充分利用此类信息的方法。

猜你喜欢正则分类器分布式少样本条件下基于K-最近邻及多分类器协同的样本扩增分类现代电子技术(2022年15期)2022-07-28学贯中西（6）:阐述ML分类器的工作流程电子产品世界(2022年4期)2022-04-21居民分布式储能系统对电网削峰填谷效果分析科学与财富(2021年35期)2021-05-10基于朴素Bayes组合的简易集成分类器①计算机系统应用(2021年2期)2021-02-23基于Paxos的分布式一致性算法的实现与优化华东师范大学学报（自然科学版）(2019年5期)2019-11-11任意半环上正则元的广义逆上海师范大学学报·自然科学版(2018年3期)2018-05-14sl（n+1）的次正则幂零表示的同态空间华东师范大学学报（自然科学版）(2018年3期)2018-05-14绿色建筑结构设计指南神州·上旬刊(2017年9期)2017-10-15基于AdaBoost算法的在线连续极限学习机集成算法软件导刊(2017年4期)2017-06-20基于正则化的高斯粒子滤波算法计算技术与自动化(2014年1期)2014-12-12

推荐访问:分布式数据研究