列表格式显示
热搜词:winrar ftp office photoshop 输入法 ghost win7
广告招商中...... 联系方式!
私信 +好友
1: weka /
2: weka / weka-3-8-0jre-x64.exe
weka 是一款功能强大的数据挖掘软件,这款软件具有、分类、回归、聚类、关联分析、数据预处理、评估等特色功能,是数据挖掘分析的必备工具,需要的朋友欢迎来绿色资源网免费下载使用。
weka的全名是怀卡托智能分析环境(waikato environment for knowledge analysis),是一款免费的,非商业化(与之对应的是spss公司商业数据挖掘产品--clementine )的,基于java环境下开源的机器学习(machine learning)以及数据挖掘(data mining)软件。它和它的源代码可在其官方网站下载。有趣的是,该软件的缩写weka也是new zealand独有的一种鸟名,而weka的主要开发者同时恰好来自new zealand的the university of waikato。
原理与实现
聚类分析中的“类”(cluster)和前面分类的“类”(class)是不同的,对cluster更加准确的翻译应该是“簇”。聚类的任务是把 所有的实例分配到若干的簇,使得同一个簇的实例聚集在一个簇中心的周围,它们之间距离的比较近;而不同簇实例之间的距离比较远。对于由数值型属性刻画的实 例来说,这个距离通常指欧氏距离。
模型应用
现在我们要用生成的模型对那些待预测的数据集进行预测了。注意待预测数据集和训练用数据集各个属性的设置必须是一致的。即使你没有待预测数据集的class属性的值,你也要添加这个属性,可以将该属性在各实例上的值均设成缺失值。
在“test opion”中选择“supplied test set”,并且“set”成你要应用模型的数据集,这里是“bank-new.arff”文件。
现在,右键点击“result list”中刚产生的那一项,选择“re-evaluate model on current test set”。右边显示结果的区域中会增加一些内容,告诉你该模型应用在这个数据集上表现将如何。如果你的class属性都是些缺失值,那这些内容是无意义 的,我们关注的是模型在新数据集上的预测值。
现在点击右键菜单中的“visualize classifier errors”,将弹出一个新窗口显示一些有关预测误差的散点图。点击这个新窗口中的“save”按钮,保存一个arff文件。打开这个文件可以看到在倒 数第二个位置多了一个属性(predictedpep),这个属性上的值就是模型对每个实例的预测值。
建模结果
ok,选上“cross-validation”并在“folds”框填上“10”。点“start”按钮开始让算法生成决策树模型。很快,用文 本表示的一棵决策树,以及对这个决策树的误差分析等等结果出现在右边的“classifier output”中。同时左下的“results list”出现了一个项目显示刚才的时间和算法名称。如果换一个模型或者换个参数,重新“start”一次,则“results list”又会多出一项。
目前,weka的关联规则分析功能仅能用来作示范,不适合用来挖掘大型数据集。
我们打算对前面的“bank-data”数据作关联规则的分析。用“explorer”打开“bank-data-final.arff”后,切 换到“associate”选项卡。默认关联规则分析是用apriori算法,我们就用这个算法,但是点“choose”右边的文本框修改默认的参数,弹 出的窗口中点“more”可以看到各参数的说明。
背景知识
首先我们来温习一下apriori的有关知识。对于一条关联规则l->r,我们常用支持度(support)和置信度(confidence)来衡量它的重要性。规则的支持度是用来估计在一个购物栏中同时观察到l和r的概率p(l,r),而规则的置信度是估计购物栏中出现了l时也出会现r的条件概率p(r|l)。关联规则的目标一般是产生支持度和置信度都较高的规则。
有几个类似的度量代替置信度来衡量规则的关联程度,它们分别是
lift: p(l,r)/(p(l)p(r))
lift=1时表示l和r独立。这个数越大,越表明l和r存在在一个购物栏中不是偶然现象。
leverage:p(l,r)-p(l)p(r)
它和lift的含义差不多。leverage=0时l和r独立,leverage越大l和r的关系越密切。
conviction(更不知道译了):p(l)p(!r)/p(l,!r) (!r表示r没有发生)
conviction也是用来衡量l和r的独立性。从它和lift的关系(对r取反,代入lift公式后求倒数)可以看出,我们也希望这个值越大越好。
值得注意的是,用lift和leverage作标准时,l和r是对称的,confidence和conviction则不然。
参数设置
现在我们计划挖掘出支持度在10%到100%之间,并且lift值超过1.5且lift值排在前100位的那些关联规则。我们把 “lowerboundminsupport”和“upperboundminsupport”分别设为0.1和1,“metrictype”设为 lift,“minmetric”设为1.5,“numrules”设为100。其他选项保持默认即可。“ok” 之后在“explorer”中点击“start”开始运行算法,在右边窗口显示数据集摘要和挖掘结果。
下面是挖掘出来的lift排前5的规则。
best rules found:
1. age=52_max save_act=yes current_act=yes 113 ==> income=43759_max 61 conf:(0.54) < lift:(4.05)> lev:(0.08) [45] conv:(1.85)
2. income=43759_max 80 ==> age=52_max save_act=yes current_act=yes 61 conf:(0.76) < lift:(4.05)> lev:(0.08) [45] conv:(3.25)
3. income=43759_max current_act=yes 63 ==> age=52_max save_act=yes 61 conf:(0.97) < lift:(3.85)> lev:(0.08) [45] conv:(15.72)
4. age=52_max save_act=yes 151 ==> income=43759_max current_act=yes 61 conf:(0.4) < lift:(3.85)> lev:(0.08) [45] conv:(1.49)
5. age=52_max save_act=yes 151 ==> income=43759_max 76 conf:(0.5) < lift:(3.77)> lev:(0.09) [55] conv:(1.72)
对于挖掘出的每条规则,weka列出了它们关联程度的四项指标。
命令行方式
我们也可以利用命令行来完成挖掘任务,在“simlpe cli”模块中输入如下格式的命令:
java weka.associations.apriori option
即可完成apriori算法。注意,“-t”参数后的文件路径中不能含有空格。
在前面我们使用的option为
-n 100 -t 1 -c 1.5 -d 0.05 -u 1.0 -m 0.1 -s -1.0 命令行中使用这些参数得到的结果和前面利用gui得到的一样。
我们还可以加上“- i”参数,得到不同项数的频繁项集。我用的命令如下:
java weka.associations.apriori -n 100 -t 1 -c 1.5 -d 0.05 -u 1.0 -m 0.1 -s -1.0 -i -t d:"weka"bank-data-final.arff
挖掘结果在上方显示,应是这个文件 的样子。
本页Html网址:/htmlsoft/58610.html
本页aspx网址:/soft.aspx?id=58610&bianhao=20240101_021536_669515&kind1=09编程开发&kind2=数据库类
上一篇:weka汉化版(数据挖掘)
下一篇:Kettle Spoon(数据库管理工具)
增加