列表格式显示

热搜词:winrar    ftp   office   photoshop   输入法   ghost   win7  

09编程开发 - 分类

广告招商中......
联系方式!

数据库类 - 时间排序 更多...
    数据库类 - 点击排序 更多...
      数据库类 - 大小排序 更多...
        作者

         

        最近发布的软件 更多>>

        首页 >> 09编程开发>> 数据库类>>weka软件(数据挖掘) 发布者:admin >> 本人发布的更多软件

        广告招商中...... 联系方式!

        weka软件(数据挖掘) 

             
        软件厂家: 官方网站:
        大小: 语言:
        类型: 类别:
        更新时间: 运行环境:
        ;开始下载地址

        weka 是一款功能强大的数据挖掘软件,这款软件具有、分类、回归、聚类、关联分析、数据预处理、评估等特色功能,是数据挖掘分析的必备工具,需要的朋友欢迎来绿色资源网免费下载使用。

        weka官方介绍

        weka的全名是怀卡托智能分析环境(waikato environment for knowledge analysis),是一款免费的,非商业化(与之对应的是spss公司商业数据挖掘产品--clementine )的,基于java环境下开源的机器学习(machine learning)以及数据挖掘(data mining)软件。它和它的源代码可在其官方网站下载。有趣的是,该软件的缩写weka也是new zealand独有的一种鸟名,而weka的主要开发者同时恰好来自new zealand的the university of waikato。

        weka下载

        weka软件功能介绍

        原理与实现

        聚类分析中的“类”(cluster)和前面分类的“类”(class)是不同的,对cluster更加准确的翻译应该是“簇”。聚类的任务是把 所有的实例分配到若干的簇,使得同一个簇的实例聚集在一个簇中心的周围,它们之间距离的比较近;而不同簇实例之间的距离比较远。对于由数值型属性刻画的实 例来说,这个距离通常指欧氏距离。

        模型应用

        现在我们要用生成的模型对那些待预测的数据集进行预测了。注意待预测数据集和训练用数据集各个属性的设置必须是一致的。即使你没有待预测数据集的class属性的值,你也要添加这个属性,可以将该属性在各实例上的值均设成缺失值。

        在“test opion”中选择“supplied test set”,并且“set”成你要应用模型的数据集,这里是“bank-new.arff”文件。

        现在,右键点击“result list”中刚产生的那一项,选择“re-evaluate model on current test set”。右边显示结果的区域中会增加一些内容,告诉你该模型应用在这个数据集上表现将如何。如果你的class属性都是些缺失值,那这些内容是无意义 的,我们关注的是模型在新数据集上的预测值。

        现在点击右键菜单中的“visualize classifier errors”,将弹出一个新窗口显示一些有关预测误差的散点图。点击这个新窗口中的“save”按钮,保存一个arff文件。打开这个文件可以看到在倒 数第二个位置多了一个属性(predictedpep),这个属性上的值就是模型对每个实例的预测值。

        建模结果

        ok,选上“cross-validation”并在“folds”框填上“10”。点“start”按钮开始让算法生成决策树模型。很快,用文 本表示的一棵决策树,以及对这个决策树的误差分析等等结果出现在右边的“classifier output”中。同时左下的“results list”出现了一个项目显示刚才的时间和算法名称。如果换一个模型或者换个参数,重新“start”一次,则“results list”又会多出一项。

        weka关联规则又称购物栏分析

        目前,weka的关联规则分析功能仅能用来作示范,不适合用来挖掘大型数据集。

        我们打算对前面的“bank-data”数据作关联规则的分析。用“explorer”打开“bank-data-final.arff”后,切 换到“associate”选项卡。默认关联规则分析是用apriori算法,我们就用这个算法,但是点“choose”右边的文本框修改默认的参数,弹 出的窗口中点“more”可以看到各参数的说明。

        背景知识

        首先我们来温习一下apriori的有关知识。对于一条关联规则l->r,我们常用支持度(support)和置信度(confidence)来衡量它的重要性。规则的支持度是用来估计在一个购物栏中同时观察到l和r的概率p(l,r),而规则的置信度是估计购物栏中出现了l时也出会现r的条件概率p(r|l)。关联规则的目标一般是产生支持度和置信度都较高的规则。

        有几个类似的度量代替置信度来衡量规则的关联程度,它们分别是

        lift: p(l,r)/(p(l)p(r))

        lift=1时表示l和r独立。这个数越大,越表明l和r存在在一个购物栏中不是偶然现象。

        leverage:p(l,r)-p(l)p(r)

        它和lift的含义差不多。leverage=0时l和r独立,leverage越大l和r的关系越密切。

        conviction(更不知道译了):p(l)p(!r)/p(l,!r) (!r表示r没有发生)

        conviction也是用来衡量l和r的独立性。从它和lift的关系(对r取反,代入lift公式后求倒数)可以看出,我们也希望这个值越大越好。

        值得注意的是,用lift和leverage作标准时,l和r是对称的,confidence和conviction则不然。

        参数设置

        现在我们计划挖掘出支持度在10%到100%之间,并且lift值超过1.5且lift值排在前100位的那些关联规则。我们把 “lowerboundminsupport”和“upperboundminsupport”分别设为0.1和1,“metrictype”设为 lift,“minmetric”设为1.5,“numrules”设为100。其他选项保持默认即可。“ok” 之后在“explorer”中点击“start”开始运行算法,在右边窗口显示数据集摘要和挖掘结果。

        下面是挖掘出来的lift排前5的规则。

        best rules found:

        1. age=52_max save_act=yes current_act=yes 113 ==> income=43759_max 61 conf:(0.54) < lift:(4.05)> lev:(0.08) [45] conv:(1.85)

        2. income=43759_max 80 ==> age=52_max save_act=yes current_act=yes 61 conf:(0.76) < lift:(4.05)> lev:(0.08) [45] conv:(3.25)

        3. income=43759_max current_act=yes 63 ==> age=52_max save_act=yes 61 conf:(0.97) < lift:(3.85)> lev:(0.08) [45] conv:(15.72)

        4. age=52_max save_act=yes 151 ==> income=43759_max current_act=yes 61 conf:(0.4) < lift:(3.85)> lev:(0.08) [45] conv:(1.49)

        5. age=52_max save_act=yes 151 ==> income=43759_max 76 conf:(0.5) < lift:(3.77)> lev:(0.09) [55] conv:(1.72)

        对于挖掘出的每条规则,weka列出了它们关联程度的四项指标。

        命令行方式

        我们也可以利用命令行来完成挖掘任务,在“simlpe cli”模块中输入如下格式的命令:

        java weka.associations.apriori option

        s -t directory-path"bank-data-final.arff

        即可完成apriori算法。注意,“-t”参数后的文件路径中不能含有空格。

        在前面我们使用的option为

        -n 100 -t 1 -c 1.5 -d 0.05 -u 1.0 -m 0.1 -s -1.0 命令行中使用这些参数得到的结果和前面利用gui得到的一样。

        我们还可以加上“- i”参数,得到不同项数的频繁项集。我用的命令如下:

        java weka.associations.apriori -n 100 -t 1 -c 1.5 -d 0.05 -u 1.0 -m 0.1 -s -1.0 -i -t d:"weka"bank-data-final.arff

        挖掘结果在上方显示,应是这个文件 的样子。


        本页Html网址:/htmlsoft/58610.html

        本页aspx网址:/soft.aspx?id=58610&bianhao=20240101_021536_669515&kind1=09编程开发&kind2=数据库类

        上一篇:weka汉化版(数据挖掘)

        下一篇:Kettle Spoon(数据库管理工具)

        增加   


        相关评论        新窗口打开查看评论