您的位置:首页 > 股票知识 > 股价基本分析 > 数据挖掘 十大算法_数据挖掘算法之关联规则数学定义

数据挖掘 十大算法_数据挖掘算法之关联规则数学定义

时间:2013-09-07   来源:股价基本分析   点击:

数学定义

关联规则定义为:假设I是项的集合。给定一个交易数据库,其中每个事务t是I的非空子集,即,每一个交易都与一个唯一的标识符TID对应。记D为事务的集合(事务数据库),关联规则在D中的支持度是D中事务同时包含项X和项Y的百分比,即概率。置信度是包含X的事务中同时又包含Y的百分比,即条件概率。关联规则是有效的,如果满足最小支持度阈值和最小置信度阈值,这些阈值是根据挖掘需要人为设定的。

数据挖掘算法之关联规则数学定义

下面是有关关联规则数学上的形式化定义:

设I={il,i2,...,im}是项的集合。记D为事务的集合(事务数据库),事务T是项的集合,并且T⊆I。设A是I中一个项集,如果A⊆T,那么称事务T包含A。

定义1:关联规则是形如A→B的蕴涵式,这里A⊂T, B⊂I,并且A∩B=Φ。

定义2:规则的支持度。规则A→B在数据库D中具有支持度S,表示S是D中事务同时包含AB的百分比,它是概率P(AB),即:

1

其中,|D|表示事务数据库D的个数,表示A、B两个项集同时发生的事务个数。

定义3:规则的可信度。

规则A→B具有可信度C,表示C是包含A项集的同时也包含B项集,相对于包含A项集的百分比,这是条件概率P(BIA),即:

1

其中,|A|表示数据库中包含项集A的事务个数。

定义4:阈值。

在事务数据库中找出有用的关联规则,需要由用户确定两个阈值:最小支持度(min_sup)和最小可信度(min_conf)。

定义5:项的集合称为项集,包含k个项的项集称之为k-项集。如果项集满足最小支持度,则称之为频繁项集。

定义6:关联规则。

同时满足最小支持度(min_sup)和最小可信度(min_conf)的规则称之为关联规则。即:

1

成立时,规则称之为关联规则,也可以称为强关联规则。

定义7:兴趣度。

2

公式反映了项集A与项集B的相关程度。

若I(A→B)=1,即P(AB) = P(A)P(B),表示项集A出现和项集B出现是相互独立的。

若I(A→B)<1,表示A出现和B出现是负相关的。

若I(A→B),表示A出现和B出现是正相关的,意味着A的出现蕴含B的出现。

一条规则的兴趣度越大于1,说明我们对这条规则越感兴趣(即其实际利用价值越大)。

一条规则的兴趣度越小于1,说明我们对这条规则的反面规则越感兴趣(即其反面规则的实际利用价值越大)。

根据定义7可知,兴趣度I不小于0。


推荐内容

推荐文章

栏目导航

友情链接

网站首页
早报
原创
名家
新闻
学堂
期货
理财
外汇
炒股软件
股票知识
K线图
平均线
分时图
短线炒股
MACD
涨停板
强势股
热门资讯

copyright 2016-2018 股民股票网保留所有权 京ICP备16025527号 免责声明:网站部分内容转载至网络,如有侵权请告知删除