什么是粗糙集?粗糙集理论简介。

粗糙集理论,是继概率论、模糊集、证据理论之后的有一个处理不确定性的数学工具。于1982年 波兰理工大学Z.pawlak教授提出用来研究不完整数据,不精确知识表达、学习、归纳等的一套理论。

其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。

从数学的角度看,粗糙集是研究集合的;从编程的角度看,粗糙集的研究对象是矩阵,只不过是一些特殊的矩阵;从人工智能的角度来看,粗糙集研究的是决策表。

基本概念:

论域:也就是数学里面的集合,我们感兴趣的对象组成的集合。(非空)

知识:论域的任何一个子集(包括空集)称为知识,是对论域进行分类的能力。一般由特征属性进行分类。

知识库:是论域中的一个个知识族组成、

不可分辨关系:如果在只是表达中,由于缺乏一定的知识,不能将已知信息系统中的某些对象区分开,那么这些对象之间就是不可分辨关系(等价关系)

比如,若在动物中,以黑白为知识区分,那么黑色的狗和黑色的猫就是不可分辨关系,也就是等价关系。

基本集:论语中互相不可分表的对象组成的集合。

精确集和粗糙集:在某一个知识下,如果论域可以由知识中的一个或者多个子集组合而成,那么就成为精确集,否则就成为粗糙集。

上近似和下近似:上近似是指包含 给定集合 X 元素的 最小可定义集。下近似则是包含于X的最大可定义集。

正域、负域与边界域:接上一条,论域被上下近似划分为三个不相交的区域

知识粒度:论域的划分构成粗糙集的一个近似空间,划分中的每一个分开成为一个知识粒度。在粗糙集中,等价类的力度越细,其划分能力就越强,近似集越精确。否则划分能力就弱,近似集越粗糙。

属性重要度:这个始于分类质量相关的,可以参考底部介绍。

举例

如上图,为一个决策系统,其中 e 的 1-6 就为非空有限对象集,成为论域。用集合表示为:

各列中,头疼、肌肉疼、体温 均为条件属性,流感为决策属性,这些属性所区分出来的子集便是知识。当然也同样可以用集合来表示,比如:

而我们的目的便是挖掘,对决策属性影响大的条件属性。

在这里,我们继续设,在体温这个条件属性下的知识为:

如果 :

那么

此时,X可以由 X1-3 中的若干个组成,此时 X 就为 体温的精确集。同样,如果

则 X 不能由三个知识点的任何一个或者若干组成,那么此时就是粗糙集。

仍以体温为例

这是,在体温这个属性下有

可以看出,这个属性被划分成了三类,很高、高、正常。

若给定的集合是 X

则,显然 X 是 C 的粗糙集,因为 X 不能被 X1-3 中的任何一个或多个组成。且有如下情况:

此时,也就是

于是有,X1 ,X2 为上近似(是将那些包含X的知识库中的集合求并得到的,即那些与X有交的等价关系的并集),X3为下近似(那些所有的包含于X 的知识库中的集合中求并得到的,即所有那些被包含在X里面的等价关系的并集)。

那么论域可由上下近似划分为三个不相交的区域:

也就是说,正域为下近似,负域为 U – 上近似,边界域为 上近似-下近似,效果图如下:

把论域转换为如下形式

同样,在条件属性 C 下

则,C 的知识粒度为:

值越大,表示 D 相对于 C 对论域U 的分类能力越强。

条件属性集合 C 关于决策属性集合 D 的近似分类质量为

假设,B 是属性集合 C 的子集。那么 子集B 关于D 的重要度为。

条件概率:

其中, [X]A 中 A 是指属性集 ,包含x 的等价类。

粗糙集方法具有以下特点:

(1) 它能处理各种数据,包括不完整(incomplete) 的数据以及拥有众多变量的数据;
(2) 它能处理数据的不精确性和模棱两可(ambiguity),包括确定性和非确定性的情况;
(3) 它能求得知识的最小表达(reduct) 和知识的各种不同颗粒(granularity) 层次;
(4) 它能从数据中揭示出概念简单,易于操作的模式(pattern) ;
(5) 它能产生精确而又易于检查和证实的规则,特别适于智能控制中规则的自动生成

参考资料:
1、https://www.jianshu.com/p/a129b7a6be9e

2、论文:基于属性重要度的风险决策粗糙集属性约简

赞 (2)