数据挖掘之数据预处理小结

数据预处理的主要步骤:数据清理,数据集成、数据规约和数据变换。目的主要是将缺失的数据补充完整,消除噪声数据,识别和删除离群点并解决不一致性。做到将数据格式标准化、异常数据清除、错误纠正、重复数据清除。

1)异常数据处理:

异常数据分析:
(1)使用统计值进行判断,最大值、最小值、平均值等判断是否超出范围。
(2) 使用3原则,异常值和平均值比超出三倍标准差及小概率事件,可看做异常值.
(3)箱线图,数值超过了箱线图的上下边界即为异常值。
异常数据处理方式:
(1)删除异常数据
(2)视为缺失值,用缺失值处理方式进行处理
(3)平均值处理方法,前后观测值的平均值替代,或者整体数据的平均值。
(4)不进行处理,按正常数据

2)缺失值处理:

很多原因都会造成数据的缺失,现实世界的数据一般是不完整的、有噪声的和不一致的。主要原因有:
(1)保存不当缺失
(2)采集不当缺失
(3)不确定原因无法获取导致缺失
数据的缺失对数据挖掘有一定影响,因此我们需要进行对缺失值进行处理,处理缺失值主要方法:
(1)忽略元组
(2)人工填写缺失值
(3)使用一个全局常量填充缺失值(例如用unknown替换,该方法会让挖掘程序误认为他们形成了一个有趣的概念,因为他们都具有一个相同的常量unknown,因此该方法并不十分可靠)
(4)去掉缺失数据属性
(5)使用与给定元组属同一类的所有样本的属性均值或中位数代替
(6)默认值代替 预测值代替 插补法代替
插补法代替细分为:
(1)最近邻补插,附近值代替,前后值均值代替
(2)回归拟合代替

3)噪声数据处理:

噪声是被测量的变量的随机误差和方差,处理噪声的方法:
(1)分箱
(2)回归
(3)离群点分析
分箱法:按照一定的规律将数据放进一些箱子中,考察每个箱子中的数据,采用合适的方法处理箱子中的数据,分箱方法:
(1)权重分箱法(每个箱子里的数据量相同)
(2)统一区间法,根据属性区间平均分,相纸宽度是一个常量
(3)自定义区间法
分箱后对数据进行平滑处理的方法:
(1)平均值平滑
(2)边界值平滑
(3)中值平滑

离群点分析:可以通过如聚类来进行检测离群点,聚类将类似的值组织成群或“簇”,直观的,落在簇集合之外的值视为离群点,即为噪声数据

回归法:线性回归或者非线性回归来光滑数据 线性回归涉及找出拟合两个属性(或变量)的最佳直线,使得一个属性可以用来预测另外一个。多元线性回归是线性回归的扩充,涉及属性多于两个,并且数据拟合到一个多维曲面。

相关推荐
本书对数据挖掘的基本算法进行了系统介绍,每种算法不仅介绍了算法的基本原理,而且配有大量例题以及源代码,并对源代码进行了分析,这种理论和实践相结合的方式有助于读者较好地理解和掌握抽象的数据挖掘算法。 全书共分11章,内容同时涵盖了数据预处理、关联规则挖掘算法、分类算法和聚类算法,具体章节包括绪论、数据预处理、关联规则挖掘、决策树分类算法、贝叶斯分类算法、人工神经网络算法、支持向量机、Kmeans聚类算法、K中心点聚类算法、神经网络聚类算法以及数据挖掘的发展等内容。 本书可作为高等院校数据挖掘课程的教材,也可以作为从事数据挖掘工作以及其他相关工程技术工作人员的参考书。 第1章绪论 1 1.1数据挖掘的概念 1 1.2数据挖掘的历史及发展 1 1.3数据挖掘的研究内容及功能 5 1.3.1数据挖掘的研究内容 5 1.3.2数据挖掘的功能 6 1.4数据挖掘的常用技术及工具 9 1.4.1数据挖掘的常用技术 9 1.4.2数据挖掘的工具 12 1.5数据挖掘的应用热点 12 1.6小结 14 思考题 15 第2章数据预处理 16 2.1数据预处理的目的 16 2.2数据清理 18 2.2.1填充缺失值 18 2.2.2光滑噪声数据 18 2.2.3数据清理过程 19 2.3数据集成和数据变换 20 2.3.1数据集成 20 2.3.2数据变换 21 2.4数据归约 23 2.4.1数据立方体聚集 23 2.4.2维归约 23 2.4.3数据压缩 24 2.4.4数值归约 25 2.4.5数据离散化与概念分层 28 2.5特征选择与提取 302.5.1特征选择 30 2.5.2特征提取 31 2.6小结 33 思考题 33 第3章关联规则挖掘 35 3.1基本概念 35 3.2关联规则挖掘算法——Apriori算法原理 36 3.3Apriori算法实例分析 38 3.4Apriori算法源程序分析 41 3.5Apriori算法的特点及应用 50 3.5.1Apriori算法特点 50 3.5.2Apriori 算法应用 51 3.6小结 52 思考题 52 第4章决策树分类算法 54 4.1基本概念 54 4.1.1决策树分类算法概述 54 4.1.2决策树基本算法概述 54 4.2决策树分类算法——ID3算法原理 56 4.2.1ID3算法原理 56 4.2.2熵和信息增益 57 4.2.3ID3算法 59 4.3ID3算法实例分析 60 4.4ID3算法源程序分析 64 4.5ID3算法的特点及应用 72 4.5.1ID3算法特点 72 4.5.2ID3算法应用 72 4.6决策树分类算法——C4.5算法原理 73 4.6.1C4.5算法 73 4.6.2C4.5算法的伪代码 75 4.7C4.5算法实例分析 76 4.8C4.5算法源程序分析 77 4.9C4.5算法的特点及应用 101 4.9.1C4.5算法特点 101 4.9.2C4.5算法应用 101 4.10小结 102 思考题 102 第5章贝叶斯分类算法 103 5.1基本概念 103 5.1.1主观概率 103 5.1.2贝叶斯定理 104 5.2贝叶斯分类算法原理 105 5.2.1朴素贝叶斯分类模型 105 5.2.2贝叶斯信念网络 107 5.3贝叶斯算法实例分析 110 5.3.1朴素贝叶斯分类器 110 5.3.2BBN 112 5.4贝叶斯算法源程序分析 114 5.5贝叶斯算法特点及应用 119 5.5.1朴素贝叶斯分类算法 119 5.5.2贝叶斯信念网 120 思考题 121 第6章人工神经网络算法 122 6.1基本概念 122 6.1.1生物神经元模型 122 6.1.2人工神经元模型 123 6.1.3主要的神经网络模型 124 6.2BP算法原理 126 6.2.1Delta学习规则的基本原理 126 6.2.2BP网络的结构 126 6.2.3BP网络的算法描述 127 6.2.4标准BP网络的工作过程 129 6.3BP算法实例分析 130 6.4BP算法源程序分析 134 6.5BP算法的特点及应用 143 6.5.1BP算法特点 143 6.5.2BP算法应用 144 6.6小结 145 思考题 145 第7章支持向量机 146
©️2020 CSDN 皮肤主题: Age of Ai 设计师:meimeiellie 返回首页