为什么我们需要数据预处理?
原标题:为什么我们需要数据预处理?
作者 | 邱雅婷
责编| 郭芮
数据挖掘的核心是什么?这个的答案是算法应该没什么疑问。那数据挖掘的基石又是什么呢?那就是今天我们要来说的数据预处理。
什么是数据预处理?
数据科学家们一直想为数据预处理赋予一个定义。其实简单地说,数据预处理就是一种数据挖掘技术,本质就是为了将原始数据转换为可以理解的格式或者符合我们挖掘的格式。
为什么需要数据预处理?
在真实世界中,数据通常是不完整的(缺少某些感兴趣的属性值)、不一致的(包含代码或者名称的差异)、极易受到噪声(错误或异常值)的侵扰的。因为数据库太大,而且数据集经常来自多个异种数据源,低质量的数据将导致低质量的挖掘结果。就像一个大厨现在要做美味的蒸鱼,如果不将鱼进行去鳞等处理,一定做不成我们口中美味的鱼。
数据预处理就是解决上面所提到的数据问题的可靠方法。
那它是怎么做到的呢?
就像大厨准备处理鱼的刀具一样,数据预处理也是如此。它准备原始数据以便进一步处理。下面是数据预处理要采取的步骤,如图:
数据清洗: 填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来“清理数据”; 数据集成:使用多个数据库,数据立方体或文件; 数据归约: 用替代的,较小的数据表示形式替换元数据,得到信息内容的损失最小化,方法包括维规约,数量规约和数据压缩; 数据变换:将数据变换成使用挖掘的形式。下面这张图很形象得把这四个步骤的作用表现出来,挺有意思的。
数据预处理任务
应用
是时候采取一些简单的实际应用来了解数据预处理是如何完成的。
下面的例子我们用 Python 来处理,还需要用到两个库,分别是 Numpy、Pandas。
准备数据
在这里,我们有一个数据集,其中包括IT专业人员的信息,比如国家、工资、性别,如下:
我们可以随意创建此数据集的副本。
我们可以观察到上面的数据集包含一些空值,这是故意的。后面很快可以看到它发挥的作用
导入库
简单说下 Numpy、Pandas 这两个库的作用:Numpy 库包含数学工具,它可以用于在我们代码中的任何类型的数学;Pandas 库用于导入和管理数据集。
下面是我们导入库的方法:
importpandas aspd
importnumpy asnp
导入数据集
我们已经导入库了,接下来我们需要获取数据集。在我本地里,我将我的数据集文件命名为‘profess',它的格式为.csv。
#读取数据(我的数据集文件跟我的python文件在同一目录下)
data= pd.read_csv( "profess.csv")
导入数据集后,我们输出看下它的格式如何:
print(data)
Good!我们成功得将数据集导入测试环境中。
数据清洗——查看缺失值
为了成功管理数据,缺失值的概念很重要。如果工程师没有正确处理缺失值,可能最后得出关于数据的推断是不准确的。我们再来仔细看下我们的数据的缺失值情况,用 Pandas 库的 isnull 函数来看看。
print( data.isnull() .sum())
我们可以发现 Age,Salary 列都有缺失值(就是为空的值),缺失值数量都为1。处理缺失值有7种处理方法,我们这里说说比较常用的两种。
1、此方法经常用于处理空值,如果某行有特定特征d的空值,就删除此行。如果特定列具有超过75%的缺失值,就删除特定列。不过我们要在确保样本数据足够多的情况下,采用这个方法。因为我们要确保删除数据后,不会增加偏差。
data.dropna(inplace= True)
print(data.isnull().sum())
2、这个方法适用于具有年份或者年龄,金额等数字数据的功能。我们可以计算特征的均值,中值或众数,将其替换为缺失值。与第一种方法相比,这种可以抵消数据的缺失,产生更好的效果。
我们用来看一下操作:
# 将 Age 列中为空的值替换为 Age 的中位数。
# medain()是 pandas 库的求中位数的方法
data[ Age] = data[ Age]
.replace(np.NaN, data[ Age]
.median())
print( data[ Age])
我们成功替换掉了。
数据归约
为了满足挖掘需求,我们需要知道这些工程师们的薪水分布区间,但是我们只有‘Salary' 薪水这一列,所以为了方便挖掘,我们给我们的数据集增加‘薪水等级' level 这一列,通过 Salary 列进行区间归约,这种方法叫做“属性构造”。我们看看操作:
#数据归约
defsection(d):
if50000> d:
return"50000以下"
if100000> d >= 5000:
return"50000-100000"
ifd > 100000:
return"100000以上"
data[ level] = data[ Salary]
.apply( lambdax: section(x))
print(data[ level])
我们定义一个‘数据变换'的函数给,根据 Salary 判断选择区间进行变换并赋值给 level。
数据变换
我们可以看到 Salary 列也有空值,从业务上理解它应该是数字数值才是。但是我们发现我们的数据集中是货币格式,我们需要对它进行‘数据变换',转换成我们所需的数字格式。来看下实际操作:
#数据变换
def convert_currency(d):
new_value = str(d).replace( ",", "")
.replace( "$", "")
returnfloat(new_value)
data[ Salary] = data[ Salary].apply(convert_currency)
# mean()是 pandas 库的求平均值的方法
data[ Salary] = data[ Salary]
.replace(np.NaN, data[ Salary]
.mean())
print( data[ Salary])
变换成功:
我们定义一个“数据变换”的函数,然后将它应用再 Salary 列上,最后同数据清洗那一步同样的替换操作,我们这里用平均值替换。
写在最后
至此我们算走完数据预处理的一个基本流程。
这是比较基础的一个小应用,但是相信我们以后处理数据的时候能有一个基本清晰的解决思路,以及如何选择处理方法以及为什么选择有所了解。
相关文章
- 台湾3名男子拼命自残 共诈保800多万台币遭判刑
- 小伙买大乐透中千万大奖表示:要上班冷静一下
- 女孩朋友圈向300人各借千元,一夜凑够!而还款过程更让人感动
- 兰州警方破获特大运毒案,缴获毒品海洛因15公斤
- 以微信好友数算成绩,网友吐槽:微商学院?
- 好好学球,也能安心读书 中国羽协青少年注册新政接地气
- 没有C罗的皇马,齐达内回归复原了心脏 佛爷却称还想要他!
- 372斤小伙决定做切胃手术减肥 医生陪他逛街、玩游戏、吃饭
- 名字带电的股票全涨停?这波行情让文科生看蒙
- 迪士尼以713亿美元收购福克斯 X战警等IP将归漫威
- 郭京飞求生欲上线!姚晨儿子小土豆看苏明玉被打落泪要找叔叔报仇 郭京飞马上发微博“认怂”求原谅
- 奥运冠军何姿购房纠纷 二审维持原判卖方退赔230万
- 鲁能亚冠激战鹿岛 佩莱破门与队友庆祝
- 欧文高效两双难阻绿军惨败 高难后仰引全场惊叹
- WTA球后之争再成“二人转” 哈勒普能否掀翻大坂?
- 哈登狂浪末节醒一次就够 关键6分神来之笔定胜负
- 威少赛后揭露与球迷冲突始末 因后者涉嫌种族言论
- 耐克发布中国女足世界杯球衣 拥有一个绚丽多彩的凤凰图案
- 韩星胜利卷入丑闻取消来港计划 容祖儿:希望他没事
- 员工聚餐后遇车祸身亡被认定工伤 公司:他没打卡
网友评论
推广链接
最新文章快读
文章随机推荐
- 鄞州奥迪车因乱停车挡道被贴满卫生巾现场照片曝光
- 罗志祥抢欧弟女友事件真相揭秘 欧弟当时女朋友是谁?川岛末树代个人资料照片
- 济南公交女色狼资料遭人肉 对男乘客又摸又抱
- 北京遇上西雅图2最新票房统计及精彩豆瓣影评汇总
- 千金女贼什么时候播出 千金女贼播出时间在哪个台播一周更新几集
- 双联屏内饰/明年3月上市 长安全新CS15亮相
- 长沙撞死人跑车车主疑似女主播尚玥 事故现场惨不忍睹
- 第二期中国好声音学员大扒皮:刘雅婷文静背后,姚贝娜真实身份。。。
- 周文斌严重违纪事件最新消息
- 2014宅男女神熊熊是谁? 童颜G乳全裸艳照揭秘卓毓彤个人资料比基尼照胸围床照早期照片微博
- 泉港6.97吨碳九泄漏 渔民掉入污染海域住进ICU
- 神秘嘉宾惊喜造访《美味猎手》领队田亮荒岛尬舞
- 坏家伙们第4集收视率破纪录 坏家伙们第4集剧情激烈收视率飙升
- 千金女贼什么时候上映在哪个台上映 千金女贼预告片视频剧照及角色介绍
- 章子怡产女 汪峰离婚2次曾育有俩女儿,汪峰离婚为了章子怡