Excel 如何数据清洗
原文标题:《Excel 里把人“逼疯”的杂乱数据,原来 1 分钟就能整理好!》
大家好!我是最近在研究数据分析的卫星酱。
数据分析中有个很重要的预处理步骤,叫做「数据清洗」。
简单来说就是把数据中「脏脏的 」部分,例如缺失的、重复的、错误的等等,清除掉,留下「干净的」数据。
下面我就通过实例,给大家展示一下数据清洗的具体操作。
1、缺失数据
当数据缺失一两个的时候,最简单的方法就是把它们删除。
这确实是一种正规的数据清洗手段,在表格规模不大且数据缺失较少的情况下,可以采用这种方法。
但是这样可能会删除一些潜在的信息,也可能导致结果产生较大偏差。
因此,当数据很多、空缺较多,删除过多条目会导致较大偏差时,我们需要填补这些空缺。
❶ 空值变 0 值
通过【Ctrl+G】定位要处理的数据,选择【空值】,然后输入 0。
❷ 统计学方法
在很多情况下,我们不能简单粗暴地填充数据。
实际应用中常常使用统计学方法,比如平均值,来填充缺失的数据。
根据数据的实际类型,也可能使用中间值、最大值、最小值或其他更复杂的函数进行填充。
2、重复数据
关于重复数据,我们在之前的「数据核对」篇中已经讲过了,这里就不再赘述。
在基础的 Excel 应用中,我们通常就完成了「数据清洗」的步骤。
数据分析并没有我们想象的那么复杂。
3、错误数据
对于函数错误值,例如#DIV/0!、#N/A!等,我们可以在公式外部使用IFERROR来处理。
而另一类错误数据就比较难处理了。
例如在等级列中只有「A/B/C」三种等级,但有一个单元格出现了「D」。
这种情况下,除了在一开始设置数据验证之外,我们还可以使用查找、计数、条件格式等方法。
我们可以通过【查找】或【筛选】直接定位这些错误数据。
而「感觉上不对」的数据则比较难找到。
我们只能具体情况具体分析,例如使用IF函数筛选出大于36.13的数据。
然后可以按照「缺失数据」的处理方法来处理它们。
4、写在最后
这就是关于数据清洗的一些操作方法。
你们还知道哪些属于数据清洗的 Excel 操作呢?
本文来自微信公众号:秋叶 Excel(ID:excel100),作者:卫星酱
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。