数据基于Excel的数据清洗应用研究

数据清洗  时间:2021-02-25  阅读:()

基于Exc el的数据清洗应用研究文档信息

目录1 ?数据清洗的定义

2 ?常用的数据清洗方式

3 ?数据清洗的方案

3. 1缺失值的处理思路

3.2重复值的处理思路

3.3异常值的处理思路

4 ?Excel数据清理的方法

4. 1重复项的处理

4.2缺失值處理

4.3数据分列

4.4去除非打印字符及空格

4.5数据的离散化

4.6数据的有效性

5 ?结语

正文滕文惠闫媛媛姚晓芳

摘?要高质量的数据是数据分析和应用的重要保证 “脏数据”会导致不可靠输出这种输出导致的结果有可能难以弥补 因此数据清洗尤为重要。该文重点阐述了数据清洗思路及利用Excel软件进行数据清洗的具体方法为教育和科研工作者提供一些参考。

关键字 Excel?数据清洗?方法

中图分类号 G250.2 ?文献标识码 A ? ? ? ? ?文章编号1672-3791 2019 05 c -0028-02

随着计算机及通信技术的迅猛发展如今已经进入了全新的数字化及智能化时代。各种信息系统的广泛应用积累了大量的原始数据分析这些数据的内在规律预测相关业务量的发展趋势 已经成为各行各业的迫切需求 因此掌握数据分析技术显得尤为重要。而数据清洗又是整个数据分析过程中不可缺少的一个环节其结果质量直接关系到模型效果和最终结论。在实际操作中数据清洗通常会占据分析过程的50%80%的时间。

1 ?数据清洗的定义

数据清洗英文名为Data Cleaning或Data Scrubbing是检测和去除数据集中的噪声数据和无关数据处理遗漏数据去除空白数据域和知识背景下的白噪声。也就是将重复、多余的数据筛选清除将缺失的数据补充完整将错误的数据纠正或者删除最后整理成为标准的、干净的、连续的数据提供给数据分析、数据挖掘等使用。

2 ?常用的数据清洗方式

实际工作中常用的数据清洗方式有人工清洗、计算机清洗及人工和计算机结合清洗。对于非标准数据或数据量较小的数据源可使用人工清理的方式即借助统计调查实际工作经验通过人工检查的原始方法来发现异常值但如果数据量较大、变量较多的情况使用这种方法费时费力效率相对较低。计算机清洗则是通过SPSS、 SAS、Excel和Python等软件设置相应的函数及校验规则对缺失值、取值范围 以及数据格式、数据类型、拼写错误等问题进行识别和处理大数据时代的数据清理更适合采用该种方式。然而计算机程序难免出现编程错误或bug 因此还可以采用人工和计算机相结合清洗的方式首先通过计算机检测出可疑数据统计调查人员再根据其业务知识和经验进行人工判断。数据清洗后还需进行质量审核及评估在审核评估中不断发现问题、解决问题确保调查数据的完整性和唯一合法性。该文则主要探讨基于Excel的计算机清理方法。

3 ?数据清洗的方案

数据清洗是发现并纠正数据文件中可识别的错误的最后一道程序包括检查数据完整性、唯一性、合法性等。数据的完整性重点检查数据是否有缺失值例如人的属性中缺少性别、籍贯、年龄等。数据的唯一性重点检查否有重复样本例如不同来源的数据出现重复的情况。数据的合法性则检查数据是否有异常值例如获取的数据与常识不符年龄大于150岁。

3. 1缺失值的处理思路

缺失值指的是数据原本是必须存在的但实际上该变量没有数据它与空值不同。主要的处理方法有其他信息补全法例如使用省份证号推算性别、籍贯、 出生日期、年龄等。这种方法比较复杂一般用在补全一些不可缺失的信息时使用。前后数据补全法例如时间序列数据部分缺失时可以使用前后数据的均值或整个时间序列的均值进行补全。当缺失数据较多时可以使用平滑处理进行补全。剔除法该办法在实在无法补全的情况下使用剔除不等于删除可以暂时不用这些数据在以后的分析中可能还会使用。

3.2重复值的处理思路

数据中属性值相同的记录被认为是重复记录通过判断记录间的属性值是否相等来检测记录是否相等相等的记录合并为一条记录即合并或者清除。主要方法有按主键去重及按规则去重。

3.3异常值的处理思路

异常值是指样本中的个别值其数值明显偏离所属样本的其余观测值。用统计分析的方法识别可能的错误值或异常值如偏差分析、识别不遵守分布或回归方程的值也可以用简单规则库常识性规则、业务特定规则等检查数据值或使用不同属性间的约束、外部的数据来检测和清理数据。主要方法有设定强制合法规则、设定字段类型合法规则及设定字段内容合法规则。

4 ?Excel数据清理的方法

现将数据清理过程中出现的常见问题如重复项的处理、缺失值的处理、字段分列、去除非打印字符及空格、数据的离散化、数据的有效性等分别探讨在Excel中处理方法。

4. 1重复项的处理

方法是直接删除重复数据保留一条记录即可。在Excel中选择数据标签单击“删除重复项”按钮。打开“删除重复项”对话框默认情况下所有字段都相等认为是重复项单击“确定”删除即可。还有一种情况是部分字段相同就认为是重复项这种情况可以现将重复项挑选出来再根据统计调查人员的业务经验有选择性地删除。

4.2缺失值處理

直接剔除法如果该字段分析价值不大且缺失比例较大可以采取直接剔除法。前后数据补全法 即用前后数据的平均值来补全主要应用于时间序列数据。选定缺失值字段单击开始标签里的查找选择下拉菜单的定位条件命令。打开“定位条件”对话框选择“空值”选项定位出所有空缺单元格输入平均值公式单击

Ctrl+Shift+Enter键确认。用其他表格信息补全可以利用表格相同字段通过“V lookup”函数完成精确查找并补全。

4.3数据分列

主要用于将一个字段分裂为两个字段首先在需要分列字段后插入一个空列然后选择数据标签的“分列”按钮打开“文本分列向导”对话框进入文本分列向导选择该列数据的分隔符号进行分列操作。

4.4去除非打印字符及空格

通过网络获取的数据有时会回车符空格等影响数据分析的字符可以分别利用Cl ean    Trim  函数去除。

4.5数据的离散化

对于字符数据可以通过数据透视表观察数据类别的基本情况然后通过筛选进行类别的重新组合也可以将字段重新设置成为是否标志。对于数值数据先设置离散的区间及每个区间对应的字段值然后利用Vlookup的近似查找完成。

4.6数据的有效性

数据的有效性是对单元格或单元格区域输入的数据从内容到数量上的限制。在Excel中选择数据标签里的“数据验证”按钮打开“数据验证”对话框可以依靠系统检查数据的正确有效性然后通过“圈释无效数据”功能可以对已录入的数据中不符合条件的数据做圈释标示。

5 ?结语

数据分析技术广泛应用于医疗、能源、零售、汽车、金融等诸多领域通过分析有价值的数据提供决策和建议。但脏数据的普遍存在导致数据分析过程中可利用的数据有限 因此数据清洗显得尤为重要对数据清洗方法的研究也将更加深入。

参考文献

[1]罗强何利力王晓菲.数据仓库中数据清洗技术分析[J] .电脑编程技巧与维护 2015 2  61 76。

[2]罗艳霞王庭熙骆绍晔.数据预处理在图书借阅中的应用[J] .莆田学院学报 2016 2  50-53。

“基于Excel的数据清洗应用研究”文档源于网络本人编辑整理。本着保护作者知识产权的原则仅供学习交流请勿商用。如有侵犯作者权益请作者留言或者发站内信息联系本人我将尽快删除。谢谢您的阅读与下载

个人网站备案流程及注意事项(内容方向和适用主机商)

如今我们还有在做个人网站吗?随着自媒体和短视频的发展和兴起,包括我们很多WEB2.0产品的延续,当然也包括个人建站市场的低迷和用户关注的不同,有些个人已经不在做网站。但是,由于我们有些朋友出于网站的爱好或者说是有些项目还是基于PC端网站的,还是有网友抱有信心的,比如我们看到有一些老牌个人网站依旧在运行,且还有新网站的出现。今天在这篇文章中谈谈有网友问关于个人网站备案的问题。这个也是前几天有他在选择...

轻云互联-618钜惠秒杀,香港CN2大宽带KVM架构云服务器月付22元,美国圣何塞精品云月付19元爆款!海量产品好货超值促销进行中!

官方网站:点击访问青云互联活动官网优惠码:终身88折扣优惠码:WN789-2021香港测试IP:154.196.254美国测试IP:243.164.1活动方案:用户购买任意全区域云服务器月付以上享受免费更换IP服务;限美国区域云服务器凡是购买均可以提交工单定制天机防火墙高防御保护端口以及保护模式;香港区域购买季度、半年付、年付周期均可免费申请额外1IP;使用优惠码购买后续费周期终身同活动价,价格不...

亚洲云-浙江高防BGP.提供自助防火墙高防各种offer高防BGP!

 亚洲云Asiayun怎么样?亚洲云Asiayun好不好?亚洲云成立于2021年,隶属于上海玥悠悠云计算有限公司(Yyyisp),是一家新国人IDC商家,且正规持证IDC/ISP/CDN,商家主要提供数据中心基础服务、互联网业务解决方案,及专属服务器租用、云服务器、云虚拟主机、专属服务器托管、带宽租用等产品和服务。Asiayun提供源自大陆、香港、韩国和美国等地骨干级机房优质资源,包括B...

数据清洗为你推荐
可以发外链的论坛发外链的论坛哪个比较好,哪个论坛能发外链,能发广告急求。。。。伪装微信地理位置微信朋友圈怎么使用伪装地理位置免费开通黄钻花钱开通黄钻和免费开通有什么区别?微信如何建群微信怎么建群?今日热点怎么删除youku今日热点怎么卸载天天酷跑刷金币如何使用八门神器给天天酷跑刷钻刷金币godaddygodaddy域名怎样使用qq怎么发邮件手机QQ怎么发邮件开机滚动条开机滚动条要很长时间怎么解决?xp系统停止服务Windowsxp系统为什么停止服务
域名反查 广东服务器租用 仿牌空间 bandwagonhost godaddy 台湾谷歌地址 admit的用法 php空间购买 重庆双线服务器托管 卡巴斯基破解版 免费dns解析 t云 香港新世界中心 流媒体加速 in域名 双12 google台湾 空间登陆首页 中国电信网络测速 日本代理ip 更多