R语言数据挖掘之数据探索

作者/分享人:Daniel谢佳标
向 Ta 提问
微软中国MVP,多届中国R语言大会演讲嘉宾,业界知名讲师;从事数据挖掘建模工作已有9年,目前在创梦天地担任高级数据分析师一职, 作为创梦天地数据挖掘组的负责人,带领团队对游戏数据进行深度挖掘,利用R语言进行大数据的挖掘和可视化工作。 合著《R语言与数据挖掘》及《数据实践之美》等书籍,均在京东有卖。此外《R语言游戏数据分析与挖掘》预计将在2017年上半年出版。

数据质量分析是数据预处理的前提,是数据挖掘分析结论有效性和准确性的基础,其主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。在常见的数据挖掘工作中,脏数据主要值缺失值和异常值。本专场重点介绍了缺失值的判断、缺失值模式探索、缺失值处理及异常值判断的常用方法及R语言实践。

本场Chat包括以下内容:

  1. 缺失值的判断和模式识别。
  2. 缺失值处理:直接删除缺失值、缺失值填补、缺失值插补。
  3. 异常值判断的常用方法。
  4. 利用qcc质量控制图和箱线图识别异常值。
  5. 利用聚类分析甄别异常值。
已有88人预订
预订达标
文章出炉
交流日期
     
17.03.29
17.05.09
17.05.12 20:30
查看文章评论/提问
咸柠沙士
请问老师,在缺值和异常值处理上先后顺序会有影响么?一般都是先处理缺值,再处理异常值么?如果异常值的分布不符合正态分布的情况怎么办呢?
你可能还喜欢
高并发、低 RT 的风控系统架构及技术架构的实现
火币集团研发中心
程序员副业赚钱的 8 种模式
安晓辉
全栈开发入门实战:后台管理系统
鲁鹏
每一个开发人员都应该懂的 UML 规范
码匠笔记
不写代码:程序员最重要的技能 [英文版]
Chat 三人行
“花式吊打”系列之逻辑回归讲透透
天马行空
微信扫描登录
关注提示×
扫码关注公众号,获得 Chat 最新进展通知!
添加小助手微信×