R语言数据挖掘之数据探索

作者/分享人:Daniel谢佳标
向 Ta 提问
微软中国MVP,多届中国R语言大会演讲嘉宾,业界知名讲师;从事数据挖掘建模工作已有9年,目前在创梦天地担任高级数据分析师一职, 作为创梦天地数据挖掘组的负责人,带领团队对游戏数据进行深度挖掘,利用R语言进行大数据的挖掘和可视化工作。 合著《R语言与数据挖掘》及《数据实践之美》等书籍,均在京东有卖。此外《R语言游戏数据分析与挖掘》预计将在2017年上半年出版。

数据质量分析是数据预处理的前提,是数据挖掘分析结论有效性和准确性的基础,其主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。在常见的数据挖掘工作中,脏数据主要值缺失值和异常值。本专场重点介绍了缺失值的判断、缺失值模式探索、缺失值处理及异常值判断的常用方法及R语言实践。

本场Chat包括以下内容:

  1. 缺失值的判断和模式识别。
  2. 缺失值处理:直接删除缺失值、缺失值填补、缺失值插补。
  3. 异常值判断的常用方法。
  4. 利用qcc质量控制图和箱线图识别异常值。
  5. 利用聚类分析甄别异常值。
已有77人预订
预订达标
文章出炉
交流日期
     
17.03.29
17.05.09
17.05.12 20:30
查看文章评论/提问
咸柠沙士
请问老师,在缺值和异常值处理上先后顺序会有影响么?一般都是先处理缺值,再处理异常值么?如果异常值的分布不符合正态分布的情况怎么办呢?
你可能还喜欢
如何设计一个灵活的 MySQL 数据表,应对灵活多变的需求
李岩
Jenkins 自动化构建部署实战
火币集团研发中心
Java 程序员应掌握的 Nginx 实战应用
JPM
带你玩转 JSON
能量架构师
实战剖析 Java 秒杀系统的实现
虎口脱险
小程序从入门到进阶
loonglong
微信扫描登录