机器学习数据预处理方法与技巧系统讲解

作者/分享人:刘明
向 Ta 提问
阿里巴巴/机器学习算法工程师

数据挖掘项目中最重要的事,并非算法模型的选择与调参,而是数据的预处理。在真实数据中(包括 kaggle 等比赛),通常存在大量的缺失值和噪音,这些对算法的效果有极大影响。不仅如此,特征的量级差异,也会影响预测算法的效果。如 kNN 算法,假设数据点有两个特征 x1,x2,其中 x1 的量级为 x2 的 10 倍,判断距离时,由于距离变成了平方和,x1 的重要性就会是 x2 的 100 倍!再如:根据某房屋的数据集来预测客户购买房屋的可能,其特征包括房屋面积,价格,则可生成一个新特征:每平米价格 = 价格 / 房屋面积。

这个特征多么重要,大家也看的出来。然而,靠调参是做不到的,也没法做到这种效果,只有通过数据预处理进行特征生成才能够实现。然而,现在却没有人系统性地讲解这些技巧。

这次 Chat,就是来系统性地告诉你各种数据预处理的方法技巧。最后,会以 Python 来讲解一个数据预处理的例子。

已有159人预订
预订达标
文章出炉
     
01月02日
01月16日
本场 Chat 文章已出炉,购买后即可阅读文章并获得一张刘明的读者圈Pass
请务必添加GitChat服务号以查看活动进度及获取活动通知。
查看文章评论/提问
祝威廉
很不错。要是能接一个实际案例就好了。
生姜〔朱彤〕
可以再开一场chat,基于实际案例做讲解。
你可能还喜欢
Spring Cloud Consul 从入门到精通
如梦技术 dreamlu
ACT 敏捷教练培养体系
Chat 三人行
Spring 注解是如何实现的
飞翔
程序员的自我进化:学习之道,如何更有效的学习
Soyoger
高并发、高性能 Web 架构解决方案
Array老师
Spring Data JPA 晋级提升篇:复杂场景实战用法与优化
张振华
微信扫描登录