机器学习数据预处理方法与技巧系统讲解

作者/分享人:刘明
向 Ta 提问
阿里巴巴/机器学习算法工程师

数据挖掘项目中最重要的事,并非算法模型的选择与调参,而是数据的预处理。在真实数据中(包括 kaggle 等比赛),通常存在大量的缺失值和噪音,这些对算法的效果有极大影响。不仅如此,特征的量级差异,也会影响预测算法的效果。如 kNN 算法,假设数据点有两个特征 x1,x2,其中 x1 的量级为 x2 的 10 倍,判断距离时,由于距离变成了平方和,x1 的重要性就会是 x2 的 100 倍!再如:根据某房屋的数据集来预测客户购买房屋的可能,其特征包括房屋面积,价格,则可生成一个新特征:每平米价格 = 价格 / 房屋面积。

这个特征多么重要,大家也看的出来。然而,靠调参是做不到的,也没法做到这种效果,只有通过数据预处理进行特征生成才能够实现。然而,现在却没有人系统性地讲解这些技巧。

这次 Chat,就是来系统性地告诉你各种数据预处理的方法技巧。最后,会以 Python 来讲解一个数据预处理的例子。

已有133人预订
预订达标
文章出炉
     
01月02日
01月16日
本场 Chat 文章已出炉,购买后即可阅读文章并获得一张刘明的读者圈Pass
请务必添加GitChat服务号以查看活动进度及获取活动通知。
查看文章评论/提问
祝威廉
很不错。要是能接一个实际案例就好了。
生姜〔朱彤〕
可以再开一场chat,基于实际案例做讲解。
你可能还喜欢
初探 Metasploit 漏洞框架
肖志华
使用 Mpvue 开发微信小程序的最佳实践
美团点评技术团队
Java 优化方案:设计模式
Array老师
普通程序员如何快速提升自己
王俊生
使用 Python 全栈打造淘宝客微信机器人
州的先生
大厂面试官亲述:0~3年移动研发工程师必备技能
richardcao
微信扫描登录