机器学习数据预处理方法与技巧系统讲解

作者/分享人:刘明
向 Ta 提问
阿里巴巴/机器学习算法工程师

数据挖掘项目中最重要的事,并非算法模型的选择与调参,而是数据的预处理。在真实数据中(包括 kaggle 等比赛),通常存在大量的缺失值和噪音,这些对算法的效果有极大影响。不仅如此,特征的量级差异,也会影响预测算法的效果。如 kNN 算法,假设数据点有两个特征 x1,x2,其中 x1 的量级为 x2 的 10 倍,判断距离时,由于距离变成了平方和,x1 的重要性就会是 x2 的 100 倍!再如:根据某房屋的数据集来预测客户购买房屋的可能,其特征包括房屋面积,价格,则可生成一个新特征:每平米价格 = 价格 / 房屋面积。

这个特征多么重要,大家也看的出来。然而,靠调参是做不到的,也没法做到这种效果,只有通过数据预处理进行特征生成才能够实现。然而,现在却没有人系统性地讲解这些技巧。

这次 Chat,就是来系统性地告诉你各种数据预处理的方法技巧。最后,会以 Python 来讲解一个数据预处理的例子。

已有103人预订
预订达标
文章出炉
     
01月02日
01月16日
本场 Chat 文章已出炉,购买后即可阅读文章并获得一张刘明的读者圈Pass
请务必添加GitChat服务号以查看活动进度及获取活动通知。
查看文章评论/提问
祝威廉
很不错。要是能接一个实际案例就好了。
你可能还喜欢
聊聊 CSS 中的布局模式
大漠_w3cplus.com
软技能:程序员如何在职场上少走弯路
墨雪卿
如何用 Python 爬取网页制作电子书
孙亖
Spring Boot 2.0 的快速入门(图文教程)
泥瓦匠 @ bysocket.com
如何在网上下载自己需要的资源
曹某某
GitChat 被恶意攻击引发的技术性思考:拒绝服务攻击
肖志华
微信扫描登录