作为计算框架,Spark 速度快,开发简单,能同时兼顾批处理和实时数据分析,因此很快被广大企业级用户所采纳,并随着近年人工智能的崛起而成为分析和挖掘大数据的重要得力工具。
本书由业内知名数据科学家执笔,通过丰富的示例展示了如何结合 Spark、统计方法和真实世界数据集来解决数据分析问题,既涉及模型的构建和评价,也涵盖数据清洗、数据预处理和数据探索,并描述了如何将结果变为生产应用,是运用 Apache Spark 进行大数据分析和处理的实战宝典。
第2版根据新版 Spark 杰出实践,对样例代码和所用资料做了大量更新。
本书涵盖模式如下:
桑迪 · 里扎(Sandy Ryza),Spark 项目代码提交者、Hadoop 项目管理委员会委员,Time Series for Spark 项目创始人。曾任 Cloudera 公司高级数据科学家,现就职于 Remix 公司从事公共交通算法开发。
于里 · 莱瑟森(Uri Laserson),MIT 博士毕业,致力于用技术解决遗传学问题,曾利用 Hadoop 生态系统开发了可扩展的基因组学和免疫学技术。目前是西奈山伊坎医学院遗传学助理教授,曾任 Cloudera 公司核心数据科学家。
肖恩 · 欧文(Sean Owen),Spark、Mahout 项目代码提交者,Spark 项目管理委员会委员。现任 Cloudera 公司数据科学总监。
乔希 · 威尔斯(Josh Wills),Crunch 项目发起人,现任 Slack 公司数据工程主管。曾任 Cloudera 公司高级数据科学总监。