Spark 高级数据分析(第2版)

内容简介

作为计算框架,Spark 速度快,开发简单,能同时兼顾批处理和实时数据分析,因此很快被广大企业级用户所采纳,并随着近年人工智能的崛起而成为分析和挖掘大数据的重要得力工具。

本书由业内知名数据科学家执笔,通过丰富的示例展示了如何结合 Spark、统计方法和真实世界数据集来解决数据分析问题,既涉及模型的构建和评价,也涵盖数据清洗、数据预处理和数据探索,并描述了如何将结果变为生产应用,是运用 Apache Spark 进行大数据分析和处理的实战宝典。

第2版根据新版 Spark 杰出实践,对样例代码和所用资料做了大量更新。

本书涵盖模式如下:

  • 音乐推荐和 Audioscrobbler 数据集
  • 用决策树算法预测森林植被
  • 基于 K 均值聚类进行网络流量异常检测
  • 基于潜在语义算法分析维基百科
  • 用 GraphX 分析伴生网络
  • 对纽约出租车轨迹进行空间和时间数据分析
  • 通过蒙特卡罗模拟来评估金融风险
  • 基因数据分析和 BDG 项目
  • 用 PySpark 和 Thunder 分析神经图像数据

作者简介

桑迪 · 里扎(Sandy Ryza),Spark 项目代码提交者、Hadoop 项目管理委员会委员,Time Series for Spark 项目创始人。曾任 Cloudera 公司高级数据科学家,现就职于 Remix 公司从事公共交通算法开发。

于里 · 莱瑟森(Uri Laserson),MIT 博士毕业,致力于用技术解决遗传学问题,曾利用 Hadoop 生态系统开发了可扩展的基因组学和免疫学技术。目前是西奈山伊坎医学院遗传学助理教授,曾任 Cloudera 公司核心数据科学家。

肖恩 · 欧文(Sean Owen),Spark、Mahout 项目代码提交者,Spark 项目管理委员会委员。现任 Cloudera 公司数据科学总监。

乔希 · 威尔斯(Josh Wills),Crunch 项目发起人,现任 Slack 公司数据工程主管。曾任 Cloudera 公司高级数据科学总监。

极客书购买须知

  1. 本产品为《Spark 高级数据分析(第2版)》一书电子版全本内容,共计 36 万字。
  2. 付费购买用户、会员用户可享受文章永久阅读权限。
  3. 本产品为虚拟产品,一经付费概不退款,敬请谅解。
  4. 本产品内容授权自北京图灵文化发展有限公司。
  5. 极客书同时可在 http://gitbook.cn/ 购买与阅读。
推荐电子书查看更多电子书
生命密码:你的第一本基因科普书
尹烨
科普
基因
¥40.831 万字
SQL 进阶教程
MICK
SQL
数据库
¥39.9945.5 万字
Java 高并发编程详解:多线程与架构设计
汪文君
Java
¥4522.1 万字
Python 程序设计(第3版)
John Zelle
Python
¥49.9950.6 万字
深入浅出 RxJS
程墨
RxJS
¥4540 万字
微信扫描登录