如何用 Spark 深度集成 Tensorflow 实现文本分类

作者/分享人:祝威廉
向 Ta 提问
资深大数据架构师,10年研发,六年大数据相关经验。现致力于大数据和机器学习在医疗领域的应用。工作期间曾使用流式处理架构处理日均千亿级别的日志,擅长Spark/ElasticSearch/Tensorflow等相关技术,并且有相关开源项目。个人博客参看: http://www.jianshu.com/u/59d5607f1400 开源项目参看:https://github.com/allwefantasy?tab=repositories

这篇文章会分成以下 7 个部分:

  1. 开发环境准备
  2. PySpark 基础:基于 Dataframe 的 wordcount 实现
  3. PySpark MLlib 基础-自动化特征工程
  4. Tensorflow 基础:Tensorflow 的编码套路
  5. 深度学习与 NLP 基础:如何用深度学习完成 NLP 相关工作
  6. Spark 和 Tensorflow 整合:如何深度集成 Spark 和 Tensorflow
  7. 一个完整应用案例 :利用卷积网络做文本分类

通过本场 Chat,读者可以入门 PySpark, Spark MLlib, Tensorflow 的使用,以及深度学习和 NLP 的结合。对于架构师,还能学习到如何实现 Spark 和 Tensorflow 的互通,形成完整的 Pipeline。 这篇文章也是我前一段时间的工作总结,我 fork 了 databricks 公司的一个项目并且做了增强(点击查看)。

已有349人预订
预订达标
文章出炉
     
17.12.19
01月02日
本场 Chat 文章已出炉,购买后即可阅读文章并获得一张祝威廉的读者圈Pass
请务必添加GitChat服务号以查看活动进度及获取活动通知。
你可能还喜欢
聊聊 CSS 中的布局模式
大漠_w3cplus.com
软技能:程序员如何在职场上少走弯路
墨雪卿
如何用 Python 爬取网页制作电子书
孙亖
Spring Boot 2.0 的快速入门(图文教程)
泥瓦匠 @ bysocket.com
如何在网上下载自己需要的资源
曹某某
GitChat 被恶意攻击引发的技术性思考:拒绝服务攻击
肖志华
利用开源代码和读相关论文来提高写代码能力
李峰
中小型企业基于大数据技术的项目实践
Tumweeg
前端如何拥有自己的服务器
郭方超
浅谈如何开一场 Chat
白宦成
如何更好的把控项目进度以及对资源进行估算
PM圈子-管理
通过源码深入理解 Spring 事务的实现原理
分布式熔断、限流与服务保护:深入 Hystrix 原理及使用
快乐崇拜
前端跨域问题各种解决方案
npc光明
查询参数缓存从零到一个框架的演进
奔跑吧架构师
微信扫描登录