斗鱼直播大数据的玩法

作者/分享人:吴瑞诚
向 Ta 提问
曾就职于阿里巴巴、一号店。目前负责斗鱼实时/离线数据处理、个性推荐系统、风控系统、BI&DW和搜索引擎。对高可用高并发的大数据平台架构和SOA架构有深入的理解和实践。

主要分享斗鱼大数据现在的玩法和下一步的规划。主要内容分为四方面:

  1. 斗鱼大数据平台的整体架构(基础集群、数据类型、数据规模、基础环境);
  2. 斗鱼数据仓库;
  3. 斗鱼个性推荐系统;
  4. 斗鱼风控系统。

实录提要:

  • ELK 的数据保留多久,历史数据的处理和使用是怎么操作的?
  • 能否分享下斗鱼在风控这块的技术和产品规则的细节吗?
  • 斗鱼是如何让规范化处理来辅助后续的分析?
  • 斗鱼是收集客户兴趣后会通过怎样的分析来进行推荐呢?
  • 自研的发布和调度系统是什么?
  • Impala 和同在一个集群的 Yarn 资源是如何分配的?
  • 数据分析的需求有专门产品经理或者数据科学家组织吗?
  • 数据中心如何做容灾处理?
  • 业务系统的数据(如 MySQL)怎么实时同步到数据仓库?
已有240人预订
预订达标
文章出炉
交流日期
     
17.03.31
17.04.14
17.04.20 20:30
查看文章评论/提问
ShenYi
干货满满,从大数据架构,客户画像到个性化推荐,黑产风控。斗鱼不止有主播,技术团队更赞。
浣溪沙
请教二个问题: 1.hive数据仓库多报表逻辑交互时有没有什么较高效的方法能测试sql的性能(除计算job时间) 2.spark实时这一块,如果进行活动时,肯定是有大量的数据接入的,这一块的性能预防和验证能不能介绍一下
loveisbug
提问:斗鱼的个性化推荐更接近协同过滤还是更接近基于内容的推荐?从用户数主播数和视频数来看,计算量非常大,效果不好的话接下来调整思路是怎样的?谢谢。
Vincent
一直对斗鱼海量数据管理挺好奇的,了解到了!
倾城志
说实话真的很喜欢斗鱼的体验。特别是直播流畅度,斗鱼是我体验最好的,而且斗鱼技术更新很及时。希望有朝一日,斗鱼可以实现内容直播间的个性推荐。
江伟
老师好,请教老师几个问题 1. elk的数据保留多久,历史数据的处理和使用你们是怎么操作的 2. web应用中都有哪些点可以借助docker来提高性能,是否可以做到服务亮上来后自动扩容,自动销毁呢 3. 能否分享下斗鱼在风控这块的技术和产品规则的细节吗?怎么预防和处理刷人气,刷礼物这些异常情况
海浪
1、ELK采集多几个系统的日志,对于众多系统日志格式的各异的情况,请问斗鱼是如何让规范化处理来辅助后续的分析?2、风控中如何结合数据分析,再到落实风控措施,建议分享下实践经验。3、文中提到微服务,spring cloud微服务由于通信协议和方式的原因,导致通讯效率降低,是否考虑过?是否有更好的解决方案分享?
黄辉靓丶
斗鱼是收集客户兴趣后会通过怎样的分析来进行推荐呢?现阶段并没看到推荐直播。是收集工作进度未完成?
想知道你们怎么学习大数据的一些技术,从那里入门?
老曹
spark近线分析的时间间隔的选择?调优涉及哪些注意的问题?
Adele
可以大致说下开发这样的比较基础的产品需要多长周期,多少人员和多少硬件?
loveisbug
提问:对付黑产没有考虑和专业的第三方合作么?为什么?谢谢。
君剑
对于数据的传输格式是否考虑过protocolbuffer,为什么没有使用?
禾月
虽然看不懂,但还是坚持看完了,正在自学前端
哈皮666
南昌有这样这样类似的公司,我会立马回去😊
huyi: 南昌得过十年二十年才会有,南昌目前火热的是建筑行业,互联网的靠边站
杨鹏飞
非常感谢!原来就是看斗鱼的ELK日志平台给了我很多启发搭建了一套日志系统,现在又看到大数据平台,收获满满。真的受益良多,非常感谢,但是小弟又有一个问题,就是,日志埋点要怎么弄,依据什么大的规则制定。
huyi
希望各大有志气之士都来南昌发展,南昌给你们最大的方便
你可能还喜欢
从小白到架构师的成长之路
一盘花生米
二叉树的原理推敲与动手种树
浅浅
机器学习004:循环神经网络实现与文本分类问题
如是
电商高并发、高流量下分布式 ID 的解决方案(主键生成策略)
Array老师
DevOps 工具链:在线报障的流程、系统设计和自改进体系的建设
常新居士
谈谈 Java NIO
应书澜
微信扫描登录