保存成功
订阅成功
保存失败,请重试
提交成功
大数据和远方

大数据和远方

大数据开发工程师
具有多年互联网开发经验,参与过多个数据平台建设。...更多
创作文章5

基于爬取的 GitChat 平台数据进行分析

GitChat 是一款基于微信平台的知识分享产品。这款产品使得程序员们从一个个孤立的岛走向交流、分享,也为有真材实料的程序员搭上知识付费的顺风车。 那么 GitChat 中什么样的领域最受欢迎呢?什么话题才能最吸引读者呢?本次就是基于 GitChat 平台爬取的数据进行分析的一个 Chat,本 Chat 不涉及任何爬取 Chat 的详细步骤及数据公开,仅仅是展示基于爬取数据进行分析的结果展现,如果是想要学习爬虫的小伙伴就可以避开了(数据爬取内容截止到 2019-08-28)。 在本场 Chat 中,包括但不仅限于以下内容,有想法的小伙伴可以另外提,能基于现有数据实现会采纳: - GitChat 中什么样的领域最受欢迎 - 严选 Chat 领域图表分析 - 严选 Chat 词云展示 - Chat 定价和订阅人数相关性图表分析 - 大家最喜欢写什么领域的 Chat **适合人群**: Chat 作者及对 Chat 有兴趣的人员
145 订阅

Elasticsearch 分析利器之 Kibana 案例实践

Elasticsearch 目前不仅是排名第一的搜索引擎,在数据库排行榜也是高居前列,其应用 、发展迅速 ,Kibana 作为 ELK “ 三剑客 ” 中的一员,它早早的绑定了 Elasticsearch 这条 “ 大腿 ”,用户可以通过 Kibana 来查看、搜索并和 Elasticsearch 中的数据进行交互。 它的分析和可视化功能大大增加了数据的 “ 可读性 ”,更加利于数据分析人员从繁多、复杂、大量的数据中提取有效的讯息。 在本场 Chat 中,会讲到如下内容: - ELK 安装及相关踩坑集合 - 利用 Logstash 将数据从 MySQL 导入 Elasticsearch 及配置详解 - 详解 Kibana 可视化搜索实践 - Kibana 数据分析之饼图、线图等图表的分析案例 - Kibana 仪表盘的创建 - Kibana 时序图的创建分析案例 - Elasticsearch 在 Kibana 中监控 - Kibana 中的 Elasticsearch 开发工具 **适合人群**: 对 Elasticsearch、Kibana、Logstash 有兴趣的技术人员
136 订阅

基于 Spark 的中文文本分类和小说相似性计算案例实践

Spark 可谓是开启了大数据的新时代,RDD、DataFrame、DataSet、Spark Streaming、Structured Streaming、MlLib 等 Spark 全家桶让大数据离线、准实时、纯实时、分布式机器学习变的像“呼吸一样容易”。 基于 Spark 使用 RDD 和 DataFrame 构建的算法学习难度被大大的降低,而中文文本的分类和相似性计算这两个算法中常见的需求和 Spark 碰撞会散发出怎样的火花呢? 在本场 Chat 中,会讲到如下内容: - 解析 TF-IDF 和 Spark 实现原理 - 详细讲解相似性算法余弦相似度的原理和代码实现 - 文本分类算法的选择和实现 - 文本分类结果的调优 **适合人群**: 对 Spark 有相关基础经验和对机器学习算法有兴趣的同学
105 订阅

SparkSQL 数据分析处理和 Python 图形化展示

Spark 成为大数据开发工程师必备的一项技能,在 Spark 开发过程中又以 SparkSQL 使用的最为频繁,可以说,它是大数据开发进行 ETL 的神器。 本场 Chat 就是基于大数据开发中最常见的一些需求进行讲解,再针对一些容易忽视的点进行常见的优化措施,帮助大家能用 SparkSQK 解析常见的问题及优化。本场 Chat 您将学到如下内容: 1. 解决按天来计算每天的下载量的需求; 2. 解决按小时段来计算下载量的需求; 3. 通过解析 IP 解决按地域来计算下载量的需求; 4. 解决按渠道来计算下载量的需求; 5. 解决使用 Python 画图实现上述需求的可视化。
Python
167 订阅

Structured Streaming 开发入门

Structured Streaming 作为 Spark 家族的新成员,通过 Spark SQL/DataFrame 来处理 Batch/Streaming 数据,基本的 SparkSQL API 即可实现离线处理和流式处理,大大的方便了流式计算的开发,另外还提供了丰富的功能。 本次 Chat 就是从零开始,带领大家认识学习 Structured Streaming,主要内容包括: 1. Structured Streaming 基本案例; 2. Process 与 Event 窗口的区别及 Watermarks 的使用; 3. 三种 Output Modes 方式; 4. Streaming Queries 的监控。
Structured Streaming入门
115 订阅
微信扫描登录