保存成功
订阅成功
保存失败,请重试
提交成功
逗逼de日常

逗逼de日常

量化部项目经理
一位从事数据分析,金融数学模型开发,喜欢琢磨稀奇古怪工具的码农...更多
创作文章7

MySQL 最优秀的替代品系列之六:Clickhouse 与机器学习(Catboost)集成

在前面几篇 Chat 分别介绍了 ClickHouse 的特性,表引擎,常用函数,视图以及与 MySQL 交互的用法。(有兴趣的读者可以了解几篇 Chat)。但是在日常的数据分析场景(OLAP)中,处理大数据处理,必不可少的会用到机器学习的相关算法,所以在纷繁复杂的数据流中部署机器学习框架,会让整个工作流变得繁琐。 而幸运的是 Clickhouse 的强劲的计算能力和大数据处理能力,结合机器学习组件(Catboost)可以直接快速的组件机器学习测试框架,通过直接在数据库中执行机器学习过程,让整个数据流在数据库内部流动,保证高效的数据处理能力的同时又给机器学习框架提供快速的测试窗口,可以把 Clickhouse 的超强的计算性能和大数据的吞吐量特性使用到极致。 ​上一篇 Chat,我们简单的介绍了如何在 Clickhouse 与机器学习(Catboost)的联合使用。但是很多场景可能简单介绍并不能完全的阐释。因此本篇将详细介绍机器学习(Catboost)在 Clickhouse 中的部署以及使用情况,并且演示如果在二者(ClickHouse+Catboost)在诸多常见场景的使用。 在本场 Chat 中,会讲到如下内容: 1. Clickhouse+Catboost 机器学习框架的构建和部署 2. Clickhouse+Catboost 机器学习框架的迭代和更新 3. 接入在线场景(MySQL+Clickhouse+Catboost)的部署和注意事项 4. Clickhouse+Catboost 机器学习框架的常见使用场景介绍 适合人群: 需要对机器学习场景落地或者 OLAP 场景选型的技术人员
MySQL
81 订阅

MySQL 最优秀的替代品系列之五:Clickhouse 视图的神奇用法

最近几年关于数据库的信息成簇不穷,MySQL 之后的开源数据库也越来越多,同时性能也越来越好。目前开源数据库领域,如果说 MySQL 覆盖绝大部分市场份额。那么 Clickhouse 可以说是从 MySQL 手中开辟出一片独特的领域。 视图,这项功能从一出生就伴随着 MySQL 一起成长。但是由于其性能的短板,直接淹没了视图的优越性以及便捷性。其独特的缓存特性,特质的便捷性,甚至潜在的高效使用场景,由于 MySQL 的性能瓶颈举步维艰。 但是换成 Clickhouse,那就不一样了,超高性能,以及强劲的计算能力和大数据处理能力,让视图这一高效工具重获新生。特别是针对数据分析场景(OLAP)领域,简化操作,定制化数据,以及能够快速安全的分割数据,让繁琐的数据分析场景,变得丝滑。同时由于视图的存在,并且借鉴 Clickhouse 的独特的特性,良好的设计视图规则,使直接在数据库中执行机器学习成为可能,把 Clickhouse 的超强的计算性能和大数据的吞吐量特性使用到极致。 本篇主要介绍视图在 Clickhouse 中的使用情况,并且演示如果在 Clickhouse 中直接进行机器学习,实现算法跟随数据流动的理念。 在本场 Chat 中,会讲到如下内容: 1. 视图的概念和分类 2. 视图及物化视图在 Clickhouse 中的应用 3. 配合机器学习的视图应用(Clickhouse+Catboost) 4. 虚拟列在 Clickhouse 中的应用 5. 物化虚拟列在 Clickhouse 中的应用 6. 视图类使用注意事项,以及使用规范 适合人群: 需要对机器学习场景落地或者 OLAP 场景选型的技术人员。
MySQL
80 订阅

MySQL 最优秀的替代品系列之四:Clickhouse 常用函数介绍

ClickHouse 是一款高性能开源列式数据库,主要用于数据分析领域(OLAP)。其高性能计算和高压缩率的数据存储方式,使其能够从众多关系型数据库中脱颖而出。目前已知的一部分大厂都有尝试部署 ClickHouse 到生产环境,用来支持高性能计算和数据存储处理需求。甚至阿里云都率先推出他们的 ClickHouse 托管服务。 前面几篇 Chat 我们简单介绍了 ClickHouse 的数据库特性,数据表引擎特性,简单介绍了 Clickhouse 与 MySQL 联合使用的多种场景。并且简单描述了不同业务类型下的利用不同的特性和表引擎来承载各种业务需求。但是作为数据分析领域的利器的 Clickhouse,除了表引擎以外,丰富的函数支持同样是实现高性能计算的重要保证。 因此,对于 Clickhouse 的函数需要系统的了解,因此本场 Chat 会介绍 Clickhouse 中的常用的函数,会讲到如下内容: 1. ClickHouse 的常见函数特性和介绍 2. ClickHouse 的算术计算函数 3. ClickHouse 的比较函数以及逻辑函数 4. Clickhouse 的类型转换函数 5. Clickhouse 的 JSON 函数 6. Clickhouse 的字符串相关函数函数 7. Clickhouse 的时间日期函数 8. Clickhouse 的条件函数 适合人群: 需要对 ClickHouse 或者 OLAP 场景使用的技术人员。
MySQL
134 订阅

MySQL 最优秀的替代品系列之三:拒绝繁琐的 MySQL 调优,请使用 Clickhouse

关于数据库领域,MySQL 已经深入人心,其开源,高可靠性,高效易于维护的特性,被广为程序员或科技公司青睐。由于 MySQL 的开源时间比较早,已经在生成环境中实际使用了很多。但是 MySQL 的本身定位和适用场景限制,已经逐渐无法适应现在日益增长的数据量。所以现在关于 MySQL 的索引设置,MySQL 的性能优化,以及对整个 MySQL 的数据库或者表的优化也是非常繁多。但是慢查询,插入缓慢,请求假死依然存在。 现在的实际数据量的大幅增长,使得 MySQL 寸步难行,即使非常繁多的索引加速技巧,但是对于新的问题来说依然存在。因此本 Chat 将给出一个 MySQL-ClickHouse 合并使用提高 MySQL 执行的解决方案。 拒绝繁琐的 MySQL 调优,请使用 Clickhouse! 在本场 Chat 中,会讲到如下内容: 1. 搭建 MySQL-Clickhouse 合并使用环境 2. 构建以 MySQL 为主,Clickhouse 为从的批处理解决方案 3. 构建以 MySQL 为数据通道,Clickhouse 为提高实时计算的解决方案 4. 构建以 MySQL 为数据通道,Clickhouse 集群为用户画像分析的场景方案 5. 构建以 MySQL 作为业务输出数据库,Clickhouse 作为计算引擎的解决方案 适合人群: MySQL 的低性能困扰的技术人员和运维人员。
MySQL
129 订阅

MySQL 最优秀的替代品系列之二:Clickhouse 数据库表引擎介绍

ClickHouse 是近年来备受关注的开源列式数据库,主要用于数据分析(OLAP)领域。它是来自于俄罗斯第一大搜索引擎 Yandex。目前已知的一部分大厂都有尝试部署 ClickHouse 到生产环境,用来支持高性能计算和数据存储处理需求。甚至阿里云都率先推出他们的 ClickHouse 托管服务。 上一篇 Chat 简单介绍 ClickHouse 的发展历史和 Clickhouse 的性能特性。并且简单介绍了 ClickHouse 的安装,以及接管 MySQL 数据库。但是对于一个数据库管理系统来说,对于不同的业务类型都会存在不同需求,那么可能需要利用不同的特性以及表引擎特性来承载各种业务需求和承载点。 因此对于 ClickHouse 的表引擎可能需要进行较为系统的了解,因此本场 Chat 中,会讲到如下内容: 1. ClickHouse 的表引擎介绍 2. ClickHouse 的数据库引擎介绍 3. ClickHouse 的表引擎选择及对应承载业务类型 4. Clickhouse 的各种表引擎使用样例 适合人群: 需要对 ClickHouse 或者 OLAP 场景使用的技术人员。
MySQL
146 订阅

MySQL 最优秀的替代品系列之一:Clickhouse 分析型列式数据库介绍

关于数据库领域,MySQL 已经深入人心,其开源,高可靠性,高效易于维护的特性,被广为程序员或科技公司青睐。 但是日益增长的数据量,也暴露了 MySQL 一些性能的短板。现在动不动就是几百 G 的增量数据,让原本的优势当然无存。查询缓慢,插入缓慢,请求假死等等诸多问题,也许让诸多 DBA 苦不堪言。同时由于其不优雅扩展性,导致在构建集群时,极度容易出现各种问题。 当数据量大幅增长时,MySQL 寸步难行,尤其是数据分析(OLAP)领域。但是切换为 NoSQL 数据库,又可能诸多业务需要重写甚至重构。因此本 Chat 将简单介绍一个 MySQL 最优秀的替代数据库:Clickhouse。 ClickHouse 是近年来备受关注的开源列式数据库,主要用于数据分析(OLAP)领域。它是来自于俄罗斯第一大搜索引擎 Yandex。目前已知的一部分大厂都有尝试使用 ClickHouse。包括今日头条,腾讯,携程,快手等都尝试使用部署 ClickHouse 到生产环境,用来支持高性能计算和数据存储处理需求。甚至阿里云都率先推出他们的 ClickHouse 托管服务。 在社区方面,Github 的 star 数量已经达到 9.8K(2016 年开源的)。 在本场 Chat 中,会讲到如下内容: 1. 简单介绍 Clickhouse 历史 2. 简单介绍 Clickhouse 特性和优势及其不足 3. Clickhouse 的安装(单机) 4. Clickhouse 的使用样例 适合人群: 需要对关系型数据库或者 OLAP 场景选型的技术人员。
MySQL
163 订阅

Python 中的黑魔法

Python 目前较为热门的编程语言,由于其较低入门门槛,以及比较友好的学习曲线深受程序员喜欢。各个领域,特别是科研和数据科学领域会有大量使用者。但是日常使用过程可能遇到一些性能或者功能性问题,会严重影响工作效率。因此尝试去了解 Python 中的一些黑魔法可能会显著的提高工作效率。 因此在此主要介绍在 Python 中的一些便捷技巧和功能,以提升使用体验和效率。 在本场 Chat 中,会讲到如下内容: - 简单了解 Python 2 与 Python 3 的特性和区别 - Python 3 的语法糖的使用 - Python 3 的迭代器和生成器的使用 - Python 3 的内置包的特殊用法 - Python 3 的个人工具包分享 适合人群: 对 Python 3 技巧有兴趣的技术人员
Python
173 订阅