用户访问ClickHouse,需要默认的客户端clickhouse-client,但是这个工具不够友好:
- 需要额外安装,并且使用上,不是那么nice
- clickhouse-client其实是clickhouse的软连接,即要么全装,要么不用
啥最普及啊?
答:MySQL基本所有的服务器都装了mysql,注意,这里指的是mysql-client,就是那个让你用命令行连接到MySQL服务的那个命令
ProxySQL是众多MySQL中间件中的佼佼者,一直被Percona推崇,最近他们也放出了支持ClickHouse的版本
因此,今天的话题就是:
ClickHouse+ProxySQL = Using ClickHouse like MySQL
ClickHouse基于复制的故障恢复测试
在之前的博客中,我们讨论了ClickHouse的最佳架构,其中考虑了两点
扩展性,即集群机器越多,性能越高,集群性能=∑单机性能
可靠性,通过使用复制机制,来抵抗单机宕机、机房宕机风险
其中第二点,依赖ClickHouse的复制引擎,即ReplicatedMergeTree引擎
在ZK的基础上,共享同一个ZK路径的节点,会相互同步数据本测试主要用来做灾难恢复测试,即集群中某个分片对应的某2个节点挂了一个,新增一个节点,存量数据同步情况和效率
为了保证测试有价值,找了一个15亿行数据的表,数据文件22GB
测试环境
- 如图,基于ZK构建了两组集群
- 两侧看做2个集群,数据各占1/3,使用分布式引擎做横向扩展
- 其中Node1和Node1’、Node2和Node2’、Node3和Node3’使用复制引擎,相互做备份
- 现在假设Node3出现了宕机,新增一个节点,观察数据同步的过程是否符合预期
ClickHouse集群搭建从0到1
阅读此文,你将得到什么:
ClickHouse安装的2种方法,以及背后的坑
一步步帮你实现ClickHouse从单机到集群化,以及集群化的原理、配置文件等
集群化的2种方案,孰优孰劣
如有疑问,请留言或者联系我
组件介绍
- ClickHouse安装完后,会有几个重要命令:
- clickhouse-server ClickHouse的Server端,也就是CK数据库的核心程序,相当于mysqld命令,提供数据库服务端
- clickhouse-client ClickHouse自带的client端,提供命令行的交互操作方式,来连接服务端,相当于mysql命令
ClickHouse用户名密码设置
大家都说大数据有价值,但是,有多少人给大数据加了锁?
ClickHouse集群,目前线上的都是裸奔,如果对方恶意请求数据,甚至删掉某些数据,就悲剧了
Config概览
- 配置文件:user.xml
- 核心配置3部分
- profile配置,最大内存、负载方式等(没有特别关注,可见官方文档)
- 配额设置,单个用户最大能用的资源多少(没有特别关注,可见官方文档)
- 用户设置,包括用户名和密码
- 密码有2种,一种是明文,一种是写sha256sum的Hash值
- 官方不建议直接写明文密码
ClickHouse主键探讨[译文+补充]
原文:点这里
该文章原文是俄文,被人翻译成了英文,整体风格略显生硬。不喜欢看的,可以直接跳过,看最后我增加的结论。
另外,感谢@张健同学(一个着迷于源码的小鲜肉)的大力帮助~翻译有误请指正~
ClickHouse是来自“战斗民族”的高性能分析性数据库,圈内人戏称为“喀秋莎数据库”。
Altinity是国外一家从事ClickHouse咨询、服务的公司,该公司高管由ClickHouse开发者,以及来自Percona的专家组成。目前Altinity的ClickHouse云服务测试版已经上线。
本文背景
- Our guest author is ClickHouse evangelist Yegor Andreenko. Follow him on Twitter @f1yegor.
- This is a cross-post from: (https://medium.com/@f1yegor/clickhouse-primary-keys-2cf2a45d7324)
- Special thanks to Alexey Milovidov, ClickHouse developer, for providing material for this article.
译文
- 我们的客座嘉宾,是ClickHouse的布道师 Yegor Andreenko,这是他的Twitter:@f1yegor
- 这篇文章是从这里转载过来的: https://medium.com/@f1yegor/clickhouse-primary-keys-2cf2a45d7324
- 特别感谢ClickHouse的开发者Alexey Milovidov为本文提供的原始素材。
ClickHouse导入CSV文件跳过错误【译文】
翻译有误请指正~
ClickHouse是来自“战斗民族”的高性能分析性数据库,圈内人戏称为“喀秋莎数据库”。
背景
- 有人导入700G的CSV文件,结果因为一些行异常,导入失败,报错:
|
|
很明显是因为一些特殊字段导致的(译者注)
于是在Google Groups里提问是否有跳过错误的参数。
ClickHouse数据压缩[译文]
原文:https://www.altinity.com/blog/2017/11/21/compression-in-clickhouse
Altinity是国外一家从事ClickHouse咨询、服务的公司,该公司高管由ClickHouse开发者,以及来自Percona的专家组成。目前Altinity的ClickHouse云服务测试版已经上线。
综述
It might not be obvious from the start, but ClickHouse supports different kinds of compressions, namely two LZ4 and ZSTD.
There are evaluations for both of these methods: https://www.percona.com/blog/2016/04/13/evaluating-database-compression-methods-update/
But in short, LZ4 is fast but provides smaller compression ratio comparing to ZSTD. While ZSTD is slower than LZ4, it is often faster and compresses better than a traditional Zlib, so it might be considered as a replacement for Zlib compression.
- 其实,从一开始ClickHouse就支持多种方式的数据压缩:LZ4和ZSTD。
- 关于压缩算法的测试,见这篇文章。简而言之,LZ4在速度上会更快,但是压缩率较低,ZSTD正好相反。尽管ZSTD比LZ4慢,但是相比传统的压缩方式Zlib,无论是在压缩效率还是速度上,都可以作为Zlib的替代品。
Mac OS上免费的NTFS驱动
Mac NTFS Free
Mac OS下,使用NTFS的磁盘,是一件很痛苦的事情
默认系统是只读,并不支持修改操作市面上常见的2个商用产品是:Paragon NTFS 和 Tuxera NTFS
前一款外观精美,是非常推荐的,然而价格动不动就要149
后者,据说就是依赖开源的NTFS-3G而来接下来,让我们用几条命令,来搞定免费的NTFS驱动
1. install brew
如果是Mac老用户,这一步应该都可以跳过了吧
|
|
数据分析的黑马-ClickHouse介绍
- 当所有人都在谈论,如何用Hadoop、Spark这些巨无霸组件来分析大数据的时候,远在西伯利亚的战斗民族,开发了一个极具吸引力的数据仓库:ClickHouse
- 如同上面的动图,ClickHouse是一个:
- 列式存储数据库
- 关系型
- 巨快无比
- 分布式
- 高可用
- PB级别
- 后续的文章,会逐步介绍ClickHouse这个好用的工具,真正能让好的工具服务我们的工作
给IT人看的科普视频
做个youtube搬运工,发一些IT科普视频。
视频涉及到一些硬件原理,比如机械硬盘,SSD新技术。
还有一些纯科普的东西,比如SSD是怎么制造的,内存是怎么制造的,Intel是怎么把沙子变成CPU的。
视频来自youtube,很多都是厂商自己制作的,比如镁光、三星、Intel,还有一些是网友自制视频,都是精华。