Jack Gao's Blog

All great achievements require time.


  • 首页

  • 标签

  • 分类

  • 归档

  • 关于

  • 搜索

Using ClickHouse like MySQL by ProxySQL

发表于 2017-12-19 | 分类于 ClickHouse |

用户访问ClickHouse,需要默认的客户端clickhouse-client,但是这个工具不够友好:

  1. 需要额外安装,并且使用上,不是那么nice
  2. clickhouse-client其实是clickhouse的软连接,即要么全装,要么不用

啥最普及啊?
答:MySQL

基本所有的服务器都装了mysql,注意,这里指的是mysql-client,就是那个让你用命令行连接到MySQL服务的那个命令

ProxySQL是众多MySQL中间件中的佼佼者,一直被Percona推崇,最近他们也放出了支持ClickHouse的版本

因此,今天的话题就是:
ClickHouse+ProxySQL = Using ClickHouse like MySQL

阅读全文 »

ClickHouse基于复制的故障恢复测试

发表于 2017-12-18 | 分类于 ClickHouse |

数据恢复

在之前的博客中,我们讨论了ClickHouse的最佳架构,其中考虑了两点

  1. 扩展性,即集群机器越多,性能越高,集群性能=∑单机性能

  2. 可靠性,通过使用复制机制,来抵抗单机宕机、机房宕机风险

其中第二点,依赖ClickHouse的复制引擎,即ReplicatedMergeTree引擎
在ZK的基础上,共享同一个ZK路径的节点,会相互同步数据

本测试主要用来做灾难恢复测试,即集群中某个分片对应的某2个节点挂了一个,新增一个节点,存量数据同步情况和效率

为了保证测试有价值,找了一个15亿行数据的表,数据文件22GB

测试环境

  • 如图,基于ZK构建了两组集群
    • 两侧看做2个集群,数据各占1/3,使用分布式引擎做横向扩展
    • 其中Node1和Node1’、Node2和Node2’、Node3和Node3’使用复制引擎,相互做备份
    • 现在假设Node3出现了宕机,新增一个节点,观察数据同步的过程是否符合预期
阅读全文 »

ClickHouse集群搭建从0到1

发表于 2017-12-13 | 分类于 ClickHouse |

giphy

阅读此文,你将得到什么:

  1. ClickHouse安装的2种方法,以及背后的坑

  2. 一步步帮你实现ClickHouse从单机到集群化,以及集群化的原理、配置文件等

  3. 集群化的2种方案,孰优孰劣

如有疑问,请留言或者联系我

组件介绍

  • ClickHouse安装完后,会有几个重要命令:
    1. clickhouse-server ClickHouse的Server端,也就是CK数据库的核心程序,相当于mysqld命令,提供数据库服务端
    2. clickhouse-client ClickHouse自带的client端,提供命令行的交互操作方式,来连接服务端,相当于mysql命令
阅读全文 »

ClickHouse用户名密码设置

发表于 2017-12-12 | 分类于 ClickHouse |

大家都说大数据有价值,但是,有多少人给大数据加了锁?

ClickHouse集群,目前线上的都是裸奔,如果对方恶意请求数据,甚至删掉某些数据,就悲剧了

Config概览

  • 配置文件:user.xml
  • 核心配置3部分
    1. profile配置,最大内存、负载方式等(没有特别关注,可见官方文档)
    2. 配额设置,单个用户最大能用的资源多少(没有特别关注,可见官方文档)
    3. 用户设置,包括用户名和密码
      • 密码有2种,一种是明文,一种是写sha256sum的Hash值
      • 官方不建议直接写明文密码
阅读全文 »

ClickHouse主键探讨[译文+补充]

发表于 2017-12-06 | 分类于 ClickHouse |

原文:点这里

该文章原文是俄文,被人翻译成了英文,整体风格略显生硬。不喜欢看的,可以直接跳过,看最后我增加的结论。
另外,感谢@张健同学(一个着迷于源码的小鲜肉)的大力帮助~

翻译有误请指正~

ClickHouse是来自“战斗民族”的高性能分析性数据库,圈内人戏称为“喀秋莎数据库”。

Altinity是国外一家从事ClickHouse咨询、服务的公司,该公司高管由ClickHouse开发者,以及来自Percona的专家组成。目前Altinity的ClickHouse云服务测试版已经上线。

本文背景

  • Our guest author is ClickHouse evangelist Yegor Andreenko. Follow him on Twitter @f1yegor.
  • This is a cross-post from: (https://medium.com/@f1yegor/clickhouse-primary-keys-2cf2a45d7324)
  • Special thanks to Alexey Milovidov, ClickHouse developer, for providing material for this article.

译文

  • 我们的客座嘉宾,是ClickHouse的布道师 Yegor Andreenko,这是他的Twitter:@f1yegor
  • 这篇文章是从这里转载过来的: https://medium.com/@f1yegor/clickhouse-primary-keys-2cf2a45d7324
  • 特别感谢ClickHouse的开发者Alexey Milovidov为本文提供的原始素材。
阅读全文 »

ClickHouse导入CSV文件跳过错误【译文】

发表于 2017-12-03 | 分类于 ClickHouse |

原文

翻译有误请指正~

ClickHouse是来自“战斗民族”的高性能分析性数据库,圈内人戏称为“喀秋莎数据库”。

背景

  • 有人导入700G的CSV文件,结果因为一些行异常,导入失败,报错:
1
2
3
Code: 27. DB::Exception: Cannot parse input: expected ,
before: an,,113.143.235.107,,,
https://ads.diamonds/c/3b4336c6-db9a-11e5-bea8-021988c520a1?cid=%COOKIEID&campaignid=%HASH_CODE&pubid=%ADD_CODE&subid=%PLACEMENT,2017-09-0: (at row 865704)
  • 很明显是因为一些特殊字段导致的(译者注)

  • 于是在Google Groups里提问是否有跳过错误的参数。

阅读全文 »

ClickHouse数据压缩[译文]

发表于 2017-11-28 | 分类于 ClickHouse |

原文:https://www.altinity.com/blog/2017/11/21/compression-in-clickhouse
Altinity是国外一家从事ClickHouse咨询、服务的公司,该公司高管由ClickHouse开发者,以及来自Percona的专家组成。目前Altinity的ClickHouse云服务测试版已经上线。

综述

It might not be obvious from the start, but ClickHouse supports different kinds of compressions, namely two LZ4 and ZSTD.

There are evaluations for both of these methods: https://www.percona.com/blog/2016/04/13/evaluating-database-compression-methods-update/
But in short, LZ4 is fast but provides smaller compression ratio comparing to ZSTD. While ZSTD is slower than LZ4, it is often faster and compresses better than a traditional Zlib, so it might be considered as a replacement for Zlib compression.

  • 其实,从一开始ClickHouse就支持多种方式的数据压缩:LZ4和ZSTD。
  • 关于压缩算法的测试,见这篇文章。简而言之,LZ4在速度上会更快,但是压缩率较低,ZSTD正好相反。尽管ZSTD比LZ4慢,但是相比传统的压缩方式Zlib,无论是在压缩效率还是速度上,都可以作为Zlib的替代品。
阅读全文 »

Mac OS上免费的NTFS驱动

发表于 2017-11-19 | 分类于 MacOS |

Mac NTFS Free

Mac OS下,使用NTFS的磁盘,是一件很痛苦的事情
默认系统是只读,并不支持修改操作

市面上常见的2个商用产品是:Paragon NTFS 和 Tuxera NTFS

前一款外观精美,是非常推荐的,然而价格动不动就要149
后者,据说就是依赖开源的NTFS-3G而来

接下来,让我们用几条命令,来搞定免费的NTFS驱动

1. install brew

如果是Mac老用户,这一步应该都可以跳过了吧

1
/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
阅读全文 »

数据分析的黑马-ClickHouse介绍

发表于 2017-11-13 | 分类于 ClickHouse |

clickhouse

  • 当所有人都在谈论,如何用Hadoop、Spark这些巨无霸组件来分析大数据的时候,远在西伯利亚的战斗民族,开发了一个极具吸引力的数据仓库:ClickHouse
  • 如同上面的动图,ClickHouse是一个:
    1. 列式存储数据库
    2. 关系型
    3. 巨快无比
    4. 分布式
    5. 高可用
    6. PB级别
  • 后续的文章,会逐步介绍ClickHouse这个好用的工具,真正能让好的工具服务我们的工作

给IT人看的科普视频

发表于 2017-02-25 | 分类于 硬件 |

  • 做个youtube搬运工,发一些IT科普视频。

  • 视频涉及到一些硬件原理,比如机械硬盘,SSD新技术。

  • 还有一些纯科普的东西,比如SSD是怎么制造的,内存是怎么制造的,Intel是怎么把沙子变成CPU的。

  • 视频来自youtube,很多都是厂商自己制作的,比如镁光、三星、Intel,还有一些是网友自制视频,都是精华。

阅读全文 »
123
Jack Gao

Jack Gao

Done is better than perfect!

28 日志
9 分类
43 标签
Weibo
© 2018 Jack Gao
由 Hexo 强力驱动
主题 - NexT.Pisces