Jack Gao's Blog

All great achievements require time.


  • 首页

  • 标签

  • 分类

  • 归档

  • 关于

  • 搜索

ClickHouse Roadmap 2018~2019(整理)

发表于 2018-11-27 | 分类于 ClickHouse |

内容来自 https://github.com/yandex/clickhouse-presentations/tree/master/roadmap2018

直接Google翻译的俄文,没做修改,仅用于看明大意

综合来看,CK将在资源管理、资源使用、ML方面有更好的提升,非常期待

2018年12月

生产中的LowCardinality数据类型。

在各列级别上选择压缩算法。

导入JSONEachRow时支持可计算的DEFAULT表达式。

镶木地板格式支持导入和导出。

2019年1月

使用表函数将数据导入/导出到HDFS。

使用表函数在S3中导入/导出数据。

能够将新列添加
到MergeTree表的排序键。

减少ZooKeeper中的元数据量。

2019年2月

通过DDL查询创建字典的能力。

MergeTree表中索引的自适应粒度。

访问权限管理

表,列和行级别的访问限制
(行级安全性)。

访问控制角色模型(RBAC)。

能够连接外部
身份验证系统(LDAP,Kerberos)。

阅读全文 »

Notice

发表于 2018-10-08 |

由于七牛云存储随意下线测试域名,导致博客所有图片不可用。现无限期验证本博客的修复时间……

ClickHouse 18.12.13-2018-09-10版本新特性解析

发表于 2018-09-16 | 分类于 ClickHouse |

ClickHouse的发版速度是众所周知的快
在最近,他们正式发出了18.12.13-2018-09-10版本
相关的CHANGELOG更是多的吓人
为了能够更好的使用新版特性,特做了详细的介绍

其中新特性部分,为人工翻译、校对,毕竟这部分内容是重点,后面为Google翻译

阅读全文 »

可能是目前颜值最高的开源BI工具-Superset

发表于 2018-05-30 |

没有声音,再好的戏也出不来
同样,没有可视化,再好的数据分析也不完美

数据可视化是大数据的『最后一公里』

简介

  • Superset的Airbnb开源的数据可视化工具,目前属于Apache孵化器项目,主要用于数据分析师进行数据可视化工作
    • PS,Airbnb在数据方面做的很棒,相关的博客B格也很高,他们的博客名字居然叫『Airbnb Engineering & Data Science』,可见对于数据科学的重视
阅读全文 »

34页PPT掌握ClickHouse的数据复制

发表于 2018-05-22 | 分类于 ClickHouse |

ClickHouse提供了非常高级的基于ZK的表复制方式,同时也提供了基于Cluster的复制方式

二者非常容易搞混

特写此PPT来说明

ClickHouse复制简单说明.001
ClickHouse复制简单说明.002

阅读全文 »

如何更好的衡量IT服务质量?

发表于 2018-03-13 | 分类于 APM |

还在用平均响应时间衡量你的业务KPI?

看看新的指标吧~

关于性能

  • 作为互联网后端大军的一员,除了应对日常的各种需求工作,同时还要有效的保障自己手里的服务质量,如何衡量服务质量的优劣(SLA),目前有常见的几种方式:

1. MTBF

  • 即平均无故障时间,也就是常见的N个9问题,如5个9的可用性,全年可宕机时间就是5分钟,详见下图,这里不做讨论:

阅读全文 »

使用ClickHouse一键接管MySQL数据分析

发表于 2018-02-04 | 分类于 ClickHouse |

甘道夫

  • 为啥有这篇文章?
    • 很多人好奇ClickHouse,都听说过很快,但是到底有多恐怖?
    • 新建表还要理解ClickHouse的引擎和数据类型,好麻烦
    • 今天,用一个简单粗暴的功能,帮你一键导入MySQL的数据,无需人肉建表

数据导入

第一组

1
2
3
4
5
6
7
8
9
10
11
12
# du出的表大小
5.5G article_clientuser_sum.ibd
# ClickHouse操作语句
CREATE TABLE article_clientuser_sum
ENGINE = MergeTree
ORDER BY id AS
SELECT *
FROM mysql('host:port', 'db', 'article_clientuser_sum', 'user', 'password')
# 耗时和平均速度
0 rows in set. Elapsed: 137.251 sec. Processed 18.59 million rows, 7.34 GB (135.43 thousand rows/s., 53.48 MB/s.)

阅读全文 »

ClickHouse Beijing Meetup--数据分析领域的黑马-ClickHouse

发表于 2018-01-28 | 分类于 ClickHouse |

数据分析领域的黑马-ClickHouse-新浪-高鹏-2018年01月27日.001

数据分析领域的黑马-ClickHouse-新浪-高鹏-2018年01月27日.002

阅读全文 »

Hangout with ClickHouse【转载】

发表于 2017-12-27 | 分类于 ClickHouse |

ClickHouse作为我们的重要数据仓库,接收了大量用于统计、分析的日志。

那么这些数据是怎么进到ClickHouse的?

在我们内部,ELK架构用的是比较多的,准确的来讲,是EHK,我们用Hangout替代了传统的Logstash。

因此,在Hangout的基础上,我们开发了针对ClickHouse的数据写入插件,很轻松的完成海量数据的日志接入。

本文作者@rickyChe,新浪大数据开发工程师,原文地址:Hangout with ClickHouse

阅读全文 »

ClickHouse奇技淫巧系列之SQL查文件

发表于 2017-12-22 | 分类于 ClickHouse |

没有什么是1个SQL解决不了的

今天的主题,不用写序言,看上图就懂

阅读全文 »
123
Jack Gao

Jack Gao

Done is better than perfect!

28 日志
9 分类
43 标签
Weibo
© 2018 Jack Gao
由 Hexo 强力驱动
主题 - NexT.Pisces