ClickHouse Roadmap 2018~2019(整理)

内容来自 https://github.com/yandex/clickhouse-presentations/tree/master/roadmap2018

直接Google翻译的俄文,没做修改,仅用于看明大意

综合来看,CK将在资源管理、资源使用、ML方面有更好的提升,非常期待

2018年12月

生产中的LowCardinality数据类型。

在各列级别上选择压缩算法。

导入JSONEachRow时支持可计算的DEFAULT表达式。

镶木地板格式支持导入和导出。

2019年1月

使用表函数将数据导入/导出到HDFS

使用表函数在S3中导入/导出数据。

能够将新列添加
到MergeTree表的排序键。

减少ZooKeeper中的元数据量。

2019年2月

通过DDL查询创建字典的能力。

MergeTree表中索引的自适应粒度。

访问权限管理

表,列和行级别的访问限制
(行级安全性)。

访问控制角色模型(RBAC)。

能够连接外部
身份验证系统(LDAP,Kerberos)。

资源共享请求

可配置的资源池:CPU,IO,网络,RAM的份额。

开发支持JOIN

多个JOIN而不使用嵌套子查询。

合并JOIN以连接非常大的集合。

Bucket-Shuffle JOIN用于优化大型分布式JOIN。

(2019年春/夏)

二级索引

确切地说,是用于跳过数据的索引结构。

最小/最大,不同值,微布隆过滤器。

机器学习方法

作为聚合函数

能够
直接在ClickHouse中创建和应用模型。

关键列的ORDER BY和GROUP BY优化。

SELECT * FROM sensors ORDER BY time DESC LIMIT 10

扩大使用地理数据的机会

使用geohash的函数。

用于搜索的多边形词典(按位置的区域请求)。

高级字符串算法

半共享模糊搜索的最小哈希算法。

快速匹配大量子串。

能够创建其他结构以加速对字符串中的子串的强力搜索。

将数据存储在多个部分中

在SSD和HDD上分离热数据和冷数据。

能够使用JBOD。

适当缓冲MergeTree

摆脱频繁插入的问题。

热评文章