Normal view

There are new articles available, click to refresh the page.
Before yesterdayMain stream

有没有熟悉 clickhouse 的? clickhouse 对于分布式支持的如何?

By: red13
7 October 2025 at 06:17
red13:

要对一个大数据量的 table 进行查询,不会有复杂的查询逻辑,都是简单的 where 、order by 、group by 、sum 、avg 、count 查询,当前数据量接近 500 亿了,在半年内会增加到一万亿。

目前方案是使用 spark ,我知道 clickhouse 很适合 olap 查询场景并且速度很快,但 clickhouse 对于 10000 亿数据量能扛得住吗?或者 clickhouse 也能很好的支持分布式?

对 clickhouse 了解不是很深入,希望大佬指点

想使用 yaml 代替 sql 进行数据分析,想知道还有没有其他更合适的语法类型?

By: red13
6 October 2025 at 19:47
red13:

要在正在开发中的数据分析引擎上增加使用 yaml 进行数据分析的能力,以代替 sql , 基于以下原因: 1 、对于多维数据模型的分析,sql 只能在二维表关系结构上进行定义( star schema 不等同于逻辑多维结构),并且进行复杂分析时编写 sql 语句存在大量 group by 和 sum(),降低整体描述性; 2 、在进行 join 多个大数据量表(百亿级)进行查询时性能降低,可能需要根据特定查询进行详细调整,这无法支持业务层面的随机性探索式数据分析; 3 、yaml 语法较为简单,且属于纯描述性语法,可以直接描述业务层面语义,通过解析 yaml 直接调用数据分析引擎底层接口,越过 sql ,能提供功能上更强、效率更高的查询能力; 4 、“yaml 代替 sql”以及类似宣传可以作为后期产品宣传的噱头。

目前暂定使用 yaml 代替 sql ,不知道还有没有比 yaml 更合适(普及度高、纯描述性、语法简单)的语法结构?

❌
❌