-
ReplacingMergeTree
ReplacingMergeTree就是在MergeTree的基础上加入了去重的功能,参见ReplacingMergeTree
- 如何判断数据重复
ReplacingMergeTree在去除重复数据时,是以ORDERBY排序键为基准的,而不是PRIMARY KEY。
- 何时删除重复数据
在执行分区合并时,会触发删除重复数据。optimize的合并操作是在后台执行的,无法预测具体执行时间点,除非是手动执行。
- 不同分区的重复数据不会被去重
ReplacingMergeTree是以分区为单位删除重复数据的。只有在相同的数据分区内重复的数据才可以被删除,而不同数据分区之间的重复数据依然不能被剔除。
- 数据去重的策略是什么
-
- 若未指定ver参数,则会保留重复数据中最末的那一行数据
- 若指定了ver参数,则会保留重复数据中,ver字段最大的那一行,如果两条记录排序键相同,与未指定ver参数时策略相同