clickhouse

发布时间 2023-09-08 09:28:52作者: akia开凯
  • ReplacingMergeTree

ReplacingMergeTree就是在MergeTree的基础上加入了去重的功能,参见ReplacingMergeTree
  • 如何判断数据重复

ReplacingMergeTree在去除重复数据时,是以ORDERBY排序键为基准的,而不是PRIMARY KEY。

  • 何时删除重复数据

在执行分区合并时,会触发删除重复数据。optimize的合并操作是在后台执行的,无法预测具体执行时间点,除非是手动执行。

  • 不同分区的重复数据不会被去重

ReplacingMergeTree是以分区为单位删除重复数据的。只有在相同的数据分区内重复的数据才可以被删除,而不同数据分区之间的重复数据依然不能被剔除。

  • 数据去重的策略是什么
    • 若未指定ver参数,则会保留重复数据中最末的那一行数据
    • 若指定了ver参数,则会保留重复数据中,ver字段最大的那一行,如果两条记录排序键相同,与未指定ver参数时策略相同