前言
总结Hudi Clean Policy清理策略,从源码层面分析如何实现,上一篇文章Hudi Clean 清理文件实现分析从源码层面分析总结了Hudi Clean的整体流程,但是对于和策略有关的获取要删除的文件列表部分没有深入分析,这一篇详细分析KEEP_LATEST_COMMITS
策略是如何实现的。
getEarliestCommitToRetain
获取最早需要保留的commitKEEP_LATEST_FILE_VERSIONS
: 返回空KEEP_LATEST_COMMITS
:如果目前完成状态的commit数小于等于hoodie.cleaner.commits.retained
,则返回空,否则,返回倒数第hoodie.cleaner.commits.retained
(默认10)个.commit
1 | /** |