lucene DocValues之SortedDocValues Publish on: 2023-09-05 Classify at: lucene Comments: 整体思路 为了方便理解 SortedDocValues 的存储原理,本节将通过一个简单的例子来讲解并构造一种简易的存储结构,意在理清 SortedDocValues 的设计思路。 SortedDocValues 要存的是 docIDs 及其对应的 fie
问题记录 - 谁偷走了我的内存 Publish on: 2023-08-30 Classify at: java Comments: 背景交代 今天在 idea intellij 调试自己开发的 Elasticsearch 插件时,发现一个奇怪的问题。正常 run 的时候,结果没有一点问题,但是 debug 时,老是出现变量内容丢失的问题。刚开始以
高效内存索引:Adaptive Radix Tree Publish on: 2023-07-26 Classify at: 数据库 Comments: 自适应基数树(Adaptive Radix Tree)是一种高效的数据结构,用于存储和检索键值对。它是一种自适应的树结构,根据实际数据的分布情况来调整内
WiscKey: Separating Keys from Values in SSD-Conscious Storage 论文解读 Publish on: 2023-06-22 Classify at: 数据库 Comments: 1 介绍 LSM-tree(Log-Structured Merge Tree)是一种常见的数据结构,其具备高效的写入性能和较好的查询能力,很多键值数据库选
DuckDB:高性能并行分组聚合 Publish on: 2023-06-09 Classify at: 数据库 Comments: 分组聚合对于 OLAP 数据库来说是一个核心的分析算子,常常用于对大规模数据集做分组统计。针对这样一个重要算子,DuckDB 也是做了深度地优化。本文将
lucene DocValues之NumericDocValues Publish on: 2023-05-28 Classify at: 搜索引擎 Comments: 其实多年前就已经研究过这块内容,但是久了不看有所遗忘,正好近期工作内容和 lucene 的 DocValues (即列存)打交道比较频繁,顺便记录分享相关内容。本章先介绍最简
Fastest table sort in the West - Redesigning DuckDB’s sort Publish on: 2023-04-16 Classify at: 数据库 Comments: 本文是阅读 DuckDB 技术博客 《Fastest table sort in the West - Redesigning DuckDB’s sort》 后的翻译,同时插入了个人的理解和总结。 提到排序,可能很多同学会觉
Main-Memory Hash Joins on Multi-Core CPUs/ Tuning to the Underlying Hardware 论文解读 Publish on: 2023-03-23 Classify at: 数据库 Comments: 这篇论文介绍了如何在多核 CPU 上结合底层硬件参数(能力)调优 Main-Memory Hash Joins 算法。 介绍 hash join 是一种常见的数据库操作,用于将两个表中的行通过一个共同的 join 键连接
深入理解 Elasticsearch 分页技术 Publish on: 2023-02-19 Classify at: 搜索引擎 Comments: Elasticsearch 是一款分布式的搜索引擎,提供了灵活的分页技术。本文主要介绍 Elasticsearch(简称 ES) 的几种分页技术,并深入分析各种分页技术的优
Merge Path - A Visually Intuitive Approach to Parallel Merging 论文解读 Publish on: 2023-02-15 Classify at: 数据库 Comments: 在看DuckDB技术博客时,了解到这篇论文。文章提出的算法非常实用,在工程实践中应用效果也很好。本文主要对论文核心部分进行解读,并会根据自己