OOIR: Observatory of International Research

Papers

(The median citation count of Proceedings of the Vldb Endowment is 3. The table below lists those papers that are above that threshold based on CrossRef citation counts [max. 250 papers]. The publications cover those that have been published in the past four years, i.e., from 2022-06-01 to 2026-06-01.)

Article	Citations
IsoBugView	309
Cardinality Estimation for Having-Clauses	204
How to Optimize SQL Queries? A Comparison Between Split, Holistic, and Hybrid Approaches	170
Shifting Transaction Isolation on Graphs: From Systems to Data	129
Efficient Discovery of Relaxed Functional Dependencies	116
Fries	113
A Reproducible Tutorial on Reproducibility in Database Systems Research	99
QPJVis Demo: Quality-Boost Progressive Join Query Processing System	95
Breathing New Life into an Old Tree: Resolving Logging Dilemma of B ⁺ -tree on Modern Computational Storage Drives	89
ConANN: Conformal Approximate Nearest Neighbor Search	78
DyHealth	75
Solver-In-The-Loop Cluster Resource Management for Database-as-a-Service	73
Resilience-Aware Elastic Scaling for Cloud-Native Online DL Training on Multi-Tenant GPU Clusters	69
TRIM: An Efficient Framework for Exact Eccentricity Computation on Large-Scale Graphs	67
Approximating probabilistic group steiner trees in graphs	67
OmniSketch: Efficient Multi-Dimensional High-Velocity Stream Analytics with Arbitrary Predicates	67
Differentially Private Stream Processing at Scale	66
VeriBench: Analyzing the Performance of Database Systems with Verifiability	65
SkyStore: Cost-Optimized Object Storage Across Regions and Clouds	65
Cloudy with a Chance of JSON	64
Privacy for Free: Leveraging Local Differential Privacy Perturbed Data from Multiple Services	63
Accelerating Subgraph Matching through Fine-Grained and Powerful Equivalences	63
G-tran	61
Efficient Graph Data Access for Out-of-Memory GPU Streaming Graph Processing	61
Algorithm and system co-design for efficient subgraph-based graph representation learning	59

Timestamp as a Service, Not an Oracle	58
Motiflets	56
DuckDB-wasm	55
PARQO: Penalty-Aware Robust Plan Selection in Query Optimization	54
Towards Designing and Learning Piecewise Space-Filling Curves	54
Reliable community search in dynamic networks	53
Spectrum: Speedy and Strictly-Deterministic Smart Contract Transactions for Blockchain Ledgers	53
Influential Community Search over Large Heterogeneous Information Networks	51
Neighborhood-Based Hypergraph Core Decomposition	50
Galvatron	50
Unify: A System For Unstructured Data Analytics	48
Unraveling the Impact of Window Semantics: Optimizing Join Order for Efficient Stream Processing	45
Efficient Distributed Transaction Processing in Heterogeneous Networks	45
GaussDB: A Cloud-Native Multi-Primary Database with Compute-Memory-Storage Disaggregation	44
Opportunities for Quantum Acceleration of Databases: Optimization of Queries and Transaction Schedules	44
TSB-AutoAD: Towards Automated Solutions for Time-Series Anomaly Detection	44
Relational Data Models for Genetic VCF data	43
POEM	42
LION: Fast and High-Resolution Network Kernel Density Visualization	42
Exploiting the Power of Equality-Generating Dependencies in Ontological Reasoning	41
DoppelGanger++ in Action: A Database Replay System with Fast Dependency Graph Generation	41
A Comprehensive Survey and Experimental Study of Learning-Based Community Search	40
Efficient Non-Learning Similar Subtrajectory Search	38
DARKER: Efficient Transformer with Data-Driven Attention Mechanism for Time Series	38
Hardware-Efficient Data Imputation through DBMS Extensibility	38
Demonstrating Waffle: A Self-Driving Grid Index	38
TsQuality: Measuring Time Series Data Quality in Apache IoTDB	37
DPXPlain	37
SUFF: Accelerating Subgraph Matching with Historical Data	37
SQL Engines Excel at the Execution of Imperative Programs	37
Bonspiel: Low Tail Latency Transactions in Geo-Distributed Databases	37
FairDAG: Consensus Fairness over Multi-Proposer Causal Design	37
Trie memtables in cassandra	37
Federated Data Distribution Shift Estimation	37
LiBox: A Learned Index as an Array to Minimize Last-Mile Search	36
Plush	35
Seiden: Revisiting Query Processing in Video Database Systems	35
TPCx-AI under the Microscope: A Benchmarking Debt Analysis	35
LIO: A Lightweight and Interpretable Query Optimizer based on an Evolutionary Forest	35
Cuckoo Heavy Keeper and the Balancing Act of Maintaining Heavy Hitters in Stream Processing	34
LogLite: Lightweight Plug-and-Play Streaming Log Compression	34
VeLP: Vehicle Loading Plan Learning from Human Behavior in Nationwide Logistics System	34
PSFQ: A Blockchain-Based Privacy-Preserving and Verifiable Student Feedback Questionnaire Platform	34
SAIL: A Voyage to Symbolic Approximation Solutions for Time-Series Analysis	33
Databases Unbound: Querying All of the World's Bytes with AI	33
Fast Verification of Strong Database Isolation	33
LIDER	33
Hermes: Off-the-Shelf Real-Time Transactional Analytics	33
IsoVista: Black-Box Checking Database Isolation Guarantees	33
Improving matrix-vector multiplication via lossless grammar-compressed matrices	33

Eureka: Enabling Fine-Grained Access and Range Queries on Compressed Scientific Data via Data-Index Co-Compression	33
SingleStore-V: An Integrated Vector Database System in SingleStore	33
Making CRDTs Not So Eventual	33
Approximate Queries over Concurrent Updates	33
HAIChart: Human and AI Paired Visualization System	32
HyperBlocker: Accelerating Rule-Based Blocking in Entity Resolution Using GPUs	32
bNDCRepair: Cleaning both Data Errors and Inaccurate Constraints on Numerical Sequential Data	32
A demonstration of multi-region CockroachDB	32
LITS: An Optimized Learned Index for Strings	32
Scalable Reasoning on Document Stores via Instance-Aware Query Rewriting	32
A Practical Theory of Generalization in Selectivity Learning	31
GalaxyWeaver: Autonomous Table-to-Graph Conversion and Schema Optimization with Large Language Models	31
SparkCAD	31
Dealing with Acronyms, Abbreviations, and Typos in Real-World Entity Matching	31
Simulating a Transactional Server for Multi-Model Systems	31
Vive la Différence: Practical Diff Testing of Stateful Applications	30
FastMosaic in Action: A New Mosaic Operator for Array DBMSs	30
HADES: Range-Filtered Private Aggregation on Public Data	30
FSMDTW: A Fast Index-Free Subsequence Matching Algorithm for Dynamic Time Warping	30
Learned Static Function Data Structures	29
FS-Real: A Real-World Cross-Device Federated Learning Platform	29
Serving deep learning models with deduplication from relational databases	29
Petabyte-Scale Row-Level Operations in Data Lakehouses	29
KGNav: A Knowledge Graph Navigational Visual Query System	29
Biathlon: Harnessing Model Resilience for Accelerating ML Inference Pipelines	29
Enriching Relations with Additional Attributes for ER	29
Oasis: An Optimal Disjoint Segmented Learned Range Filter	28
From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying	28
Hercules against data series similarity search	28
Efficient and Accurate SimRank-Based Similarity Joins: Experiments, Analysis, and Improvement	28
Decentralized Actor Scheduling and Reference-Based Storage in Xorbits: A Native Scalable Data Science Engine	28
Less is More: Efficient Time Series Dataset Condensation via Two-Fold Modal Matching	28
Efficient Approximation of Certain and Possible Answers for Ranking and Window Queries over Uncertain Data	28
LavaStore: ByteDance's Purpose-Built, High-Performance, Cost-Effective Local Storage Engine for Cloud Services	28
XDB in Action: Decentralized Cross-Database Query Processing for Black-Box DBMSes	27
CMixing: An Efficient Coin Mixing Platform to Enhance Anonymity in Cryptocurrency Transactions	27
Win-Win: On Simultaneous Clustering and Imputing over Incomplete Data	26
VIDEX: A Disaggregated and Extensible Virtual Index for the Cloud and AI Era	26
Optimal Sharding for Scalable Blockchains with Deconstructed SMR	26
Navigating Data Repositories: Utilizing Line Charts to Discover Relevant Datasets	26
TATA: An Efficient Framework for Task Transfer in Query Plan Representation	26
Kora: A Cloud-Native Event Streaming Platform for Kafka	26
Succinct graph representations as distance oracles	26
Enhancing Accuracy for Super Spreader Identification in High-Speed Data Streams	26
Toward Quantity-of-Interest Preserving Lossy Compression for Scientific Data	25
PerMA-bench	25
CoroGraph: Bridging Cache Efficiency and Work Efficiency for Graph Algorithm Execution	25
Saving Money for Analytical Workloads in the Cloud	25
Discovering Leitmotifs in Multidimensional Time Series	24
DBAIOps: A Reasoning LLM-Enhanced Database Operation and Maintenance System using Knowledge Graphs	24
Optimizing machine learning inference queries with correlative proxy models	24
Sparcle: Boosting the Accuracy of Data Cleaning Systems through Spatial Awareness	24
MLP-Mixer based Masked Autoencoders are Effective, Explainable and Robust for Time Series Anomaly Detection	24
Instance-Optimal Acyclic Join Processing Without Regret: Engineering the Yannakakis Algorithm in Column Stores	24
FARGO: Fast Maximum Inner Product Search via Global Multi-Probing	24
ALECE: An Attention-based Learned Cardinality Estimator for SPJ Queries on Dynamic Workloads	24
Design trade-offs for a robust dynamic hybrid hash join	24
ACTA: Autonomy and Coordination Task Assignment in Spatial Crowdsourcing Platforms	24
ContTune: Continuous Tuning by Conservative Bayesian Optimization for Distributed Stream Data Processing Systems	24
BURST: Rendering Clustering Techniques Suitable for Evolving Streams	24
Sphinteract: Resolving Ambiguities in NL2SQL through User Interaction	23
DINOMO	23
Dalton	23
CORE-Sketch: On Exact Computation of Median Absolute Deviation with Limited Space	23
Expanding Reverse Nearest Neighbors	23
OneProvenance: Efficient Extraction of Dynamic Coarse-Grained Provenance from Database Query Event Logs	23
RICH: Real-Time Identification of Negative Cycles for High-Efficiency Arbitrage	23
ETC: Efficient Training of Temporal Graph Neural Networks over Large-Scale Dynamic Graphs	23
Cloud data systems	22
Unleash the Power of Ellipsis: Accuracy-Enhanced Sparse Vector Technique with Exponential Noise	22
Pyneapple-G: Scalable Spatial Grouping Queries	22
Fused Gromov-Wasserstein Alignment for Graph Edit Distance Computation and Beyond	22
Window Function Expression: Let the Self-Join Enter	22
TuskFlow: An Efficient Graph Database for Long-Running Transactions	22
SCompression: Enhancing Database Knob Tuning Efficiency Through Slice-Based OLTP Workload Compression	22
Saturn: An Optimized Data System for Multi-Large-Model Deep Learning Workloads	22
Demo of QueryBooster: Supporting Middleware-Based SQL Query Rewriting as a Service	22
QuoteInspector: Gaining Insight about Social Media Discussions	22
Starry	22
Falcon: Advancing Asynchronous BFT Consensus for Lower Latency and Enhanced Throughput	22

RCRank: Multimodal Ranking of Root Causes of Slow Queries in Cloud Database Systems	21
L2chain	21
Authenticated Aggregate Queries with Boolean Range Predicates on Blockchains	21
Hybrid Mixed Integer Linear Programming for Large-Scale Join Order Optimisation	21
Efficient Fault Tolerance for Recommendation Model Training via Erasure Coding	21
Accelerating Maximal Clique Enumeration via Graph Reduction	21
A Case for Graphics-Driven Query Processing	21
AeonG: An Efficient Built-in Temporal Support in Graph Databases	21
Quantifying Point Contributions: A Lightweight Framework for Efficient and Effective Query-Driven Trajectory Simplification	20
DAFDiscover: Robust Mining Algorithm for Dynamic Approximate Functional Dependencies on Dirty Data	20
GQL and SQL/PGQ: Theoretical Models and Expressive Power	20
Towards Efficient Random-Order Enumeration for Join Queries	20
DPSUR: Accelerating Differentially Private Stochastic Gradient Descent Using Selective Update and Release	20
On More Efficiently and Versatilely Querying Historical k -Cores	20
Minimum Strongly Connected Subgraph Collection in Dynamic Graphs	20
ResLake : Towards Minimum Job Latency and Balanced Resource Utilization in Geo-Distributed Job Scheduling	20
Computing Rule-Based Explanations by Leveraging Counterfactuals	20
Active Data Lakes: Regaining Physical Data Independence Without Losing Interoperability	20
Nuhuo: An Effective Estimation Model for Traffic Speed Histogram Imputation on A Road Network	20
TimeCSL: Unsupervised Contrastive Learning of General Shapelets for Explorable Time Series Analysis	20
GENTI: GPU-Powered Walk-Based Subgraph Extraction for Scalable Representation Learning on Dynamic Graphs	20
Polyglot data management	19
Resource Management in Aurora Serverless	19
Datamap-Driven Tabular Coreset Selection for Classifier Training	19
Task: An Efficient Framework for Instant Error-Tolerant Spatial Keyword Queries on Road Networks	19
A Hierarchical Grouping Algorithm for the Multi-Vehicle Dial-a-Ride Problem	19
PIM-Tree	19
Uldp-FL: Federated Learning with Across-Silo User-Level Differential Privacy	19
Combining Small Language Models and Large Language Models for Zero-Shot NL2SQL	19
To UDFs and Beyond: Demonstration of a Fully Decomposed Data Processor for General Data Wrangling Tasks	19
Anarchy in the Database: A Survey and Evaluation of Database Management System Extensibility	19
Analyzing Near-Network Hardware Acceleration with Co-Processing on DPUs	19
Efficient Discovery of Significant Patterns with Few-Shot Resampling	19
CEDA: Learned Cardinality Estimation with Domain Adaptation	19
From Scale-Up to Scale-Out: PolarDB's Journey to Achieving 2 Billion tpmC	19
DBMS annihilator	19
Efficient k NN Search in Public Transportation Networks	19
Simpler is More: Efficient Top-K Nearest Neighbors Search on Large Road Networks	19
YeSQL	18
QStore: Quantization-Aware Compressed Model Storage	18
PRICE: A Pretrained Model for Cross-Database Cardinality Estimation	18
GRewriter: Practical Query Rewriting with Automatic Rule Set Expansion in GaussDB	18
Composable Data Management: An Execution Overview	18
DataRinse: Semantic Transforms for Data Preparation Based on Code Mining	18
MiCS	18
Lingua Manga : A Generic Large Language Model Centric System for Data Curation	18
Skellam mixture mechanism	18
Vodka: Rethink Benchmarking Philosophy in HTAP Systems	18
Bridging Disciplines in Data Management Research to Solve Complex Data Problems	18
Ganos Aero: A Cloud-Native System for Big Raster Data Management and Processing	18
Scalable and Robust Snapshot Isolation for High-Performance Storage Engines	18
TIGER: Training Inductive Graph Neural Network for Large-Scale Knowledge Graph Reasoning	18
Efficient Algorithms for Pseudoarboricity Computation in Large Static and Dynamic Graphs	18
TUX: Efficient Drop-in Networking for Database Systems	18
Vortex: Overcoming Memory Capacity Limitations in GPU-Accelerated Large-Scale Data Analytics	18
Machine Learning for Graph Data Management and Query Processing	18
KEIGO: Co-Designing Log-Structured Merge Key-Value Stores with a Non-Volatile, Concurrency-Aware Storage Hierarchy	18
Differentially Private Data Generation with Missing Data	18
Themis: A GPU-Accelerated Relational Query Execution Engine	18
Cents: A Flexible and Cost-Effective Framework for LLM-Based Table Understanding	17
The case for distributed shared-memory databases with RDMA-enabled memory disaggregation	17
QTCS: Efficient Query-Centered Temporal Community Search	17
Dynamic Graph Databases with Out-of-Order Updates	17
LOGER: A Learned Optimizer Towards Generating Efficient and Robust Query Execution Plans	17
Reimagining Deep Learning Systems through the Lens of Data Systems	17
Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes	17
OceanBase Paetica: A Hybrid Shared-Nothing/Shared-Everything Database for Supporting Single Machine and Distributed Cluster	17
Fast approximate denial constraint discovery	17
ELEET: Efficient Learned Query Execution over Text and Tables	17
B ^link -hash: An Adaptive Hybrid Index for In-Memory Time-Series Databases	17
ArcheType: A Novel Framework for Open-Source Column Type Annotation Using Large Language Models	17
OFL-W3: A One-Shot Federated Learning System on Web 3.0	17
Mix & Match: Subgraph Matching for Absolute Coverage	17
Efficient Triangle-Connected Truss Community Search in Dynamic Graphs	17
ELPIS: Graph-Based Similarity Search for Scalable Data Science	17
Tigger: A Database Proxy That Bounces with User-Bypass	17
ImDiffusion: Imputed Diffusion Models for Multivariate Time Series Anomaly Detection	17
AMRAS	17
ABC	16
Streaming Time Series Subsequence Anomaly Detection: A Glance and Focus Approach	16
Generating Succinct Descriptions of Database Schemata for Cost-Efficient Prompting of Large Language Models	16
Access Control for Information-Theoretically Secure Data	16
Bringing the Operational and Analytical Worlds Together with Lakebase	16
Efficient GNN Training on Giant Graphs with Collective Batching and Scheduling	16
ChainDash: An Ad-Hoc Blockchain Data Analytics System	16
Efficient Black-Box Checking of Snapshot Isolation in Databases	16
Explaining Differentially Private Query Results with DPXPlain	16
Improving DBMS Scheduling Decisions with Accurate Performance Prediction on Concurrent Queries	16
Machine Learning for Subgraph Extraction: Methods, Applications and Challenges	16
Tiresias	16
Elastic Index Selection for Label-Hybrid AKNN Search	16
OpenFGL: A Comprehensive Benchmark for Federated Graph Learning	16
An Experimental Evaluation of Anomaly Detection in Time Series	16
Heta: Distributed Training of Heterogeneous Graph Neural Networks	16
Fair Transaction Processing for Multi-Tenant Databases	16