Data Quality articles

2/19/2026 • EN

Data Quality Is a Pipeline Problem, Not a Dashboard Problem

Argues that data quality must be enforced at the pipeline's ingestion point, not patched in dashboards, to ensure consistent, reliable data.

Data Engineering Data Governance Data Pipeline Data Quality Data Validation

Alex Merced

2/19/2026 • EN

Pipeline Observability: Know When Things Break

Explains the importance of pipeline observability for data health, covering metrics, logs, and lineage to detect issues beyond simple execution monitoring.

Data Engineering Data Quality Monitoring observability pipeline

Alex Merced

2/19/2026 • EN

Idempotent Pipelines: Build Once, Run Safely Forever

Explains idempotent data pipelines, patterns like partition overwrite and MERGE, and how to prevent duplicate data during retries.

Data Engineering Data Pipelines Data Quality Etl Idempotency

Alex Merced

2/19/2026 • EN

How to Think Like a Data Engineer

A guide to the core principles and systems thinking required for data engineering, beyond just learning specific tools.

Data Engineering Data Pipelines Data Quality Idempotency Systems Design

Alex Merced

2/19/2026 • EN

Data Engineering Best Practices: The Complete Checklist

A practical, tool-agnostic checklist of essential best practices for designing, building, and maintaining reliable data engineering pipelines.

best practices Data Engineering Data Quality Etl Pipeline Design

Alex Merced

8/21/2025 • EN

Interesting links - August 2025

A monthly roundup of curated links and articles focused on data engineering, Apache Kafka, and data platform technologies.

Apache Kafka Data Engineering Data Pipelines Data Quality Stream Processing

Robin Moffatt

7/14/2025 • EN

Why your AI might be biased (and what you can do about it)

Explains the causes of bias in AI systems, focusing on training data and proxy variables, and offers practical steps for developers to mitigate it.

ai bias Algorithmic Fairness Data Quality Machine Learning Ethics Model Training

Leo Visser

5/2/2025 • EN

Introduction to Data Engineering Concepts | Data Quality and Validation

Explores the importance of data quality and validation in data engineering, covering key dimensions and tools for reliable pipelines.

Apache Iceberg Data Engineering Data Pipelines Data Quality Data Validation

Alex Merced

2/5/2025 • EN

Dataset Engineering: The Art and Science of Data Preparation

Notes on dataset engineering from Chip Huyen's 'AI Engineering', covering data curation, quality, coverage, quantity, and acquisition for AI models.

AI Engineering Data Curation Data Preparation Data Quality Dataset Engineering

Alex Strick van Linschoten

2/28/2024 • EN

Datacast Episode 133: Full Data Stack Observability with Salma Bakouk

An interview with Salma Bakouk, CEO of Sifflet, discussing data stack observability, data quality, lineage, and building a modern data team.

Data Catalog Data Lineage Data Observability Data Quality Data Stack

James Le

2/5/2024 • EN

Thinking about High-Quality Human Data

Explores the importance of high-quality human-annotated data for training AI models, covering task design, rater selection, and the wisdom of the crowd.

Data Quality Human Annotation LLM Alignment Machine Learning Rlhf

Lilian Weng

6/16/2023 • EN

Datacast Episode 119: Experimentation Culture, Immutable Data Warehouse, The Data Collaboration Problem, and The Rise of Data Contracts with Chad Sanderson

Interview with Chad Sanderson on data platform leadership, experimentation culture, data quality, and the rise of data contracts.

Data Contracts Data Engineering Data Platform Data Quality Experimentation Culture

James Le

4/14/2022 • EN

Great Expectations Data Quality Testing

An introduction to Great Expectations, an open-source Python tool for data quality testing, documentation, and profiling.

Data Quality Data Testing Great Expectations Python

Matt Layman

3/31/2022 • EN

PDF Courses Report - Building SaaS #132

Adding a PDF course completion report for students in a SaaS application built with Python and Django.

Data Quality django Pdf Generation Python saas

Matt Layman

5/18/2020 • EN

6 Little-Known Challenges After Deploying Machine Learning

Explores six unexpected challenges that arise after deploying machine learning models in production, from data schema changes to organizational issues.

Data Quality deployment Machine Learning Mlop production

Eugene Yan

3/25/2020 • EN

Speed of Data

An enterprise architect discusses the challenges of data validation speed, automation, and the essential role of human intuition in ensuring data quality.

Business Systems Data Aggregation Data Quality Data Validation data visualization

Rob Koch