Data Pipelines articles

2/19/2026 • EN

Testing Data Pipelines: What to Validate and When

Explains the importance of automated testing for data pipelines, covering schema validation, data quality checks, and regression testing.

Data Engineering Data Pipelines Data Validation Quality Assurance testing

Alex Merced

2/19/2026 • EN

Idempotent Pipelines: Build Once, Run Safely Forever

Explains idempotent data pipelines, patterns like partition overwrite and MERGE, and how to prevent duplicate data during retries.

Data Engineering Data Pipelines Data Quality Etl Idempotency

Alex Merced

2/19/2026 • EN

How to Design Reliable Data Pipelines

A guide to designing reliable, fault-tolerant data pipelines with architectural principles like idempotency, observability, and DAG-based workflows.

Architecture Data Engineering Data Pipelines Idempotency reliability

Alex Merced

2/19/2026 • EN

How to Think Like a Data Engineer

A guide to the core principles and systems thinking required for data engineering, beyond just learning specific tools.

Data Engineering Data Pipelines Data Quality Idempotency Systems Design

Alex Merced

1/7/2026 • EN

Visibility is Velocity

A technical article on how visibility and communication, not just speed, are critical for engineering team success and stakeholder trust.

communication Data Pipelines project management software development Team Velocity

Michael

11/20/2025 • EN

Stumbling into AI: Part 6—I've been thinking about Agents and MCP all wrong

A developer's journey to understanding AI agents and the Model Context Protocol (MCP), moving beyond traditional data pipeline thinking.

ai development Data Pipelines LLM Agents Model Context Protocol software architecture

Robin Moffatt

8/21/2025 • EN

Interesting links - August 2025

A monthly roundup of curated links and articles focused on data engineering, Apache Kafka, and data platform technologies.

Apache Kafka Data Engineering Data Pipelines Data Quality Stream Processing

Robin Moffatt

8/18/2025 • EN

Kafka to Iceberg - Exploring the Options

A guide comparing Apache Flink SQL, Kafka Connect, and Confluent Tableflow for moving data from Apache Kafka to Apache Iceberg tables.

Apache Iceberg Apache Kafka Data Pipelines Kafka Connect Stream Processing

Robin Moffatt

5/2/2025 • EN

Introduction to Data Engineering Concepts | ETL vs ELT – Understanding Data Pipelines

Explains core data engineering concepts, comparing ETL and ELT data pipeline strategies and their use cases.

Data Engineering Data Pipelines data transformation Elt Etl

Alex Merced

5/2/2025 • EN

Introduction to Data Engineering Concepts | What is Data Engineering?

An introductory guide to data engineering, explaining its role, key concepts, and how it differs from data science in the modern data ecosystem.

Apache Iceberg Data Engineering Data Infrastructure Data Pipelines Data Warehouse

Alex Merced

5/2/2025 • EN

Introduction to Data Engineering Concepts | DevOps for Data Engineering

Explores how DevOps principles like CI/CD, infrastructure as code, and monitoring are applied to data engineering for reliable, scalable data pipelines.

Data Engineering Data Pipelines DevOps Infrastructure As Code version control

Alex Merced

5/2/2025 • EN

Introduction to Data Engineering Concepts | Batch Processing Fundamentals

Explains batch processing fundamentals for data engineering, covering concepts, tools, and its ongoing relevance in data workflows.

Apache Iceberg Batch Processing Data Engineering Data Pipelines Data Workflows

Alex Merced

5/2/2025 • EN

Introduction to Data Engineering Concepts | Data Quality and Validation

Explores the importance of data quality and validation in data engineering, covering key dimensions and tools for reliable pipelines.

Apache Iceberg Data Engineering Data Pipelines Data Quality Data Validation

Alex Merced

5/2/2025 • EN

Introduction to Data Engineering Concepts | Streaming Data Fundamentals

Explains streaming data fundamentals, how streaming systems work, their use cases, and challenges compared to batch processing.

Batch Processing Data Engineering Data Pipelines Real Time Processing Streaming Data

Alex Merced

8/26/2024 • EN

Data Engineering Duke Fall 2023-2024

Overview of a university-level Data Engineering course syllabus covering tools, pipelines, AI pair programming, and project-based learning for Fall 2024.

AI Pair Programming Cloud Platforms Data Engineering Data Pipelines Syllabus

Noah Gift

12/7/2023 • EN

Getting Started With PyFlink on Kubernetes

A tutorial on setting up and running PyFlink streaming data jobs on a Kubernetes cluster, including installation and deployment steps.

Apache Flink Data Pipelines Kubernetes Pyflink Stream Processing

Gunnar Morling

12/7/2023 • EN

Getting Started With PyFlink on Kubernetes

A tutorial on setting up and running PyFlink streaming data jobs on a Kubernetes cluster, including prerequisites and deployment steps.

Apache Flink Data Pipelines Kubernetes Pyflink Stream Processing

Gunnar Morling

9/5/2023 • EN

Harnessing the Power of DataOps with Azure Services

Explores how Azure services like Data Factory, Databricks, and Machine Learning enable DataOps for streamlined, automated data pipelines.

Azure Data Integration Data Management Data Pipelines Dataops

Muhammad Zeeshan

4/23/2023 • EN

More Design Patterns For Machine Learning Systems

Explores essential design patterns for building efficient and maintainable machine learning systems in production, focusing on data pipelines and best practices.

Data Pipelines design patterns Machine Learning Production Systems software engineering

Eugene Yan