Transformers articles

1/31/2026 • EN

Deep Learning is Powerful Because It Makes Hard Things Easy - Reflections 10 Years On

A reflection on a decade-old blog post about deep learning, examining past predictions on architecture, scaling, and the field's evolution.

Deep Learning Machine Learning Neural Networks Scaling Laws Transformers

Ferenc Huszár

1/16/2026 • EN

Link Dump #223

A curated collection of articles on software architecture, AI tools, code quality, and developer psychology, exploring foundational concepts and modern challenges.

docker Kafka mcp software architecture Transformers

Sebastian Malaca

6/16/2025 • EN

Building Your Own Mini-ChatGPT with R: From Markov Chains to Transformers!

A tutorial on building a transformer-based language model in R from scratch, covering tokenization, self-attention, and text generation.

Language Models Machine Learning Natural Language Processing R Transformers

Holger K. von Jouanne-Diedrich

4/6/2025 • EN

A Journey from AI to LLMs and MCP - 2 - How LLMs Work — Embeddings, Vectors, and Context Windows

Explains how LLMs work by converting words to numerical embeddings, using vector spaces for semantic understanding, and managing context windows.

Context Windows Embeddings llm Transformers Vectors

Alex Merced

3/6/2025 • EN

Understanding Attention in LLMs

A clear explanation of the attention mechanism in Large Language Models, focusing on how words derive meaning from context using vector embeddings.

Attention Mechanism llm Machine Learning Natural Language Processing Transformers

Bartosz Milewski

3/5/2025 • EN

Headroom for AI development

Argues that AI can improve beyond current transformer models by examining biological examples of superior sample efficiency and planning.

artificial intelligence Deep Learning llm Machine Learning Transformers

John Langford

12/19/2024 • EN

Finally, a Replacement for BERT: Introducing ModernBERT

Introducing ModernBERT, a new family of state-of-the-art encoder models designed as a faster, more efficient replacement for the widely-used BERT.

Bert Masked Language Model Modernbert NLP Transformers

Jeremy Howard

10/11/2024 • EN

Overcoming writer's block — lessons from AI

The article explores how the writing process of AI models can inspire humans to overcome writer's block by adopting a less perfectionist approach.

ai llm software development Transformers Writing

Piotr Migdał

4/20/2024 • EN

Using and Finetuning Pretrained Transformers

Explores methods for using and finetuning pretrained large language models, including feature-based approaches and parameter updates.

ai Finetuning large language models Machine Learning Transformers

Sebastian Raschka

1/23/2024 • EN

How to Fine-Tune LLMs in 2024 with Hugging Face

A practical guide to fine-tuning open-source large language models (LLMs) using Hugging Face's TRL and Transformers libraries in 2024.

Datasets Hugging Face LLM Fine Tuning Transformers Trl

Philipp Schmid

10/12/2023 • EN

Practical AI: HuggingFace Transformers and Diffusers for Beginners

A beginner-friendly guide to using HuggingFace's Transformers and Diffusers libraries for practical AI applications, including image generation.

ai Diffusers Flask Huggingface Transformers

Matt Layman

8/10/2023 • EN

The ABCs of AI Transformers, Tokens, and Embeddings: A LEGO Story

Explains AI transformers, tokens, and embeddings using a simple LEGO analogy to demystify how language models process and understand text.

AI Architecture Embeddings Natural Language Processing tokens Transformers

Code with Dan

7/1/2023 • EN

Optimizing Memory Usage for Training LLMs and Vision Transformers in PyTorch

A guide to 9 PyTorch techniques for drastically reducing memory usage when training vision transformers and LLMs, enabling training on consumer hardware.

Deep Learning memory optimization Model Training Pytorch Transformers

Sebastian Raschka

3/28/2023 • EN

Finetuning Large Language Models On A Single GPU Using Gradient Accumulation

Guide to finetuning large language models on a single GPU using gradient accumulation to overcome memory limitations.

Finetuning Gpu Memory Gradient Accumulation large language models Transformers

Sebastian Raschka

3/16/2023 • EN

Getting started with Pytorch 2.0 and Hugging Face Transformers

A tutorial on fine-tuning a BERT model for text classification using the new PyTorch 2.0 framework and the Hugging Face Transformers library.

aws Deep Learning Model Fine Tuning Pytorch Transformers

Philipp Schmid

2/16/2023 • EN

Fine-tune FLAN-T5 XL/XXL using DeepSpeed and Hugging Face Transformers

A technical guide on fine-tuning large FLAN-T5 models (XL/XXL) using DeepSpeed ZeRO and Hugging Face Transformers for efficient multi-GPU training.

Deepspeed Flan T5 Model Fine Tuning Transformers Zero Redundancy Optimizer

Philipp Schmid

2/7/2023 • EN

Understanding Large Language Models -- A Transformative Reading List

A curated reading list of key academic papers for understanding the development and architecture of large language models and transformers.

Attention Mechanism large language models Machine Learning Natural Language Processing Transformers

Sebastian Raschka

2/7/2023 • EN

Understanding Large Language Models -- A Transformative Reading List

A curated reading list of key academic papers for understanding the development and architecture of large language models and transformers.

Attention Mechanism large language models Machine Learning Natural Language Processing Transformers

Sebastian Raschka

1/16/2023 • EN

Getting started with Transformers and TPU using PyTorch

A tutorial on fine-tuning a BERT model for text classification using Hugging Face Transformers and Google Cloud TPUs with PyTorch.

Bert Google Cloud Pytorch Tpu Transformers

Philipp Schmid

11/22/2022 • EN

Document AI: LiLT a better language agnostic LayoutLM model

A tutorial on fine-tuning the LiLT model for language-agnostic document understanding and information extraction using Hugging Face Transformers.

Document AI Hugging Face Layoutlm Lilt Transformers

Philipp Schmid

Transformers Articles

Deep Learning is Powerful Because It Makes Hard Things Easy - Reflections 10 Years On

Link Dump #223

Building Your Own Mini-ChatGPT with R: From Markov Chains to Transformers!

A Journey from AI to LLMs and MCP - 2 - How LLMs Work — Embeddings, Vectors, and Context Windows

Understanding Attention in LLMs

Headroom for AI development

Finally, a Replacement for BERT: Introducing ModernBERT

Overcoming writer's block — lessons from AI

Using and Finetuning Pretrained Transformers

How to Fine-Tune LLMs in 2024 with Hugging Face

Practical AI: HuggingFace Transformers and Diffusers for Beginners

The ABCs of AI Transformers, Tokens, and Embeddings: A LEGO Story

Optimizing Memory Usage for Training LLMs and Vision Transformers in PyTorch

Finetuning Large Language Models On A Single GPU Using Gradient Accumulation

Getting started with Pytorch 2.0 and Hugging Face Transformers

Fine-tune FLAN-T5 XL/XXL using DeepSpeed and Hugging Face Transformers

Understanding Large Language Models -- A Transformative Reading List

Understanding Large Language Models -- A Transformative Reading List

Getting started with Transformers and TPU using PyTorch

Document AI: LiLT a better language agnostic LayoutLM model

Select Language

We use cookies