Deepspeed Articles

Page 1 of 1 (3 articles)

9/20/2023 • EN

A technical guide on fine-tuning the massive Falcon 180B language model using DeepSpeed ZeRO, LoRA, and Flash Attention for efficient training.

Deepspeed Falcon 180b Flash Attention large language models Lora

2/22/2023 • EN

Guide to fine-tuning the large FLAN-T5 XXL model using Amazon SageMaker managed training and DeepSpeed for optimization.

Amazon Sagemaker Deepspeed Fine Tuning Flan T5 large language models

2/16/2023 • EN

A technical guide on fine-tuning large FLAN-T5 models (XL/XXL) using DeepSpeed ZeRO and Hugging Face Transformers for efficient multi-GPU training.

Deepspeed Flan T5 Model Fine Tuning Transformers Zero Redundancy Optimizer

Select Language