Blog

Parallelism

Filter

All Posts self-improvement18 machine-learning18 stanford-cs33618 letters15 deep-learning15 motivation8 discipline7 mindset6 books5 focus4 productivity4 action4 +74 more

Tutorials·January 9, 2026·9 min read

CS336 Notes: Lecture 7 - Parallelism 1

Distributed training fundamentals: data parallelism, ZeRO/FSDP for memory efficiency, tensor and pipeline parallelism, and how to combine strategies for frontier-scale models.

machine-learning distributed-training stanford-cs336 deep-learning

Read