Jasmine

GPUDirect Storage(GDS)详解

1 GDS 原理简介 下图是从SSD向GPU传送资料的传统I/O路径,资料会经由PCIe交换器、经过主机CPU、复制,写入主机记忆体回弹缓冲区(bounce buffer),再经由CPU、PCIe交换器,复制写入GPU的记忆体,供GPU存取。这整个过程需要经过6个环节,以及2次资料复制作业。 之所以必须采用这种繁琐的传输路径,是一系列原因造成的。 在储存装置与GPU之间的资料移动,...

Docker使用教程

1 Docker 是什么? 软件开发最大的麻烦事之一,就是环境配置。换一台机器,就要重来一次,旷日费时。很多人想到,能不能从根本上解决问题,软件可以带环境安装?也就是说,安装的时候,把原始环境一模一样地复制过来。 虚拟机(virtual machine)就是带环境安装的一种解决方案。它可以在一种操作系统里面运行另一种操作系统,比如在 Windows 系统里面运行 Linux 系统。对于底...

Tiny-LLM(四):实现RMSNorm与SwiGLU激活的MLP层

本章将实现 Qwen2 Transformer 架构的两个关键组件:RMSNorm 和 MLP(多层感知器) 模块,也称为前馈网络。RMSNorm 是一种层归一化技术,与传统的层归一化相比,它有助于以更少的计算开销稳定训练。MLP 模块是一个前馈网络,它处理注意力层的输出,并应用非线性变换来增强模型的表达能力。 1 任务总览 任务细节:Tiny-LLM Week1-Day4 1.1 实...