vLLM+PyTorch Profiler性能分析
1 使用 PyTorch Profiler 进行分析 vLLM 支持使用 torch.profiler 对工作进程进行跟踪。可以通过设置 VLLM_TORCH_PROFILER_DIR 环境变量来启用跟踪,将其指向希望保存跟踪文件的目录:VLLM_TORCH_PROFILER_DIR=/mnt/traces/。例如: trace_dir = "/home/trace" os.makedi...
1 使用 PyTorch Profiler 进行分析 vLLM 支持使用 torch.profiler 对工作进程进行跟踪。可以通过设置 VLLM_TORCH_PROFILER_DIR 环境变量来启用跟踪,将其指向希望保存跟踪文件的目录:VLLM_TORCH_PROFILER_DIR=/mnt/traces/。例如: trace_dir = "/home/trace" os.makedi...
1 任务总览 任务细节:Tiny-LLM Week2-Day1 本节的核心目标是让模型支持 KV Cache,实现推理阶段的增量生成,加速“解码”过程。关键任务如下: 实现 TinyKvFullCache 类(src/tiny_llm/kv_cache.py) 提供唯一接口 update_and_fetch(key, value, mask_length=N...
1 任务总览 任务细节:Tiny-LLM Week1-Day7 之前我们已实现了最简单的“贪婪采样”(Greedy Sampling),即每次选择概率最高的 token。本章要扩展三种更灵活的采样方式: 温度采样(Temperature Sampling):通过温度参数控制生成的随机性。 Top-k 采样:只在概率最高的 k 个 token 中采样。 Top-p(核采样,...
在此之前,我们已经实现了多头注意力(MHA)、RMSNorm、RoPE、MLP 等模块。本章将把这些组件整合起来,构建完整的 Qwen2 模型,并让模型“动起来”——让它根据输入的提示(prompt)生成文本。 1 任务总览 任务细节 Tiny-LLM Week1-Day5 Tiny-LLM Week1-Day6 1.1 实现 Qwen2TransformerBlock ...
本章将实现 Qwen2 Transformer 架构的两个关键组件:RMSNorm 和 MLP(多层感知器) 模块,也称为前馈网络。RMSNorm 是一种层归一化技术,与传统的层归一化相比,它有助于以更少的计算开销稳定训练。MLP 模块是一个前馈网络,它处理注意力层的输出,并应用非线性变换来增强模型的表达能力。 1 任务总览 任务细节:Tiny-LLM Week1-Day4 1.1 实...
本节将介绍如何实现 Qwen2 中使用的 分组查询注意力(GQA):让多个 Query 头共享更少的 Key/Value 头,从而显著减少 KV 投影的内存与带宽开销(MQA 是 GQA 的极端特例,所有 Q 头共享 1 个 K/V 对)。 1 任务总览 任务细节:Tiny-LLM Week1-Day3 1.1 实现 scaled_dot_product_attention_group...
1 任务总览 在Transformer架构中,由于自注意力机制本身不包含位置信息,我们需要通过位置编码来为模型提供序列中token的顺序信息。本章将实现现代大语言模型广泛采用的旋转位置编码(RoPE)。 任务细节:Tiny-LLM Week1-Day2 1.1 实现传统 RoPE 在第一步中,我们需要在 src/tiny_llm/positional_encoding.py 中实现标...
在 Transformer 架构中,注意力机制是核心机制,它让模型能够动态关注输入序列的不同部分。本节将实现 Tiny-LLM 中 Transformer 的基础构建块:自注意力层和多头注意力层。 1 任务总览 核心目标:实现 Transformer 的核心组件——注意力机制 任务细节:Tiny-LLM Week1-Day1 1.1 实现缩放点积注意力函数 目标:完成基础的注意力计...
本文为论文 Attention Is All You Need 的阅读笔记。 1 Introduction 论文核心贡献 提出了一种全新的序列转导模型——Transformer,完全基于注意力机制(attention),不再使用循环神经网络(RNN)或卷积网络(CNN)。 相比传统的编码器-解码器架构(RNN/LSTM/GRU + attention),Transformer...
本篇是浙大毛玉仁老师的《大模型原理与技术》课程的相关整理。 课程视频:https://www.bilibili.com/video/BV1PB6XYFET2 教材:https://github.com/ZJU-LLMs/Foundations-of-LLMs 1 序言 1. 语言&智能的定义: 语言:a system ofcommunication that...