Tiny-LLM(一):实现自注意力与多头注意力机制
在 Transformer 架构中,注意力机制是核心机制,它让模型能够动态关注输入序列的不同部分。本节将实现 Tiny-LLM 中 Transformer 的基础构建块:自注意力层和多头注意力层。 1 任务总览 核心目标:实现 Transformer 的核心组件——注意力机制 任务细节:Tiny-LLM Week1-Day1 1.1 实现缩放点积注意力函数 目标:完成基础的注意力计...
在 Transformer 架构中,注意力机制是核心机制,它让模型能够动态关注输入序列的不同部分。本节将实现 Tiny-LLM 中 Transformer 的基础构建块:自注意力层和多头注意力层。 1 任务总览 核心目标:实现 Transformer 的核心组件——注意力机制 任务细节:Tiny-LLM Week1-Day1 1.1 实现缩放点积注意力函数 目标:完成基础的注意力计...
本文为论文 Attention Is All You Need 的阅读笔记。 1 Introduction 论文核心贡献 提出了一种全新的序列转导模型——Transformer,完全基于注意力机制(attention),不再使用循环神经网络(RNN)或卷积网络(CNN)。 相比传统的编码器-解码器架构(RNN/LSTM/GRU + attention),Transformer...
本篇是浙大毛玉仁老师的《大模型原理与技术》课程的相关整理。 课程视频:https://www.bilibili.com/video/BV1PB6XYFET2 教材:https://github.com/ZJU-LLMs/Foundations-of-LLMs 1 序言 1. 语言&智能的定义: 语言:a system ofcommunication that...
环境配置 可以成功安装运行的搭配: 环境 版本 CUDA 11.8 Python 3.10.8 vLLM 0.6.4.post1 PyTorch 2.5.1+c...
本文为论文 Efficient Memory Management for Large Language Model Serving with PagedAttention 的阅读笔记。 问题背景与挑战:大语言模型(LLMs)在高吞吐量的推理场景下,需要一次处理足够多的请求(即批量化)。但目前的系统在这一点上面临困难,原因主要是每个请求的KV缓存占用大量内存,并且其大小是动态变化的。...
vLLM 是一个高性能的大语言模型推理和服务库,专注于提供快速、易用、低成本的LLM服务。它采用PagedAttention 技术高效管理注意力的键值内存,支持连续批处理,并提供了多种优化手段。 使用vLLM 可以通过快速安装可运行版本,也可以使用源码开发模式。本文记录了从源码安装运行 vLLM 的示例,以及一些踩坑教程。 1 环境配置 首先要确定自己使用的vLLM版本,再去搜对应的环...
本文为论文 FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU 的阅读笔记。 摘要 大语言模型推理需要高计算和内存资源,通常依赖多块GPU。但在对延迟不敏感、可批量处理的应用中,存在在资源有限设备(如单张普通GPU)上实现高吞吐量推理的需求。 论文提出 Flex...
1 从prompt到output 作为一种大型语言模型,LLaMA 的工作原理是接收输入文本(prompt),并预测下一个标记或单词。 举个例子。我们的 prompt 是: Quantum mechanics is a fundamental theory in physics that LLM 会根据它所接受的训练,尝试续写这个句子: provides insights int...
本篇为论文 Mooncake: Trading More Storage for Less Computation — A KVCache-centric Architecture for Serving LLM Chatbot 的阅读笔记。 摘要 MOONCAKE 是 大语言模型聊天服务 Kimi 的推理平台,其核心任务是 高效地进行 LLM 请求的分布式推理调度与缓存管理。 1. ...
Open source projects are a cornerstone of software development, offering learning resources and a platform for technological advancement and community collaboration. As a newcomer to the open sourc...