Jasmine

Tiny-LLM(一):实现自注意力与多头注意力机制

在 Transformer 架构中,注意力机制是核心机制,它让模型能够动态关注输入序列的不同部分。本节将实现 Tiny-LLM 中 Transformer 的基础构建块:自注意力层和多头注意力层。 1 任务总览 核心目标:实现 Transformer 的核心组件——注意力机制 任务细节:Tiny-LLM Week1-Day1 1.1 实现缩放点积注意力函数 目标:完成基础的注意力计...

VLLM源码安装运行示例

vLLM 是一个高性能的大语言模型推理和服务库,专注于提供快速、易用、低成本的LLM服务。它采用PagedAttention 技术高效管理注意力的键值内存,支持连续批处理,并提供了多种优化手段。 使用vLLM 可以通过快速安装可运行版本,也可以使用源码开发模式。本文记录了从源码安装运行 vLLM 的示例,以及一些踩坑教程。 1 环境配置 首先要确定自己使用的vLLM版本,再去搜对应的环...