Jasmine

Tiny-LLM(四):实现RMSNorm与SwiGLU激活的MLP层

本章将实现 Qwen2 Transformer 架构的两个关键组件:RMSNorm 和 MLP(多层感知器) 模块,也称为前馈网络。RMSNorm 是一种层归一化技术,与传统的层归一化相比,它有助于以更少的计算开销稳定训练。MLP 模块是一个前馈网络,它处理注意力层的输出,并应用非线性变换来增强模型的表达能力。 1 任务总览 任务细节:Tiny-LLM Week1-Day4 1.1 实...

Tiny-LLM(一):实现自注意力与多头注意力机制

在 Transformer 架构中,注意力机制是核心机制,它让模型能够动态关注输入序列的不同部分。本节将实现 Tiny-LLM 中 Transformer 的基础构建块:自注意力层和多头注意力层。 1 任务总览 核心目标:实现 Transformer 的核心组件——注意力机制 任务细节:Tiny-LLM Week1-Day1 1.1 实现缩放点积注意力函数 目标:完成基础的注意力计...