FlexGen论文阅读
本文为论文 FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU 的阅读笔记。 摘要 大语言模型推理需要高计算和内存资源,通常依赖多块GPU。但在对延迟不敏感、可批量处理的应用中,存在在资源有限设备(如单张普通GPU)上实现高吞吐量推理的需求。 论文提出 Flex...
本文为论文 FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU 的阅读笔记。 摘要 大语言模型推理需要高计算和内存资源,通常依赖多块GPU。但在对延迟不敏感、可批量处理的应用中,存在在资源有限设备(如单张普通GPU)上实现高吞吐量推理的需求。 论文提出 Flex...
1 从prompt到output 作为一种大型语言模型,LLaMA 的工作原理是接收输入文本(prompt),并预测下一个标记或单词。 举个例子。我们的 prompt 是: Quantum mechanics is a fundamental theory in physics that LLM 会根据它所接受的训练,尝试续写这个句子: provides insights int...
本篇为论文 Mooncake: Trading More Storage for Less Computation — A KVCache-centric Architecture for Serving LLM Chatbot 的阅读笔记。 摘要 MOONCAKE 是 大语言模型聊天服务 Kimi 的推理平台,其核心任务是 高效地进行 LLM 请求的分布式推理调度与缓存管理。 1. ...
Open source projects are a cornerstone of software development, offering learning resources and a platform for technological advancement and community collaboration. As a newcomer to the open sourc...
In software development, simplifying code is essential for improving code quality and maintainability. C-reduce is a tool designed to reduce code, helping developers quickly pinpoint and fix issues...
This is a note for the paper HDD: Hierarchical Delta Debugging. Abstract During program debugging, failure-inducing inputs are often large and contain irrelevant information, making debugging mor...
1 What is Delta Debugging? Delta Debugging is an automated technique used to simplify large inputs in order to identify the smallest input that triggers an error. It’s especially helpful when debu...
本篇为论文 3L-Cache: Low Overhead and Precise Learning-based Eviction Policy for Web Caches 的阅读笔记。 摘要 1. 问题背景: 缓存可以降低请求延迟和网络流量,而淘汰策略的效果通常用 字节丢失率 和 对象丢失率 来衡量。虽然基于学习的策略能有效降低这两种丢失率,但其高计算开销限制了在实际系统中的应用。 ...
参照论文 SWIRL: Selection of Workload-aware Indexes using Reinforcement Learning 在cloudlab提供的服务器上配置代码所需环境,本地机器为 Windows。 1 本地ssh连接远程cloudlab服务器 登录cloudlab官网,注册并租一台服务器。(默认的时长为16小时,注意及时续期,不然服务器上的东西到期会...
问题描述 将项目文件push到GitHub上时,发现GitHub上的文件夹图标上有箭头,且无法打开。 出错原因 当在自己的项目里clone了别人的项目,github就将他视为一个子系统模块,导致在上传代码时该文件夹上传失败,并在github上显示向右的白色箭头。 解决方案 删除子文件夹里面的.git文件,执行如下命令: git rm --cached [文件夹名] git add...