Post

大模型基础1

大模型基础1

本篇是浙大毛玉仁老师的《大模型原理与技术》课程的相关整理。

  • 课程视频:https://www.bilibili.com/video/BV1PB6XYFET2
  • 教材:https://github.com/ZJU-LLMs/Foundations-of-LLMs

1 序言

1. 语言&智能的定义:

  • 语言:a system ofcommunication that uses symbols in a regular wayto create meaning.(用符号来创造意义的沟通系统)
  • 智能:the ability to think, to learn from experience, to solve problems.and to adapt to new situations.(思考、学习经验来解决问题并可以适应新场景中的能力)

2. 语言的复杂性:

  • 不同语言间也存在联系。
  • 语言在语音、词法、语法、语用等各个方面都可能存在歧义
  • 不断产生大量的未知的语言现象

3. 语言的建模

将语言建模为一系列 词元(Token) 组成的序列数据。其中,词元是不可再拆分的最小语义单位。例如,原句子为 我为什么要选这门课,可能的词元序列为 {我,为,什么,要,选,这,门,课}

4. 语言模型

语言模型旨在预测一个词元或词元序列出现的概率。现有语言模型通常基于规则统计或学习来构建。

This post is licensed under CC BY 4.0 by the author.