零基础手写大模型

课程简介

以下是提取的各图片中的文字内容：图片1 专题一：基础知识‌ Python基础：基本语法介绍与使用、核心数据类型介绍与使用、Str字符串高级操作、Tuple元组高级操作、List列表高级操作、Dict字典高级操作、Set集合高级操作、类与函数相关操作 PyTorch基础：PyTorch安装与基本使用、向量、矩阵、张量的区别是什么？、向量的基本操作与高级操作…

已有 11 人浏览发布 2026-03-20 更新 2026-03-20

以下是提取的各图片中的文字内容：

图片1

专题一：基础知识‌

Python基础：基本语法介绍与使用、核心数据类型介绍与使用、Str字符串高级操作、Tuple元组高级操作、List列表高级操作、Dict字典高级操作、Set集合高级操作、类与函数相关操作

PyTorch基础：PyTorch安装与基本使用、向量、矩阵、张量的区别是什么？、向量的基本操作与高级操作、矩阵的基本运算与高级操作、向量点积、矩阵乘法、矩阵点乘、矩阵批量乘法、什么是广播机制？是如何运算的？、PyTorch中的自动求导机制、Dataset和DataLoader基本使用、PyTorch中其他常用函数介绍与使用

数学基础：什么是求导？为什么机器学习中需要求导？、机器学习中常见求导公式有哪些？、什么是链式法则？链式法则是如何运算的？、什么是平方误差？优缺点是什么？、什么是交叉熵？机器学习中是如何利用的？、什么是正态分布？哪些场景会用到？、什么是均匀分布？哪些场景会用到？

图片2

专题二：神经网络‌

理论：什么是感知机？什么是多层感知机MLP?、什么是前向传播？作用是什么？、什么是反向传播？作用是什么？、什么是梯度下降？作用是什么？、什么是SGD随机梯度下降？、什么是Mini - Batch梯度下降？、什么是Learning Rate学习率？、什么是Bias偏置？作用是什么？、什么是Activation Function激活函数？、神经网络中有哪些常见的激活函数？、什么是Loss Function损失函数？、神经网络中有哪些常见的损失函数？、什么是FC全连接层？有哪些使用场景？、什么是Embedding嵌入层？有哪些使用场景？、什么是归一化？作用是什么？、什么是正则化？作用是什么？、什么是Dropout随机失活？作用是什么？、什么是梯度消失？什么情况会出现梯度消失？、什么是梯度爆炸？什么情况会出现梯度爆炸？、什么是梯度裁剪？为什么要进行梯度裁剪？

手写：手写线性回归经典模型、手写多标签分类经典模型

实战：房价预测模型实战、图像识别模型实战、股价预测模型实战、文本分类模型实战、模型可视化实战

图片3

专题三：NLP自然语言处理‌

理论：什么是One - Hot编码？有哪些使用场景？、什么是Bag - of - Words词袋模型？优缺点是什么？、什么是Word2Vec模型？优缺点是什么？、什么是SkipGram跳词模型？优缺点是什么？、什么是CBOW连续词袋模型？优缺点是什么？、什么是N - Gram模型？优缺点是什么？、NLP经典之RNN循环神经网络模型详解、NLP经典之LSTM长短期记忆网络模型详解、NLP经典之GRU门控循环单元模型详解、NLP经典之Seq2Seq序列到序列模型详解

手写：手写词向量模型、手写RNN循环神经网络模型、手写LSTM长短期记忆网络模型、手写GRU门控循环单元网络模型、手写Seq2Seq网络模型

实战：Bag - of - Words实战、Word2Vec之SkipGram实战、Word2Vec之CBOW实战、N - Gram实战、RNN文本生成实战、RNN股价预测实战、LSTM文本生成实战、GRU文本生成实战、Seq2Seq机器翻译实战、Seq2Seq文本单标签分类实战、Seq2Seq文本多标签分类实战

图片4

专题四：Transformer‌

论文：《Attention Is All You Need》论文解析

理论：什么是Attention注意力？如何理解注意力机制、什么Attention Score注意力分数？作用是什么？、什么是Attention Weight注意力权重？作用是什么？、什么是QKV?如何理解Q、K、V?作用分别是什么？、QKV的推导过程是什么怎样的？、什么是缩放Attention注意力？使用场景是什么？、什么是Self - attention自注意力？使用场景是什么？、Multi - head Self - attention多头注意力机制详解、Masked Self - attention掩码自注意力机制详解、什么是Causal Mask因果掩码？使用场景是什么？、什么是Positional Encoding位置编码？作用是？、有哪些方式可以实现位置编码？、什么是Residual Connection残差连接？作用是？、什么是Layer Norm层归一化？作用是什么？、什么是温度采样？什么情况下要进行温度采样？、什么是多项式采样？什么情况下要进行多项式采样？、什么是Teacher Forcing教师强制？使用场景？、自注意力机制和RNN优缺点对比

理论：Transformer整体网络架构详解、Transformer Encoder架构详解、Transformer Decoder架构详解

手写：手写Self - attention自注意力机制、手写Multi - head Self - attention多头注意力机制、手写Positional Encoding位置编码机制、手写Feed Forward机制

图片5

专题五：LLM大语言模型‌

理论：Transformer有哪些变体？使用场景分别是什么？、什么是BERT?它的特点是什么？使用场景有哪些？、什么是GPT?它的特点是什么？使用场景是什么？、什么是MLM掩码语言模型？底层是如何工作的？、什么是NSP下一句预测？底层是如何工作的？、什么是单向语境？什么是双向语境？、Encoder - Only网络模型架构详解、Decoder - Only网络模型架构详解、什么是Autoregressive自回归模型？、大型数据集如何获取？有哪些获取方式？、大型数据集数据预处理怎么做？有哪些常用方式？、BertTokenizer与GPT2Tokenizer的区别是什么？、什么是预训练？什么是微调？、为什么要微调？微调的优缺点是什么？、LoRA微调机制是如何工作的？为什么它高效？

手写：手写实现BERT网络模型、手写实现GPT网络模型

实战：BERT模型实战文本分类、GPT模型实战文本生成、用PyTorch预训练一个亿级参数量GPT模型、用HuggingFace预训练一个亿级参数量GPT模型、用LoRA微调GPT模型为一个Chat GPT模型、服务器部署GPT模型与流式推理输出实战

总结：梳理大模型底层实现、训练、微调整体流程与原理