零基础手写大模型
以下是提取的各图片中的文字内容: 图片1 专题一:基础知识 Python基础:基本语法介绍与使用、核心数据类型介绍与使用、Str字符串高级操作、Tuple元组高级操作、List列表高级操作、Dict字典高级操作、Set集合高级操作、类与函数相关操作 PyTorch基础:PyTorch安装与基本使用、向量、矩阵、张量的区别是什么?、向量的基本操作与高级操作…

以下是提取的各图片中的文字内容:
图片1
专题一:基础知识
Python基础:基本语法介绍与使用、核心数据类型介绍与使用、Str字符串高级操作、Tuple元组高级操作、List列表高级操作、Dict字典高级操作、Set集合高级操作、类与函数相关操作
PyTorch基础:PyTorch安装与基本使用、向量、矩阵、张量的区别是什么?、向量的基本操作与高级操作、矩阵的基本运算与高级操作、向量点积、矩阵乘法、矩阵点乘、矩阵批量乘法、什么是广播机制?是如何运算的?、PyTorch中的自动求导机制、Dataset和DataLoader基本使用、PyTorch中其他常用函数介绍与使用
数学基础:什么是求导?为什么机器学习中需要求导?、机器学习中常见求导公式有哪些?、什么是链式法则?链式法则是如何运算的?、什么是平方误差?优缺点是什么?、什么是交叉熵?机器学习中是如何利用的?、什么是正态分布?哪些场景会用到?、什么是均匀分布?哪些场景会用到?
图片2
专题二:神经网络
理论:什么是感知机?什么是多层感知机MLP?、什么是前向传播?作用是什么?、什么是反向传播?作用是什么?、什么是梯度下降?作用是什么?、什么是SGD随机梯度下降?、什么是Mini - Batch梯度下降?、什么是Learning Rate学习率?、什么是Bias偏置?作用是什么?、什么是Activation Function激活函数?、神经网络中有哪些常见的激活函数?、什么是Loss Function损失函数?、神经网络中有哪些常见的损失函数?、什么是FC全连接层?有哪些使用场景?、什么是Embedding嵌入层?有哪些使用场景?、什么是归一化?作用是什么?、什么是正则化?作用是什么?、什么是Dropout随机失活?作用是什么?、什么是梯度消失?什么情况会出现梯度消失?、什么是梯度爆炸?什么情况会出现梯度爆炸?、什么是梯度裁剪?为什么要进行梯度裁剪?
手写:手写线性回归经典模型、手写多标签分类经典模型
实战:房价预测模型实战、图像识别模型实战、股价预测模型实战、文本分类模型实战、模型可视化实战
图片3
专题三:NLP自然语言处理
理论:什么是One - Hot编码?有哪些使用场景?、什么是Bag - of - Words词袋模型?优缺点是什么?、什么是Word2Vec模型?优缺点是什么?、什么是SkipGram跳词模型?优缺点是什么?、什么是CBOW连续词袋模型?优缺点是什么?、什么是N - Gram模型?优缺点是什么?、NLP经典之RNN循环神经网络模型详解、NLP经典之LSTM长短期记忆网络模型详解、NLP经典之GRU门控循环单元模型详解、NLP经典之Seq2Seq序列到序列模型详解
手写:手写词向量模型、手写RNN循环神经网络模型、手写LSTM长短期记忆网络模型、手写GRU门控循环单元网络模型、手写Seq2Seq网络模型
实战:Bag - of - Words实战、Word2Vec之SkipGram实战、Word2Vec之CBOW实战、N - Gram实战、RNN文本生成实战、RNN股价预测实战、LSTM文本生成实战、GRU文本生成实战、Seq2Seq机器翻译实战、Seq2Seq文本单标签分类实战、Seq2Seq文本多标签分类实战
图片4
专题四:Transformer
论文:《Attention Is All You Need》论文解析
理论:什么是Attention注意力?如何理解注意力机制、什么Attention Score注意力分数?作用是什么?、什么是Attention Weight注意力权重?作用是什么?、什么是QKV?如何理解Q、K、V?作用分别是什么?、QKV的推导过程是什么怎样的?、什么是缩放Attention注意力?使用场景是什么?、什么是Self - attention自注意力?使用场景是什么?、Multi - head Self - attention多头注意力机制详解、Masked Self - attention掩码自注意力机制详解、什么是Causal Mask因果掩码?使用场景是什么?、什么是Positional Encoding位置编码?作用是?、有哪些方式可以实现位置编码?、什么是Residual Connection残差连接?作用是?、什么是Layer Norm层归一化?作用是什么?、什么是温度采样?什么情况下要进行温度采样?、什么是多项式采样?什么情况下要进行多项式采样?、什么是Teacher Forcing教师强制?使用场景?、自注意力机制和RNN优缺点对比
理论:Transformer整体网络架构详解、Transformer Encoder架构详解、Transformer Decoder架构详解
手写:手写Self - attention自注意力机制、手写Multi - head Self - attention多头注意力机制、手写Positional Encoding位置编码机制、手写Feed Forward机制
图片5
专题五:LLM大语言模型
理论:Transformer有哪些变体?使用场景分别是什么?、什么是BERT?它的特点是什么?使用场景有哪些?、什么是GPT?它的特点是什么?使用场景是什么?、什么是MLM掩码语言模型?底层是如何工作的?、什么是NSP下一句预测?底层是如何工作的?、什么是单向语境?什么是双向语境?、Encoder - Only网络模型架构详解、Decoder - Only网络模型架构详解、什么是Autoregressive自回归模型?、大型数据集如何获取?有哪些获取方式?、大型数据集数据预处理怎么做?有哪些常用方式?、BertTokenizer与GPT2Tokenizer的区别是什么?、什么是预训练?什么是微调?、为什么要微调?微调的优缺点是什么?、LoRA微调机制是如何工作的?为什么它高效?
手写:手写实现BERT网络模型、手写实现GPT网络模型
实战:BERT模型实战文本分类、GPT模型实战文本生成、用PyTorch预训练一个亿级参数量GPT模型、用HuggingFace预训练一个亿级参数量GPT模型、用LoRA微调GPT模型为一个Chat GPT模型、服务器部署GPT模型与流式推理输出实战
总结:梳理大模型底层实现、训练、微调整体流程与原理

![[衡天云]爆款云服务器 低至12元/月](/hty.png)