深度学习与多模态AI实战课程

第1模块
全连接⽹络、CNN、RNN 的基本原理
神经⽹络的基本结构:输⼊层、隐藏层、输出层
感知机与多层感知机(MLP)的计算机制
前向传播与反向传播的数学原理
卷积神经⽹络(CNN)的卷积、池化、特征图计算
循环神经⽹络(RNN)的结构特点、梯度消失/爆炸问题
CNN vs RNN的任务适⽤场景对⽐
激活函数、损失函数、优化器基础
第2模块
AlexNet 实现与多模态⼤模型基础
AlexNet 的整体架构与创新点(ReLU、Dropout、重叠池化)
AlexNet 在 ImageNet 上的训练细节与典型参数设置
VGG ⽹络结构与特征层级设计
GoogleNet、ResNet 的核⼼思想与差异
多模态⼤模型(VLM / VLA)定义与基本组成
不同模态数据集的类型与构建⽅法(图像/⽂本/⾳频)
开发环境搭建:Anaconda 的安装与基础使⽤
第3模块
GoogleNet(Inception)⽹络深⼊解析
Inception 模块的设计思想与多尺度卷积
1×1 卷积降维的作⽤与通道融合
GoogLeNet 的整体⽹络结构(22 层 / 辅助分类器)
⽹络复杂度与计算效率优化
Inception V1 → V2 → V3 的演进
实例:GoogleNet 在分类任务中的应⽤流程
第4模块
经典 Transformer 架构解析
输入嵌入与位置编码(绝对/相对位置编码)
Self-Attention 的数学计算流程
Encoder–Decoder 结构详解
Multi-Head Attention 的作用与并行机制
残差连接、LayerNorm、Feed Forward 层结构
Transformer 解决 RNN 长依赖问题的本质
Transformer 在 NLP 与 CV 中跨模态扩展
第5模块
注意⼒机制与多头注意⼒机制
注意⼒机制的基本思想及 Q/K/V 建模
点积注意⼒ vs 加性注意⼒
Multi-Head Attention 的分头机制与聚合⽅式
注意⼒矩阵的可视化与可解释性
局部注意⼒、稀疏注意⼒、因果注意⼒
注意⼒机制在 NLP、CV、跨模态任务中的应⽤
注意⼒机制与 Transformer 的协同⼯作原理
第6模块
基于注意⼒机制的机器翻译实践
机器翻译的基本任务定义
Encoder–Decoder RNN/GRU/LSTM 架构
Attention 在神经机器翻译中的优势
平行语料构建与 tokenization
训练指标 BLEU 的计算方式
模型预测中的 Beam Search、贪心解码
英 ↔ 西 翻译任务完整训练流程复现
第7模块
莎⼠⽐亚⻛格⽂本⽣成 + 多模态前沿综述
RNN/LSTM ⽣成式模型的核⼼思路
⽂本⻛格迁移的建模⽅式
通过字符级模型⽣成莎⼠⽐亚⻛⽂本
多头注意⼒在⻛格⽣成中的作⽤
⽂本⽣成的温度、top-k、top-p 解码
多模态前沿进展(VL、VLM、Video-Language)综述
当前多模态⼤模型⽅向的研究趋势与典型架构
第8模块
图像描述(Image Captioning)与Qwen VL模型项⽬实践
图像编码器(CNN/ViT)与⽂本解码器(LSTM/Transformer)结合⽅式
Encoder → Decoder 结构在跨模态任务中的应⽤
经典模型:Show and Tell / Show Attend and Tell
注意⼒可视化:图像区域注意⼒热⼒图
COCO Caption 数据集结构
评价指标:BLEU、CIDEr、ROUGE、METEOR
图像—⽂本⽣成的端到端训练流程
第9模块
图像描述(Image Captioning)与Qwen VL模型项⽬实践
VL ⼤模型架构:视觉编码器 + ⽂本解码器
QwenVL2.5 的结构与特征(tokenizer、patch embedding、vision tower)
LoRA / QLoRA 在多模态微调中的应⽤⽅式
多模态指令微调(VLM Instruction Tuning)
视觉问答(VQA)、OCR、图⽂理解的任务构建
训练样本格式:image + text + conversation
微调后的模型评估⽅式(准确率、可解释性、⽰例对⽐)
第10模块
课程总结与项⽬实践
全课程知识结构回顾:CNN → RNN → Transformer → 多模态
各类⽹络的对⽐总结与适⽤任务梳理
多模态任务(翻译/⽣成/图⽂/视频)的统⼀建模逻辑
常⻅训练技巧与模型调优策略总结
磁州窑⽂物视频项⽬解析:
  • 视频理解任务定义
  • 视频 embedding 构建
  • 图⽂对⻬⽅式
  • 多模态模型在⽂物解读任务中的价值
深度学习学习路线与后续能⼒提升⽅向
学习成果复盘与问答