首页
应用开发
就业服务
服务通道
新闻中心
实训算力平台
多模态训练营
模块一:多模态基础与关键技术
(前4课时)
第1课时
多模态AI概述与发展脉络
Modalities分类:图像、文本、语音、视频、传感器等
多模态研究演进:从浅层融合到统一架构(如
VLM/VLA
)
关键挑战:模态异构性、对齐机制、时序与空间维度统一
应用场景:
AIGC
、医疗、自动驾驶、视频分析、安防、推荐
第2课时
多模态表示与对齐
图像表示:
CNN
,
ViT
文本表示:
BERT
,
GPT
语音/音频表示:
MFCC
,
Whisper
视频表示:
3D-CNN
、
SlowFast
、
Video-Swin Transformer
、
TimeSformer
表征对齐方法:
Early/LateFusion
、
CrossAttention
、
CLIP
、
X-CLIP
第3课时
多模态融合与学习
融合方式:共享语义空间、跨模态注意力机制
对比学习方法:
SimCLR
、
CLIP
、
X-CLIP
、
ALBEF
实战演示:用
CLIP
实现图文相似检索;用
X-CLIP
实现图文视频检索
第4课时
多模态基础架构
模型剖析:
CLIP
/
BLIP
/
Flamingo
/
Kosmos
/
Video-LLaMA
/
InternVid
多模态大模型结构:编码器、解码器、交叉模态层
数据集:
COCO
、
Flickr30K
、
VQA
、
HowTo100M
、
YouCook2
、
Ego4D
、
ActivityNet
模块二:实战技能构建
(第5-8课时)
第5课时
多模态数据处理实战
视频问答(Video-QA)任务定义:开放式Vs选择式
主流方法:TVQA、VQA-T、UniVL
视频摘要:静地抽取vs语义提炼,Text-to-VideoSummary
实战:用Video-LLaMA进行视频问答;EgoSchema生成视频摘要
第6课时
多模态模型训练与调优
动作习胜SlowFast、13D、TSN等架构对比
视频时间建模技巧:TSM、TimeSformer、Video-Swin
应用案例:体育分析、安防监控、行为预测
实战:用SlowFast对视频进行行为分类和剪辑定位
第7课时
视频生成与AIGC能力
Text-to-Video生成Make-A-Video、Phenaki、Sora等
图像引导视频生成:VideoCrafter、AnimateDiff、Pika
Prompt设计:时间轴控制、主体/背景限定
实战:用VideoCrafter实现从文本描述生成短视频
第8课时
多模态模型微调与评估
微调方式LoRA、Adapter、Prompt-tuning(语义微调适配)
多模态评估指标:Recall@k、CIDEr、FVD、CLIPScore
数据挑战:视频数据大小与帧率对齐的影响
实战:用LoRA微调一个短视频文本匹配模型(XID-CLIP)
模块三:行业应用与部署实践
(第9-12课时)
第9课时
视频与视觉智能体(VLA)
视频+语言智能体架构(VLA)与主动感知能力
LangChain+视频输入+动作输出的管道式智能体
案例:机器人识别视频任务指令并执行(抓取、搬运等)
实战:构建一个视频理解+行动智能体
第10课时
视频推荐与多模态搜索系统
多模态推荐架构:视频embedding、用户画像、上下文建模
应用场景:短视频平台(抖音、YouTube)、推荐推荐
实战:视频内容理解+用户兴趣召回+TopN排序推荐系统
第11课时
视频理解在医疗与工业中的应用
医疗:术中视频辅助决策、内窥镜视频诊断
工业:设备操作流程识别、异动动作检测
案例:SangClip、VIT基于图像行为识别
实战:用视频理解模型进行一段操作视频的流程标注
第12课时
开源框架与系统部署
开源视频模型:InternVid、Video-LLaMA、X-CLIP、NMAction2
部署方式:Streamlit+赣珠上传、FastAPI实时视频问答接口
实战:部署支持视频问答/摘要/检索的多模态系统
在线咨询