AGI大模型应用开发全新升级V5.0 抢占职场“薪”机

五大课程优势,助力获得更多职场机会,更为高薪与长久职业发展赋能

10大商业级项目 40+解决方案

丰富项目经验和多样化解决方案

在大模型项目落地中根据竞争力

顶尖师资团队深度解剖AI前沿技术

AI博士专家带队亲自授课每月更新技术内容

紧跟市场技术变化需要一站解决AI落地所需技术

自研AGI大模型实战算力平台学习更高效

首创AI练测算力平台

学员得到更方便贴切的算力支持

工作任务课程化学习即工作

模拟真实工作场景,增强商业项目操作能力

引流行业服务体系

AI项目承接与教学一体化,教学赋能学员

技术项目赋能教育,学习案例与时俱进

智泊AI 课程亮点
AI核心技术栈

真实企业级项目 掌握从需求分析到落地交付的完整闭环

基于FastGPT的微博舆情分析系统【热搜洞察】

项目简介

本项目旨在构建一个高效、智能的微博舆情分析系统,以应对社交媒体时代信息爆炸、舆情瞬息万变的挑战。该系统通过定制化的网络爬虫程序,实时爬取微博热搜榜单数据(包括标题、热度值等)以及对应热搜话题下的相关舆情数据(如用户评论、转发内容)。爬取的数据经过处理后,结构化信息被精准存入 MySQL 数据库,同时关键的舆情内容被构建成知识库。在此数据基础上,系统利用 FastGPT 平台搭建工作流 (Workflow)。该工作流能够基于用户输入的分析请求, 自动进行关键词提取,并通过 Function Calling 机制,智能调用预设函数来检索知识库中的语义信息,最终实现对特定热搜事件的快速、深度的舆情分析与洞察呈现。

FastGPT 微博舆情 舆情分析 网络爬虫 MySQL RAG

Function Calling 工作流

学习收获

1.掌握针对动态社交媒体平台(如微博)的实时网络爬虫技术与策略。
2.熟练运用MySQL进行结构化数据的存储、管理与高效查询。
3.理解并实践面向特定领域(舆情)的知识库构建方法,支撑语义检索与分析。
4.精通FastGPT平台,特别是其工作流设计与配置能力。
5.深入掌握Function Calling机制在LLM应用中的核心作用,实现模型与外部数据源(数据库、知识库)的智能交互。
6.实践利用LLM进行关键词提取等自然语言处理预处理任务。
7.获得构建从数据采集、存储、处理到智能分析的端到端舆情监控与分析系统的实战经验。
8.了解如何将大语言模型应用于社会计算与舆情洞察领域。

项目架构图

项目包含

核心平台: 1 (FastGPT) 数据源: 1 (微博热搜及相关舆情) 存储方案: 2 (MySQL, FastGPT内置知识库) 关键技术: 4+ (网络爬虫, FastGPT工作流, Function Calling, 关键词提取, 数据库交互) 主要模块: 2+ (数据爬取与存储模块, FastGPT舆情分析模块) 自动化流程: 1 (从数据获取到触发分析的流程)

混合检索医疗实体命名系统【智能药典】

项目简介

本项目聚焦于医疗信息领域,旨在攻克传统药物信息检索中长期存在的准确性不足与语义理解鸿沟的挑战,构建一个先进的混合检索架构。该系统基于 Elasticsearch 的关键词检索机制,以实现对结构化字段(如药物名称、功能主治)的快速定位;并结合利用 Sentence Transformers 模型生成高质量文本嵌入 并存储于 FAISS 索引库进行高效向量相似性检索的能力,以捕捉深层语义关联。该系统不仅能实现对医疗实体的高效精准标准化,还集成了通义千问大语言模型进行智能问答。此外,系统支持对 Word 文档的自动化解析、内容提取与结构化/向量化存储,无缝接入 Elasticsearch 与 FAISS 数据库,最终通过 Gradio 构建的 Web 界面提供统一的文档管理与智能问答交互服务,旨在打造一个面向医疗场景的高效、精准、具备深度语义理解能力的智能化信息服务平台。

混合检索 医疗信息 实体标准化 智能问答 RAG Elasticsearch

FAISS Gradio

学习收获

1.掌握并实践混合检索技术,理解关键词与向量检索的优势互补与融合策略。
2.熟练运用Elasticsearch进行结构化、半结构化数据的精准关键词匹配与索引构建。
3.深入学习Sentence Transformers模型进行高质量文本嵌入(Embedding)生成,并使用FAISS构建高效的向量索引及实现相似性搜索。
4.实践利用大语言模型完成复杂的NLP任务,如基于预定义字段的医疗实体标准化、问题意图分类及上下文感知的答案生成。
5.掌握文档(如Word)自动化解析、数据清洗及结构化存储(存入Elasticsearch)与非结构化向量化(存入FAISS)的数据处理全流程。
6.学习使用Gradio快速构建AI应用的交互式Web界面,提升用户体验。
7.获得构建端到端、面向特定领域(医疗)的智能信息检索与问答系统的实战经验。

项目架构图

项目包含

核心检索技术: 2 (Elasticsearch, FAISS) 关键AI模型/引擎: 2+ (Sentence Transformers 模型, 通义千问) 主要功能模块: 4+ (混合检索引擎, 医疗实体标准化模块, 智能问答生成器, 文档自动处理与索引模块) 核心技术栈: 4+ (Gradio, Elasticsearch, FAISS, Sentence Transformers库, Python文档处理库) 自动化流程: 1 (从文档上传到智能问答的端到端处理流程)

基于LangChain的通用文档智能助手【智库引擎】

项目简介

本项目旨在应对企业知识管理、学术研究等场景下传统文档处理效率低下与信息碎片化的挑战,基于 LangChain 框架构建一个一站式的通用文档智能助手。系统核心能力在于其先进的混合检索引擎,该引擎巧妙融合了基于 BM25 算法的关键词检索与利用 BGE-large-zh-v1.5 模型生成向量并结合 FAISS/Chroma 向量数据库实现的语义检索。为进一步提升检索精度,系统引入 BGE-reranker-large 交叉编码器进行结果重排序 (Re-ranking),并通过 EnsembleRetriever 进行动态加权融合。助手支持 PDF、DOCX、CSV、TXT、Markdown 等多种格式文档的自动化解析,能够无缝对接gpt等大语言模型,结合检索到的上下文生成高质量、支持流式输出的自然语言回答,并通过 RunnableWithMessageHistory 实现多轮对话管理。尤为关键的是,本项目引入 RAGAS 框架,对问答系统的上下文精确度、忠实性、上下文召回率及答案相关性等关键指标进行量化评估。整个系统通过 Gradio 构建用户友好的 Web 交互界面,支持文档上传、参数配置、动态知识库管理与历史对话追溯,最终提供一个覆盖文档解析、智能检索、生成式问答与效果评估全链路的智能化解决方案。

LangChain 混合检索 文档问答 RAG RAGAS 向量数据库

BM25 BGE模型 Gradio 知识管理

学习收获

1.精通LangChain框架,掌握构建复杂RAG应用的最佳实践。
2.深入理解并实现高级混合检索策略,结合BM25、向量检索(FAISS/Chroma)及重排序(BGE-reranker)技术。
3.熟练运用Unstructured库处理多种复杂文档格式的解析与文本分块。
4.掌握使用领先的中文嵌入模型(BGE-large-zh-v1.5)和重排序模型进行信息检索优化。
5.实践集成通义千问等大模型进行上下文感知的智能问答,并实现流式输出与多轮对话状态管理。
6.应用RAGAS框架对RAG系统进行全面的量化评估,理解关键评估指标。
7.获得使用Gradio快速搭建包含文件上传、参数调整、动态交互功能AI应用前端的经验。
8.具备构建、评估和优化面向企业级或研究级通用文档智能问答系统的能力。
9.理解动态知识库构建与管理的技术细节。

项目架构图

项目包含

核心框架: 1 (LangChain) 检索技术栈: 3+ (BM25, 向量检索 FAISS/Chroma, BGE-reranker) 关键AI模型/库: 5+ (BGE-large-zh-v1.5, BGE-reranker-large, gpt, Unstructured, RAGAS) 支持文档格式: 5+ (PDF, DOCX, CSV, TXT, MD...) 向量数据库选项: 2 (FAISS, Chroma) 核心功能模块: 5+ (多格式解析, 混合检索与重排序, 流式多轮问答, RAGAS评估, 动态知识库管理) 评估框架: 1 (RAGAS)

基于多模态 RAG 的智能文档问答系统

项目简介

本项目旨在攻克传统 RAG 在处理包含文本、表格与图像等混合内容文档时的局限性。通过融合 Unstructured 的文档解析能力、多模态嵌入或多模态大模型生成的图片摘要技术、以及多模态大模型或LLM的理解与生成能力,构建一个能够深度理解图文混合内容并进行智能问答的先进 RAG 系统。项目探索并实践了两种核心的多模态 RAG 策略:一种是基于多模态向量直接检索图文,另一种是通过生成内容摘要进行索引,再结合原始数据进行答案合成,最后基于多模态大模型完成优化,生成图文混合内容,旨在为复杂文档的信息提取和智能交互提供高效解决方案。

多模态RAG 文档问答 图像理解 多向量检索 LLM 多模态大模型

LangChain Unstructured

学习收获

1.掌握处理图文混合文档的多模态RAG核心流程与不同策略(基于嵌入vs.基于摘要)。
2.实践使用Unstructured库从PDF中精准提取文本、表格和图片元素。
3.应用多模态向量模型(multimodal-embedding-v1)对图像和文本进行统一向量化表示与检索。
4.实践使用大语言模型(qwen-max,qwen-vl-max)进行文本/图像摘要生成,优化检索相关性。
5.掌握LangChain中MultiVectorRetriever的使用,实现基于摘要索引、检索原始文档块的策略。
6.学习构建结合向量数据库(Chroma)与文档存储(InMemoryStore)的混合信息存储与检索方案。
7.实践构建面向多模态大模型的复杂Prompt,有效融合检索到的文本、表格和图像信息进行答案生成。
8.理解不同多模态RAG架构的优劣势、成本与效果权衡。
9.获得搭建端到端的多模态信息处理与智能问答系统的实战经验。

项目架构图

项目包含

核心架构: 2 (基于多模态嵌入 RAG, 基于摘要与多向量检索 RAG) 核心技术栈: 6+ (Unstructured, 多模态/文本嵌入, LLM/多模态大模型, LangChain, Chroma, MultiVectorRetriever) 关键功能模块: 5+ (PDF元素提取, 图文向量化/摘要生成, 向量/多向量检索, Prompt构建, 多模态答案生成) 集成模型/服务: 3+ (DashScope 文本嵌入, DashScope 多模态嵌入, qwen-max, qwen-vl-max) 处理数据类型: 3 (文本, 表格, 图片) 自动化流程: 1 (端到端文档解析到智能问答) 应用领域: 1 (复杂文档智能信息处理)

命理Agent机器人【AI算命先生】

项目简介

本项目是一款基于 LangChain 框架与 FastAPI 构建的智能命理Agent机器人,旨在融合博大精深的传统命理学与人工智能技术。其核心人设精心设定为一位虽目不能视、却深谙阴阳五行之道的“江湖”算命先生,全程采用繁体中文进行应答,并融入独特的口头禅与经历感,力求为用户带来高度沉浸式的对话体验。通过 LangChain Agent 的智能多工具协同机制,能够灵活调度多种能力,包括调用外部API实现精准的八字排盘与解析、基于本地 Qdrant 向量数据库检索定制化的龙年运势知识库、执行随机的实时占卜(摇卦功能 yaoyigua 并返回卦图与解读)、根据关键词进行周公解梦查询,以及利用 SerpAPI 进行实时网络搜索以应对未知信息。尤为突出的是,系统集成了情绪自适应机制,能分析用户输入的情绪倾向(正面/负面/中性/愤怒),并动态调整自身的回答语气与风格,使得交互不仅智能化,更富有人情味与真实感。同时,项目通过 Redis 结合 Token缓冲记忆与定期摘要实现了长期记忆管理,并通过便捷的接口支持动态本地知识库构建,确保了信息服务的时效性与个性化。

LangChain 命理AI FastAPI Qdrant Redis SerpAPI

情绪识别 向量数据库 人设驱动 多工具协同

学习收获

1.精通LangChain框架,掌握智能调度多种异构工具(外部API、本地数据库、实时搜索、自定义函数)解决复杂任务的能力。
2.实践基于LLM/Prompt的情绪识别与自适应响应机制,构建具有高度拟人化交互特征的AI Agent。
3.深入理解并应用长期记忆管理技术,结合Redis、Token缓冲和对话摘要解决大语言模型上下文限制问题。
4.掌握使用Qdrant等向量数据库构建和管理本地知识库,支持动态内容更新(网页抓取、向量化)与高效检索。
5.实践通过FastAPI构建健壮、可扩展的后端服务,并学习API密钥管理等安全实践。
6.学习集成并调用外部API(如命理API、SerpAPI)扩展Agent功能边界。
7.体验人设驱动(Persona-Driven)的AI设计,理解如何通过语言风格(繁体中文、口头禅)和行为模式塑造独特的AI个性。
8.获得构建融合传统文化与现代AI技术、面向特定垂直领域(命理)的创新型AI应用的完整经验。
9.理解模块化设计思想,便于未来功能扩展(如紫微斗数、姓名测算)。

项目架构图

项目包含

核心框架: 2 (LangChain, FastAPI) AI模型/服务: 4+ (LLM (Implicit), Embedding Model (Implicit), SerpAPI, External Bazi API) 关键特性: 6+ (Agent多工具协同, 情绪自适应引擎, 长期记忆系统, 动态知识库构建, 实时占卜, 八字排盘) 数据库/缓存: 2 (Qdrant, Redis) 核心技术栈: 4+ (LangChain Agent, Vector DB Ops (Qdrant), Memory Management, Emotion Adaptation Logic) 语言风格: 1 (繁体中文 + 特定人设)

基于 Agents 打造AI模拟面试机器人

项目简介

为应对传统面试培训中固有的高成本与场景僵化挑战,本项目开创性地构建了一款智能化 AI 模拟面试机器人。该系统基于Gradio和Flask框架实现全栈 AI 开发应用,深度融合了LLM技术、实时语音识别 (STT) 以及自然的语音合成 ( TTS) 能力。它旨在通过模拟真实的面试场景,包括动态生成高度相关的面试问题,支持复杂的多轮对话 ,并基于 LLM 的强大上下文理解与意图识别提供专业化、数据驱动的反馈,为求职者提供全面、高效、低成本的面试训练体验,显著提升应试能力。

AI 模拟面试 大语言模型 (LLM) 语音识别 (STT) 语音合成 (TTS)

面试训练 AIGC

学习收获

1.掌握LLM、STT、TTS三大核心AI技术的融合应用,构建复杂交互系统。
2.学习Prompt Engineering和上下文管理,实现动态、连贯的多轮面试对话流。
3.实践结合意图识别与LLM,生成贴合用户目标职位和水平的面试问题。
4.理解从语音/文本输入到智能分析反馈的全链路自动化处理流程。
5.获得开发结合前端Gradio、后端Flask与模型服务(本地/API)的全栈AI应用经验。
6.探索AI在教育培训和人力资源领域的创新应用与商业价值。

项目架构图

项目包含

功能模块: 4+ (动态问题生成, 多轮对话管理, 实时语音处理, 个性化反馈等) 集成模型/API数: 3+ (LLM, STT, TTS - 支持本地与云端API) 核心技术栈: 3+ (Gradio, Flask, Prompt Engineering) 自动化流程: 1 (端到端面试模拟与评估)

基于 AutoGen 框架的多代理协作短视频生成项目【AI短视频】

项目简介

传统短视频制作依赖繁琐的剪辑、配音、字幕等多环节,成本高昂。 本项目基于AutoGen框架,打造多智能体协作系统, 通过文本指令(Prompt)一键生成高质量YouTube短视频——脚本编写(script_writer)、 AI配音(豆包TTS)、视觉设计(Pollinations.AI)及导演(director)智能协同, 全链路自动化输出成片。以技术重构创作流程,降低专业门槛,加速AI内容生产落地。

短视频生成 AutoGen 多代理协作 AIGC 自动化

文本到视频 TTS 图像生成

学习收获

1.掌握AutoGen框架,实现复杂任务的多代理协作开发。
2.学习集成外部AI服务API(如豆包TTS、Pollinations.AI)到应用中。
3.实践从文本提示到完整视频(含字幕、语音、图像、音乐)的自动化生成流程。
4.理解不同角色的AI代理如何分工、协作并整合结果。
5.获得AI驱动内容创作(AIGC)领域的实战项目经验。

项目包含

功能模块: 4+ (脚本, 配音, 图像, 导演等) 集成API数: 2+ (TTS, 图像生成) 核心代理数: 4 自动化流程: 1 (端到端)

虚拟数字人直播机器人【AI虚拟主播】

项目简介

本项目基于先进的开源虚拟数字人框架 VirtualWife ,旨在构建一个高度智能化、可交互的虚拟数字人直播机器人。该系统深度集成了大语言模型 (LLM)、文本驱动的面部表情与肢体动作技术,以及多样的语音合成 (TTS) 引擎。通过赋予数字人可定制的“灵魂”(个性化角色设定)与长短期记忆(记忆机制)能力,我们致力于打造一个能够与用户进行自然、流畅、富有情感连接的交互体验的AI驱动虚拟主播。其核心目标是探索 AIGC 在实时直播、虚拟陪伴、乃至情感支持(如虚拟恋爱导师、心理咨询师)等领域的创新应用,并通过流式数据传输优化响应速度,实现低延迟互动。

虚拟数字人 直播机器人 AI虚拟主播 大语言模型 (LLM)

语音合成 (TTS) VRM 实时交互 AIGC Docker Ollama

学习收获

1.掌握基于开源项目构建复杂AI应用的流程,理解虚拟数字人系统架构。
2.实践Docker容器化部署,实现跨平台(Linux/Windows/MacOS)快速环境搭建。
3.深入理解大语言模型(LLM)在对话系统中的应用,包括多模型切换及私有化部署(通过Ollama)。
4.探索长短期记忆机制在维持对话连贯性和角色一致性中的作用。
5.配置与实现面向直播平台(B站)的实时流推送。
6.获得AI生成内容(AIGC)在虚拟娱乐和人机交互领域的实战经验。

项目包含

核心技术集成: 4+ (大语言模型集成, TTS合成, VRM渲染, 文本到动画) 部署支持: 2+ (Docker一键部署, 跨平台兼容性) 模型/服务灵活性: 3+ (多种LLM支持含Ollama, 多种TTS引擎, VRM定制) 关键特性: 5+ (自定义角色, 记忆系统, 直播能力, 语音交互, 文本驱动动作) 平台集成: 1+ (B站直播集成)

AI虚拟面试官——智能模拟面试机器人【情商AI面试官】

项目简介

本项目旨在为求职者与教育机构打造一个高度沉浸式的模拟面试环境,通过构建一个集成了虚拟形象交互 、智能问答引擎、情绪识别 与 RAG 的AI虚拟面试官。该引擎结合了基于 BM25 的稀疏检索与利用向量相似性的密集检索,并通过交叉编码器进行结果重排序 (Re-ranking),从而能够从用户上传的多格式文档知识库中精准提取上下文,生成专业且具有深度的面试问答。结合 Microsoft Azure 语音服务驱动的虚拟形象 (AI数字人),支持多模态交互(文本输入、多风格语音合成输出:普通话、粤语、东北话等),提供极其逼真和个性化的互动体验。后端服务采用 FastAPI 构建,Redis 负责高效管理多轮对话历史与长上下文记忆,并可集成 SerpAPI 进行实时网络搜索以补充最新信息。前端则通过 HTML/CSS/JS 结合 Azure SDK 呈现用户界面与虚拟形象交互。最终目标是打造一个能显著提升用户面试技巧、增强临场信心的高效备考工具。

AI模拟面试 LangChain RAG 情绪识别 虚拟形象

Microsoft Azure TTS OpenAI GPT FastAPI Chroma BM25

多模态交互 SerpAPI

学习收获

1.精通使用LangChain构建复杂的RAG应用,实现从文档加载、混合检索、重排序到生成式问答的全链路。
2.掌握并实践高级混合检索策略,结合BM25、向量数据库(Chroma)及交叉编码器重排序技术提升信息检索精度。
3.实践基于LangChain/LLM的情绪识别与自适应反馈机制,构建更具“情商”的AI交互系统。
4.熟练掌握集成Microsoft Azure语音服务实现虚拟形象动画驱动与多风格、多方言TTS输出。
5.熟练运用FastAPI构建高性能、异步的后端服务,结合Redis进行有效的长对话历史管理。
6.掌握处理多种格式文档(PDF,Word,CSV)的解析、分块、向量化及动态知识库构建流程。
7.学习集成外部API(如OpenAI,Azure TTS,SerpAPI)以增强AI应用功能。
8.获得HTML/CSS/JS与Azure SDK结合构建交互式、多模态前端界面的经验。
9.具备构建端到端、面向特定场景(技术面试)、融合多种AI能力的智能模拟系统的综合实战能力。

项目包含

核心框架: 2+ (LangChain, FastAPI) AI模型/服务: 5+ (OpenAI GPT, Embedding Model (Implicit), Reranker Model (Implicit), Microsoft Azure TTS, SerpAPI) 检索技术栈: 3+ (BM25, Chroma Vector Search, Cross-encoder Reranker) 关键特性: 5+ (RAG问答引擎, 情绪自适应反馈, 虚拟形象与多风格TTS交互, 混合检索与知识库支持, 多轮对话管理) 数据库/缓存: 2 (Chroma, Redis) 前端技术栈: 1 (HTML/CSS/JS + Azure SDK) 支持文档格式: 3+ (PDF, Word, CSV)

基于 FastGPT 与 YOLO 的医疗检测条带智能分析系统

项目简介

针对传统多模态大模型在医疗图像分析中面临的数据依赖性强、训练成本高昂及效果波动性大的挑战,同时纯文本大模型无法直接处理视觉信息的问题,本项目创新性地提出并实践了一种“CV+LLM”混合架构。该架构特别适用于处理具有固定语义的医疗图像,如艾滋病检测条带(IMT、MP等)。通过结合传统图像处理技术进行图像预处理和优化,利用微调后的 YOLOv8 模型进行精准检测,并提取关键视觉特征。利用大语言模型强大的自然语言理解和生成能力,并结合领域知识库,实现对检测条带的全自动化分析与智能化诊断。本项目旨在解决从复杂背景中精准定位与校正条带、将视觉特征语义解析为医学意义(如抗体显色状态、感染阶段推断),并基于实时检测结果进行动态决策、生成专业诊断报告的核心问题。

医疗影像分析 AI辅助诊断 CV+LLM混合架构 图像处理 RAG

Fine-tuning YOLOv8 目标检测 CV 数据标注 FastGPT

自动化 试纸判读

学习收获

1.深入理解并实践"CV+LLM"混合架构的设计理念,解决特定场景下多模态处理的痛点。
2.实践YOLOv8目标检测模型的微调(Fine-tuning)技术,使其适应特定医疗检测条带的识别需求,提升模型在该场景下的性能。
3.熟悉将计算机视觉(CV)技术应用于具体医疗场景,并理解模型微调在提升针对性任务准确率中的关键作用。
4.实践多种图像预处理技术(灰度化、二值化、旋转矫正、背景去除)以优化模型输入和后续分析。
5.深入理解并实践如何通过API将CV系统的结构化输出与大语言模型对接,实现跨模态信息的融合与高级语义理解。
6.获得使用专业标注平台进行目标检测数据标注,并将其转换为YOLO格式的实践经验。
7.掌握利用FastGPT结合RAG进行专业化文本生成(医学诊断报告)的方法。
8.获得构建端到端AI应用的实战经验,覆盖从数据准备、模型训练、部署应用到结果输出的全流程。
9.获得在医疗AI领域应用先进AI技术解决实际问题的宝贵项目经验。

项目包含

核心架构: 1 (CV+LLM 混合架构) 核心技术栈: 5+ (传统图像处理算法, YOLOv8 目标检测, RAG, Prompt Engineering, Fine-tuning) 关键功能模块: 4+ (图像预处理, 目标检测, 灰度分析与定位, FastGPT 交互诊断) 集成模型: 2 (微调后的 YOLOv8 检测模型, 大语言模型) 核心流程环节: 3 (数据标注与准备, 模型微调, 检测与分析) 辅助工具链: 2+ (数据标注转换工具, 数据集构建脚本) 自动化流程: 1 (端到端图像到诊断报告生成) 应用领域: 1 (医疗检测条带智能分析)

基于Qwen2.5的医疗领域大模型微调与评估

项目简介

本项目旨在探索和实践大型语言模型(LLM)在垂直领域(医疗)的应用潜力。以 Qwen2.5-0.5B-Instruct 为基座模型,利用监督微调(SFT)技术,针对特定的医疗任务进行优化。项目涵盖了从数据准备、模型微调(包括手动实现和使用 LLaMA-Factory 框架两种方式)到效果评估的全流程。通过整合多种医疗数据集(对话、术语规范化、报告生成),旨在提升模型在医疗问答、临床术语标准化及病历报告自动生成等方面的专业能力和准确性,最终目标是构建一个更懂医疗领域的 AI 助手。

大模型微调 医疗AI Qwen2.5 监督微调 (SFT) LLaMA-Factory

医疗对话 术语规范化 报告生成 模型评估 自动化 试纸判读

学习收获

1.掌握针对垂直领域(医疗)进行大模型监督微调(SFT)的完整流程。
2.实践使用Hugging Face Transformers库进行模型训练。
3.理解指令微调数据的构建方法,特别是利用tokenizer.apply_chat_template处理不同对话格式(单轮/多轮)及prompt注入。
4.学习SFT中的关键技术:损失计算时Mask非目标Token的Label(设置为-100)。
5.实践使用LLaMA-Factory框架通过命令行高效进行模型微调。
6.掌握多种医疗数据集(对话、术语规范化、报告生成)的预处理与整合方法。
7.应用Accuracy和BERTScore等指标,客观评估微调前后模型在特定任务上的性能提升。
8.获得对比分析原始模型与微调后模型效果差异的实践经验。
9.熟悉模型下载(ModelScope)、环境配置及模型保存等工程实践。

项目包含

核心模型: 1 (Qwen2.5-0.5B-Instruct) 微调方法: 1 (SFT - Full Parameter) 实现方式: 2 (Hugging Face Trainer 手动实现, LLaMA-Factory 命令行) 核心技术栈: 4+ (Transformers, Datasets, Torch, LLaMA-Factory) 覆盖医疗任务: 3 (医疗对话, 术语规范化, 报告生成) 使用数据集: 3 (Chinese-medical-dialogue, yidu-n7k, IMCS-V2-MRG) 评估指标: 2+ (Accuracy, BERTScore)

基于 Qwen2-VL 的医疗影像多模态智能分析系统【AI影像解读师】

项目简介

为应对医疗领域影像数据解读耗时费力、依赖专家经验的现状,本项目基于多模态大模型 Qwen2-VL-2B-Instruct,通过针对医疗领域的 LoRA 微调构建一套智能辅助诊断系统。该系统旨在实现医学影像与自然语言的深度跨模态理解与交互,能够处理包括 CT、X光、病理切片在内的多种医学图像。通过利用 LLaMA-Factory 进行高效微调,借助 Xinference 实现生产级部署,并提供 OpenAI 兼容API。本项目致力于为医生提供智能化的辅助诊断 建议、影像自动解读及结构化报告生成等服务,以提升诊疗效率与准确性。

医疗影像分析 多模态大模型 Qwen2-VL LLaMA-Factory 模型微调

跨模态理解 智能辅助诊断 Xinference

学习收获

1.掌握使用LLaMA-Factory框架对多模态大模型(Qwen2-VL)进行医疗领域适配微调的核心技术与流程。
2.实践使用LLaMA-Factory框架进行高效参数精调,特别是针对多模态任务采用LoRA适配技术。
3.学习设计与实现面向特定任务的损失函数,如结合分类与描述生成的多任务学习。
4.掌握使用Xinference框架进行生产级模型服务部署。
5.实践构建兼容OpenAI API标准的服务接口,实现多轮对话上下文管理。
6.全面体验从数据准备、模型微调、性能优化到服务化部署的端到端多模态AI应用开发流程。
7.探索AI在提升医疗影像分析自动化水平和辅助临床决策方面的巨大潜力。

项目包含

核心模型: 1 (Qwen2-VL-2B-Instruct) 核心框架: 2 (LLaMA-Factory, Xinference) 微调技术: 1 (LoRA) 关键功能模块: 5+ (数据预处理与隐私保护, 微调层, 推理服务层, API接口层, 报告生成逻辑) API标准: 1 (兼容OpenAI标准,含安全特性) 应用领域: 1 (医疗影像多模态分析)

基于 LLaMA-Factory 的 GLM-4 高效微调与轻量化部署实践

项目简介

随着大语言模型(LLM)的快速发展,如何高效微调与部署国产大模型成为实际应用中的核心挑战。本项目基于智谱AI开源的GLM-4-9B-Chat模型,结合高效微调框架LLaMA-Factory实现 LoRA 微调,验证不同量化技术(8Bit/4Bit)对模型性能与资源占用的影响,并构建微调模型的OpenAI兼容接口,并集成至NextChat可视化平台。探索从模型微调(Lora)、轻量化(8Bit/4Bit量化)到可视化部署的全流程,旨在为中文场景下的垂直领域应用提供技术验证。

大语言模型 (LLM) GLM-4 LLaMA-Factory Fine-Tuning Lora

模型量化 轻量化部署 OpenAI API NextChat

学习收获

1.掌握使用LLaMA-Factory框架对主流大语言模型进行高效微调的核心操作与配置。
2.深入理解并实践LoRA微调的原理、适用场景及训练策略。
3.熟练应用8-Bit和4-Bit等模型量化技术,实现模型轻量化,降低显存占用。
4.掌握构建和处理自定义数据集的方法,支持Alpaca和ShareGPT等多种常用格式,并利用datasets库进行管理。
5.掌握将微调和量化后的模型封装成OpenAI兼容API接口的技术,实现服务的标准化部署。
6.获得将后端模型服务集成到NextChat等可视化前端平台的实战经验,构建完整的交互式应用。
7.全面体验从模型获取(ModelScope/HuggingFace)到最终应用的全流程,特别关注国产模型的优化与部署实践。

项目包含

核心框架: 1 (LLaMA-Factory) 目标模型: 1 (GLM-4-9B-Chat) 微调技术: 1 (LoRA) 量化技术: 2 (8-Bit, 4-Bit) 核心流程环节: 5+ (模型下载与验证, 数据准备, 微调训练, 量化处理, API部署与可视化集成) 部署接口标准: 1 (OpenAI API) 可视化前端: 1 (NextChat) 数据集格式支持: 2 (Alpaca, ShareGPT)

实力派名师 全程陪伴为教学质量护航

授业解惑,亦师亦友!多年实战经验,讲透技术重点、难点

  • 鲁为民

    鲁为民 MoPaaS创始人 大模型课程主理人

    清华大学学士和加州理工学院 (CalTech) 博士学位。

    2023 年也获得中国智能科学最高国家奖“吴文俊人工智能科学技术奖”(个人奖)获得者。

    技术兴趣是深度学习基础和解释、强化学习、智能体、大模型垂直应用解决方案,LLMOps,AI 安全和 AI 应用工程。
    先后在相关领域在包括 IEEE Transactions 等学术期刊和主要国际会议等上发表超过 50 篇学术论文和多项美国和中国专利和申请。

  • 松隐

    松隐复旦大学博士智学优课特邀讲师

    研究兴趣:大模型技术、知识图谱、数据处理

    尤其擅长大模型在医学领域的应用,曾直接复制上海市卫健委多个医疗领域大模型的研发工作,他先后在相关领域在包括 IEEE Transactions 等学术期刊和主要国际 会议等上发表超过10余篇

  • 方新

    方新副教授211高校教师,工学博士,硕士生导师

    中国计算机学会计算机辅助设计与图形学专委会执行委员

    中国计算机学会CCF智能汽车分会执行委员

    国家自然科学基金评审专家

    研究兴趣为人工智能及其交叉应用作为课题负责人,先 后承担国家自然科学基金、国家863计划子课题、国家重 点实验室开放课题等国家及省部级项目。参加了新药创 制重大专项、国家重点研发计划重点项目、自然基金委 项目等多项纵向科研项目,负责二十余项横向项目。

  • 周瀚

    周瀚211高校教师教授工学博士

    研究兴趣为人工智能及其应用、大数据与云计算。

    主持、参与包括国家自然科学基金项目在内的纵横向科研项目50余项,获上海市科技进步奖二等奖1项、上海市自然科学奖三等奖1项。

  • 李凯

    李凯技术总监CTO

    擅长C/C++/Java/Python等语言

    致力于Android系统研发多年,目前致力于人工智能大模型研发与教学
    拥有多年的IT教学分享经验,腾讯课堂金牌讲师。

  • lance

    lanceMoPaaS技术总监大模型技术专家商业落地先锋

    十余年互联网开发经验,精通C/C++、Java、Python

    专注大模型商业应用研发。
    多次带队获国家级、省级奖项,腾讯课堂特邀讲师。

  • cat

    catMoPaaS大模型技术专家智学优课明星讲师

    多年一线大厂项目架构设计与开发经验

    某技术公司数据处理中心负责人,高级爬虫工程师
    多年一线大厂项目架构设计与开发经验
    国内首批大模型研发者,私有化大模型开发者,腾讯课堂特邀讲师。

  • 大鱼

    大鱼大模型全栈技术专家

    大模型全栈技术专家

    Kubeflow维护者

    TensorFlow贡献者

    参与上市企业深度学习平台及云服务研发
    为新能源、金融、政务等行业定制私有大模型,腾讯课堂高级讲师

  • 一粟

    一粟智学优课AGI产研负责人

    9年大数据/深度学习经验

    全栈开发者,创业背景;上市公司AI模型专家;开源项目贡献者;参与研发模拟训练系统。

  • 罗骏

    罗骏清华大学硕士

    Snowflake 搜索架构师

    MC 存储系统架构师和资深技术经理

    具有非常丰富的大模型项目开发经验;
    专长:大模型、向量数据库、知识图谱、RAG引擎、智能体;

  • 沈阅斌

    沈阅斌MoPaaS 研发副总裁

    15+年企业软件开发/管理经验

    尤其擅长算力平台PaaS的架构建设;

    专长:AI 工程和平台、云计算、容器/PaaS、软件工程、大规模软件开发

  • 云帆

    云帆20+年软件工程经验5+年教学经验

    某上市公司研发经理

    国内首批大模型应用开发者

    自研向量数据库Lotus的参与者

    专长:软件工程、大模型应用开发、项目管理、教学研究

  • 大白

    大白中南大学学士

    10+年开发和管理相关工作经验

    10+年教学经验

    有高并发海量数据相关的处理经验,目前从事智泊AI大模型应用开发
    专长:AI 工程和平台、全栈开发、软件工程、大模型软件开发

×
×