擎天LLM
码龄3年
求更新 关注
提问 私信
  • 博客:81,600
    81,600
    总访问量
  • 57
    原创
  • 280
    粉丝
  • 7
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:新疆
加入CSDN时间: 2022-11-03

个人简介:大四准应届生,AGI赛道逐梦人!从Transformer架构啃到千亿参数微调,从Hugging Face生态玩到分布式训练实战,热衷用代码解锁智能边界。当前全力冲刺大模型研发岗,目标成为“懂原理、能落地”的AI工程师。 日常深耕LLM/Agent/多模态领域:复现经典模型、调参微调垂类数据、折腾vLLM+FastAPI低成本部署方案,7B模型推理服务、13B模型显存优化实战经验丰富。坚持输出“真·技术笔记”——拒绝教程搬运,只聊论文落地时的细节卡点,把踩坑到解决的完整链路掰开揉碎讲给你听。关注我,围观一个AI萌新的硬核成长史!评论区等你来唠技术~

博客简介:

A5522000的博客

查看详细资料
个人成就
  • 获得1,455次点赞
  • 内容获得9次评论
  • 获得1,080次收藏
  • 博客总排名23,857名
  • 原力等级
    原力等级
    3
    原力分
    447
    本月获得
    2
创作历程
  • 57篇
    2025年
成就勋章
TA的专栏
  • LLM
    26篇
  • 机器学习
    13篇

TA关注的专栏 1

TA关注的收藏夹 0

TA关注的社区 1

TA参与的活动 7

兴趣领域 设置
  • Python
    pythonflasknumpypandaspipconda
  • 人工智能
    自然语言处理知识图谱rnnpytorchpaddlepaddlebertnlpscikit-learntf-idf
创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展,AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型,为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新,我们特此发起本次征文活动,诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用 本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向,分享以下方面的内容: 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略,例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景(例如二次元、写实风)的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享,例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术(例如 NLP、语音识别)构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

28人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

26.Chroma 教程

Chroma是一款轻量级本地向量数据库,支持嵌入管理、查询、过滤和持久化功能。它可与大语言模型结合构建RAG问答系统。主要功能包括:安装通过pip,使用DuckDB+Parquet作为存储后端;通过Collection管理数据,支持添加文本/自定义向量;提供相似性查询和元数据过滤功能;支持按ID或条件删除数据;可查看文档数和预览数据;具备持久化存储能力;能与LangChain集成使用自定义Embedding。该数据库操作简洁,包含初始化、集合管理、数据增删改查等核心方法,适合本地部署的AI应用开发。
原创
博文更新于 2025.11.19 ·
818 阅读 ·
10 点赞 ·
0 评论 ·
7 收藏

Python进阶指南1:面向对象

思考:上面的整个报名过程,都有哪些动词?提出、提供、缴纳、获得、分配、增加有动词就一定有实现这个动作的实体!所谓的模拟现实世界,就是使计算机的编程语言在解决相关业务逻辑的时候,与真实的业务逻辑的发生保持一致,需要使任何一个动作的发生都存在一个支配给该动作的一个实体(主体),因为在现实世界中,任何一个功能的实现都可以看做是一个一个的实体在发挥其各自的“功能”(能力)并在内部进行协调有序的调用过程!属性就是实体固有的某些特征特性信息,在面向对象的术语中,属性就是以前的变量。比如。
原创
博文更新于 2025.11.17 ·
938 阅读 ·
32 点赞 ·
0 评论 ·
16 收藏

Python进阶指南3:闭包装饰器和网络编程

本文介绍了Python中的闭包和装饰器两个重要概念。闭包是在函数嵌套的前提下,内部函数使用外部函数变量并返回内部函数的一种结构,可保留局部变量不被回收。其构成条件包括:函数嵌套、内部函数引用外部变量和返回内部函数名。装饰器本质上是闭包的应用,在不改变原函数代码和调用方式的前提下增强函数功能,如添加执行时间统计、登录验证等。文章详细讲解了装饰器的基本用法、带参数装饰器、带返回值装饰器以及通用装饰器的实现方式,其中通用装饰器通过*args和**kwargs实现任意参数函数的兼容。
原创
博文更新于 2025.11.17 ·
1119 阅读 ·
35 点赞 ·
0 评论 ·
19 收藏

Python进阶指南7:排序算法和树

遍历完成后,最大的元素会被移动到数组的最右端。选择排序(selection sort)的工作原理非常简单:开启一个循环,每轮从未排序区间选择最小的元素,将其放到已排序区间的末尾。在各个领域中考虑到数据的各种限制和规范,要得到一个符合实际的优秀算法,得经过大量的推理和分析。所谓排序,使一串记录,按照其中的某个或某些关键字的大小,递增或递减的排列起来的操作。记忆:具有相同关键字的纪录经过排序后,相对位置保持不变,这样的算法是稳定性算法。无论是简单的升序,还是复杂的分类排列,排序都向我们展示了数据的和谐美感。
原创
博文更新于 2025.11.17 ·
968 阅读 ·
28 点赞 ·
0 评论 ·
22 收藏

22.与人类对齐的背景与标准

输出不符合人类价值观:模型可能输出歧视性、暴力、违法等内容。逻辑错误或胡编乱造:模型容易自信地给出错误答案,即“幻觉”问题(hallucination)。拒绝有用问题或出现偏见:模型可能拒答合法的问题,或者带有文化偏见。仔细思考大模型为什么会输出的内容不符合人类的价值观?在大语言模型的预训练和有监督微调的过程中,主要训练目标是根据上下文内容来预测下一个词元,但是,这一过程并未充分考虑人类的价值观或偏好,可能导致大语言模型从数据中学习到不符合人类期望的生成模式。
原创
博文更新于 2025.11.17 ·
791 阅读 ·
23 点赞 ·
0 评论 ·
8 收藏

25.大模型部署vLLM推理框架

本文介绍了使用vLLM框架进行大模型本地化部署的完整流程。主要内容包括:1)环境安装与配置,推荐使用docker方式;2)两种模型部署方式(命令行参数和配置文件);3)通过OpenAI SDK进行API测试调用;4)性能测试脚本开发,评估首token时间、QPS等关键指标;5)在腾讯Cloud Studio平台上的实战操作演示。文章以Qwen2.5-1.5B模型为例,详细说明了从环境搭建到性能测试的全过程,适用于企业私有化部署场景,帮助读者掌握单机多卡环境下的模型部署技能。
原创
博文更新于 2025.11.16 ·
815 阅读 ·
23 点赞 ·
0 评论 ·
16 收藏

24.模型量化实践

摘要:本文介绍了bitsandbytes模块的量化原理及其在大模型部署中的应用。该工具通过INT8/INT4量化技术显著减少显存占用(INT8为FP32的25%,INT4为12.5%),同时利用GPU的TensorCore加速推理。实验表明,Qwen1.5-14B-Chat模型在INT8和INT4量化后仍保持流畅对话和代码生成能力,而预训练模型Qwen2.5-32B量化后不具备对话能力。使用vLLM部署时需注意量化参数设置,且仅支持单卡张量并行。量化在保持模型性能的同时有效提升了推理效率,适用于资源受限场景
原创
博文更新于 2025.11.16 ·
1250 阅读 ·
37 点赞 ·
0 评论 ·
20 收藏

23.模型部署与推理优化

本文介绍了大语言模型推理优化的关键技术,主要包括:1)注意力机制优化如FlashAttention系列,通过分块计算和算子融合提升GPU计算效率;2)KVCache技术将注意力复杂度从O(N²)降至O(N);3)PagedAttention借鉴分页机制管理显存;4)模型优化方法包括量化、蒸馏和剪枝;5)服务优化技术如连续批处理提升吞吐量。这些方法在vLLM等框架中已集成实现,可显著提升推理速度和资源利用率,其中FlashAttention V3对Hopper GPU的优化尤为突出。
原创
博文更新于 2025.11.16 ·
1265 阅读 ·
32 点赞 ·
0 评论 ·
30 收藏

21.模型微调——LLM的PEFT微调方法

PEFT(参数高效微调)方法通过仅微调少量额外参数,显著降低了大模型在下游任务中的计算和存储成本。主要包括三类方法:1)Prefix-Tuning通过在输入前添加可训练前缀向量;2)Adapter-Tuning在模型层间插入小型适配器模块;3)LoRA采用低秩分解矩阵近似参数更新。其中LoRA冻结原始权重,注入可训练的低秩矩阵,是目前效果最优的通用方法。HuggingFace的PEFT库实现了这些技术,使大模型能在消费级硬件上高效微调。这些方法大幅减少了训练参数量,同时保持了模型性能。
原创
博文更新于 2025.11.12 ·
1440 阅读 ·
20 点赞 ·
0 评论 ·
14 收藏

20.模型微调——Prompt-Tuning方法

NLP任务发展经历了四个范式:传统机器学习、深度学习、预训练微调和提示学习。Prompt-Tuning作为最新范式,通过构建模板和标签映射将下游任务转化为预训练任务,显著减少数据需求。其发展历程包括离散提示(GPT3、PET)和连续提示(PromptTuning、P-tuning、PPT)两种方法。连续提示通过参数化模板向量,解决了离散提示方差大的问题。该方法尤其适合大模型场景,可在冻结主模型参数情况下实现小样本学习,但存在收敛慢、调参复杂等挑战。当前研究正朝着自动化模板构建和跨任务迁移方向深入探索。
原创
博文更新于 2025.11.11 ·
1332 阅读 ·
36 点赞 ·
0 评论 ·
23 收藏

19.模型微调——全参微调qwen-72B显存估计

项目推荐配置GPU 数量≥16 张 A100 80G(或 ≥32张 A100 40G)最小总显存≥1.2 TB(模型 + 梯度 + 优化器)模型精度优化器AdamW(默认)或 8-bit Adam(节省内存)batch size128~512(依赖 grad accumulation)并行框架推荐 DeepSpeed ZeRO-3 / Megatron-LM。
原创
博文更新于 2025.11.11 ·
859 阅读 ·
21 点赞 ·
0 评论 ·
14 收藏

18.模型微调——模型训练与效率估计

本文系统介绍大语言模型训练的核心技术挑战与解决方案。首先阐述3D并行训练技术(数据并行、流水线并行、张量并行)的协同应用,分析零冗余优化器(ZeRO)如何减少显存冗余。其次探讨激活重计算和混合精度训练技术,前者通过选择性重计算来降低显存消耗,后者通过16/32位混合精度提升计算效率。在模型评估方面,详细推导了参数量计算公式,并以LLaMA为例验证计算准确性。最后建立训练运算量、时间及显存占用的估算模型,提供GPU配置建议。
原创
博文更新于 2025.11.11 ·
1101 阅读 ·
19 点赞 ·
0 评论 ·
19 收藏

17.模型微调——微调数据集构建

构建高质量指令数据集的方法包括:1)将传统NLP任务(如翻译、摘要等)转化为指令格式,添加任务描述;2)利用日常对话数据,但高质量标注数据稀缺且成本高;3)通过大模型半自动化合成数据(如Self-Instruct方法)。提升方法包括优化指令格式设计、扩展指令数量(但超过7.2M条后收益递减)以及重写筛选指令。研究表明,数据质量比数量更重要,垂直领域少量高质量数据也能取得良好效果。实践中可结合人工标注与大模型合成来构建多样化指令数据集。
原创
博文更新于 2025.11.11 ·
1187 阅读 ·
25 点赞 ·
0 评论 ·
12 收藏

16.Dify接入外部知识库

Dify通过集成RAGFlow外部知识库API解决了原有知识库功能不足的问题。RAGFlow是一款开源RAG引擎,具备深度文档理解能力,支持PDF、Word等复杂文档格式的OCR识别和结构化处理。安装需4核CPU、16GB内存和50GB硬盘空间,通过修改配置文件完成部署。用户可在RAGFlow中创建知识库,上传文件并选择解析方式(如常规分块、问答对、简历解析等),然后通过API与Dify连接。
原创
博文更新于 2025.11.09 ·
1035 阅读 ·
30 点赞 ·
0 评论 ·
20 收藏

15.RAG

RAG(检索增强生成)技术通过结合检索系统与生成模型,提升大语言模型(LLM)回答的准确性与时效性。其流程包括:1)从向量化知识库中检索相关内容;2)将检索结果作为上下文输入生成模型;3)生成最终回答。知识库构建需选择数据源(如PDF、DOCX等),设置分段模式(通用/父子模式)和索引方法(经济/高质量模式),并配置检索方式(向量/全文/混合检索)。Dify平台支持知识库创建、分段优化、召回测试及与AIAgent/工作流集成,例如通过“知识检索”节点增强LLM输出的可靠性。
原创
博文更新于 2025.11.09 ·
1194 阅读 ·
38 点赞 ·
0 评论 ·
23 收藏

14.大语言模型微调语料构建

本文介绍了AI模型微调的基本步骤和工作流程实现方法。模型微调包括选择预训练模型、准备数据集、调整结构、设置参数、训练和评估部署等环节。针对数据集制作门槛高的问题,提出通过Dify工作流生成语料方案,该流程包含开始节点、文档解析、数据处理、LLM生成等阶段,最终输出符合要求的JSONL格式微调数据。测试结果显示,系统能成功生成包含system/user/assistant三角色的结构化训练数据,为普通用户提供了便捷的大模型微调语料制作工具。
原创
博文更新于 2025.11.09 ·
21935 阅读 ·
28 点赞 ·
6 评论 ·
28 收藏

13.Dify介绍

Dify是一款开源的大语言模型应用开发平台,提供BaaS服务,让开发者快速构建生成式AI应用。平台支持多种模型接入(推理、Embedding、语音转文字)、5种应用类型(聊天助手、文本生成等)和可视化工作流编排(包含多个功能节点)。其核心功能包括知识库管理(实现RAG技术)、灵活的流程设计以及多场景应用开发。安装需WSL和Docker环境,提供直观界面简化开发流程,适合从简单对话到复杂业务场景的AI应用构建。
原创
博文更新于 2025.11.08 ·
884 阅读 ·
25 点赞 ·
0 评论 ·
15 收藏

12.GPTs及Coze应用

2023年11月,OpenAI 为旗下的 ChatGPT 推出了一项名为“GPTs”的服务,允许用户无需写代码就可以根据特定需求创建“属于自己的 ChatGPT 版本”,也就是基于 ChatGPT 创建定制化的个人 AI 助手。截止到2024年1月,已经有超过300万个性化ChatGPT诞生。,注意需要科学上网,以及当前只针对plus用户开通了使用权限。学习笔记文档,通常会针对不同的知识点进行分块介绍,为了保证文档上传到知识库后可以按照不同模块进行拆分,我在每个模块标题前手动添加了###分隔符。
原创
博文更新于 2025.11.07 ·
920 阅读 ·
13 点赞 ·
0 评论 ·
29 收藏

11.大模型Agent应用

本项目基于CrewAI框架开发了一个多Agent协作系统,实现情书自动创作与邮件发送功能。系统包含三个角色Agent:作家负责情感内容创作(300字以内)、编辑负责文本格式化与本地存储、寄信人负责邮件发送。通过自定义工具类实现文本保存和邮件发送功能,采用顺序流程执行任务。项目展示了AI代理在特定场景下的协作能力,从内容生成到最终邮件发送的全流程自动化。技术栈包括Python3.10/3.11、CrewAI框架以及相关第三方库,支持通过本地大模型或云端API运行。
原创
博文更新于 2025.11.06 ·
337 阅读 ·
5 点赞 ·
0 评论 ·
8 收藏

07.docker介绍与常用命令

Docker是一种轻量级容器技术,相比传统虚拟机具有启动快、资源占用小的优势。本文系统介绍了Docker的核心概念:镜像(只读模板)、容器(运行实例)及其相互关系,通过C/S架构提供服务。重点讲解了常用命令操作,包括镜像管理、容器运行、网络配置等。特别演示了使用Dockerfile构建镜像和Docker Compose编排多容器服务的完整流程,最后通过FastAPI应用部署案例实践了开发到上线的全流程。
原创
博文更新于 2025.11.06 ·
607 阅读 ·
12 点赞 ·
0 评论 ·
27 收藏
加载更多