u013250861-CSDN博客

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展，AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型，为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新，我们特此发起本次征文活动，诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向，分享以下方面的内容： 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略，例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景（例如二次元、写实风）的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享，例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术（例如 NLP、语音识别）构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

28人参与去参加

视觉编码器在多模态AI时代的演进：2023年至2025年离散型与连续型范式的深度分析

此外，研究还表明，视频生成模型的骨干（如世界模型）可以作为可迁移的编码器，用于增强下游感知任务，这进一步拓宽了连续编码器的应用范围 [16]。尽管技术飞速发展，最新的研究表明，在处理涉及视觉证据的推理任务时，VLMs的回答正确性与图像中可用的视觉证据之间存在一个“持续且令人费解的差距” [1]。在潜空间扩散模型（LDM）的背景下，连续型变分自编码器（VAE）是至关重要的组件，用于将高分辨率原始视觉数据压缩到一个紧凑的连续潜空间，从而大幅降低后续扩散模型训练的计算复杂度 [4]。是提升性能的关键路径。

u013250861的博客

TensorRT推理：能在RTX5080的服务器中将onnx转为tensorrt的engine格式后再将其放入orin中运行吗

FLOPs计算详解-LLM训练-基础知识01：反向传播【dW=∂L/∂W：当前层的权重参数梯度；dX：传给前一层算dW的上游梯度】【在最后一层：dX=∂L/∂X=∂L/∂Y·∂Y/∂X=GWᵀ】

模型参数、梯度更新步骤（手推）【初始化参数、前向传播得到模型输出值、计算输出值与目标值之间损失Loss、反向传播梯度下降更新参数】

FLOPs计算详解-LLM训练-基础知识02：FLOPs、显存、上游梯度矩阵G、激活 activations、gradient checkpointing

FLOPs计算详解-LLM训练03：Lora/全参训练FLOPs≈(2/3+LoRA参数量/原参数量)【Lora显存占用=权重参数+激活】【激活=btz×seq_len×n_layer×dim】

FLOPs计算详解-VLM训练01：Vision+Projector+LLM【连续编码+Full-FT：6SN_vis+6SN_pro+6(S+T)N_llm】【Lora：2/3 Full-FT】

FLOPs计算详解-LLM训练02：冻结参数（硬冻结、软冻结）对FLOPs的影响

FLOPs计算详解-LLM训练01：【前向（2N）、反向（4N）、adamW（可忽略）】【全参训练：Pretrain、SFT的FLOPs的对比（FLOPs无差别，区别在于反向传播时的显存占用不同）】

jetson orin nx super非桌面版设置静态 IP 为 192.168.1.7 的方法

DINOv3 元数据生成详解

ImageNet-1k数据集

2022-2025视觉编码器范式：离散型与连续型进展深度调研

2022–2025年中国AI公司语音编码器技术进展调研报告

2022–2025年语音领域离散型与连续型编码器的研究进展

2022–2025年语音领域离散型与连续型编码器的研究进展

视觉编码器在多模态AI时代的演进：2023年至2025年离散型与连续型范式的深度分析

视觉编码器01：离散型编码器 & 连续型编码器论文总览

音频编码器01：离散型（从零训练语音Tokenizer）

音频编码器02：连续性

从零训练Qwen3-VL

u013250861的博客

TensorRT推理：能在RTX5080的服务器中将onnx转为tensorrt的engine格式后再将其放入orin中运行吗

FLOPs计算详解-LLM训练-基础知识01：反向传播【dW=∂L/∂W：当前层的权重参数梯度；dX：传给前一层算dW的上游梯度】【在最后一层：dX=∂L/∂X=∂L/∂Y·∂Y/∂X=GWᵀ】

模型参数、梯度更新步骤（手推）【初始化参数、前向传播得到模型输出值、计算输出值与目标值之间损失Loss、反向传播梯度下降更新参数 】

FLOPs计算详解-LLM训练-基础知识02：FLOPs、显存、上游梯度矩阵G、激活 activations、gradient checkpointing

FLOPs计算详解-LLM训练03：Lora/全参训练FLOPs≈(2/3+LoRA参数量/原参数量​)【Lora显存占用=权重参数+激活】【激活=btz×seq_len×n_layer×dim】

FLOPs计算详解-VLM训练01：Vision+Projector+LLM【连续编码+Full-FT：6SN_vis+6SN_pro+6(S+T)N_llm】【Lora：2/3 Full-FT】

FLOPs计算详解-LLM训练02：冻结参数（硬冻结、软冻结）对FLOPs的影响

FLOPs计算详解-LLM训练01：【前向（2N）、反向（4N）、adamW（可忽略）】【全参训练：Pretrain、SFT的FLOPs的对比（FLOPs无差别，区别在于反向传播时的显存占用不同）】

jetson orin nx super非桌面版 设置静态 IP 为 192.168.1.7 的方法

DINOv3 元数据生成详解

ImageNet-1k数据集

2022-2025视觉编码器范式：离散型与连续型进展深度调研

2022–2025年中国AI公司语音编码器技术进展调研报告

2022–2025年语音领域离散型与连续型编码器的研究进展

2022–2025年语音领域离散型与连续型编码器的研究进展

视觉编码器在多模态AI时代的演进：2023年至2025年离散型与连续型范式的深度分析

视觉编码器01：离散型编码器 & 连续型编码器论文总览

音频编码器01：离散型（从零训练语音Tokenizer）

音频编码器02：连续性

从零训练Qwen3-VL

模型参数、梯度更新步骤（手推）【初始化参数、前向传播得到模型输出值、计算输出值与目标值之间损失Loss、反向传播梯度下降更新参数】

FLOPs计算详解-LLM训练03：Lora/全参训练FLOPs≈(2/3+LoRA参数量/原参数量)【Lora显存占用=权重参数+激活】【激活=btz×seq_len×n_layer×dim】

jetson orin nx super非桌面版设置静态 IP 为 192.168.1.7 的方法