Adenialzz-CSDN博客

Adenialzz

码龄7年

1,908,348

总访问量
285

原创
1,679

粉丝
82

关注

IP 属地：北京市

加入CSDN时间： 2019-04-23

个人简介：Keep Learning.

查看详细资料

个人成就

获得4,351次点赞
内容获得591次评论
获得11,262次收藏
代码片获得76,101次分享
博客总排名10,089名
原力等级

原力等级

9

原力分

8,419

本月获得

13

TA的专栏

TA关注的专栏 2

TA关注的收藏夹 0

TA关注的社区 4

TA参与的活动 0

兴趣领域设置

人工智能

opencv计算机视觉神经网络pytorch图像处理

创作活动更多

AI 镜像开发实战征文活动

随着人工智能技术的飞速发展，AI 镜像开发逐渐成为技术领域的热点之一。Stable Diffusion 3.5 FP8 作为强大的文生图模型，为开发者提供了更高效的图像生成解决方案。为了推动 AI 镜像开发技术的交流与创新，我们特此发起本次征文活动，诚邀广大开发者分享在 Stable Diffusion 3.5 FP8 文生图方向的实战经验和创新应用本次征文活动鼓励开发者围绕 Stable Diffusion 3.5 FP8 文生图方向，分享以下方面的内容： 1. 技术实践与优化 - Stable Diffusion 3.5 FP8 模型架构解析与优化技巧 - 文生图生成效果的提升方法与技巧 - 模型部署与加速策略，例如使用 Hugging Face、Diffusers 等工具 - 针对特定场景（例如二次元、写实风）的模型微调与定制化开发 2. 应用场景探索 - Stable Diffusion 3.5 FP8 在不同领域的应用案例分享，例如游戏设计、广告创意、艺术创作等 - 利用 Stable Diffusion 3.5 FP8 实现图像编辑、图像修复、图像增强等功能的探索 - 结合其他 AI 技术（例如 NLP、语音识别）构建更强大的应用 3. 创新应用与思考 - 基于 Stable Diffusion 3.5 FP8 的创新应用场景设计 - AI 镜像开发的未来发展方向的思考与展望 - 对 AI 镜像开发伦理、安全等问题的探讨

28人参与去参加

更多

Qwen-Image：超强文本渲染和图像编辑能力是怎样炼成的——模型、数据和训练

Qwen Image 的技术报告可谓是干货满满，模型结构、数据工程、训练方式与基建三方面都有详尽的介绍。在实际效果上，Qwen Image 的综合能力确实达到了领先的水平，尤其是中文文字渲染和图像编辑能力，相较于其他开源模型有了质的飞跃。

博文更新于 2025.10.03 ·

SFT 记忆，RL 泛化

这篇文章是对 RL/SFT 泛化能力差异的一个早期研究。但是感觉所选的任务比较少，而且不太典型。

博文更新于 2025.09.17 ·

iw SFT：SFT 其实在优化 RL 目标的下界，并可通过重要性加权改进

本文从 RL 和 SFT 各自的目标函数形式入手，推导出了在稀疏奖励的情况下，SFT 的目标是 RL 的一个下界。并提出通过引入桥梁分布qτq(\tau)qτ来收紧这个下界，同时约束重要性权重的范围，维持训练稳定。本文对于我们深入理解 SFT 和 RL 训练的本质和区别很有帮助。

博文更新于 2025.09.15 ·

DFT：从RL的视角修正SFT损失的权重

DFT 最近讨论度很高。作者借助重要性采样，从 RL 的视角推导了 SFT 的梯度形式，发现 SFT 与 RL 在梯度形式上的差异在于一个权重w1πθw1/πθ，进而提出给 SFT 的损失函数乘上一个对其进行修正的动态权重πθ\pi_\thetaπθ，得到了 DFT。但是从作者推导出的形式来看，个人感觉 SFT 泛化性较弱的原因应该反而主要来自于 SFT 本身的奖励函数的稀疏性。

博文更新于 2025.09.04 ·

分布式机器学习之流水线并行GPipe：借助数据并行来实现模型并行计算

流水线并行和张量并行都是模型并行的方法。其中张量并行是对层内的权重张量进行切分，主要针对 Transformer 类模型设计，流水线并行适用于所有模型，但需要仔细设计切分方案，尽量保证负载均衡。GPipe 是流水线并行的经典工作，它通过数据并行解耦计算任务的依赖关系，实现了多 GPU 的并行计算。并通过梯度检查点技术来降低峰值显存占用。

博文更新于 2025.08.19 ·

分布式机器学习之张量并行：层内切分 Transformer 模型

Tensor Parallel 是目前大模型训练和推理中最常用的并行方式之一，主要针对 Transformer 类模型。本文首先介绍了 GEMM 切分的按列并行和按行并行两种方式，然后在 Transformer 的各个组件，包括 MLP、Attention、input embedding、LM head + cross entropy loss 中根据实际情况设计具体的切分方案。

博文更新于 2025.08.11 ·

分布式机器学习之数据并行：Parameter Server、Ring All-reduce 和 ZeRO

分布式机器学习，即我们的模型训练从一个设备（比如 GPU）扩展到多个设备。有了更多的设备，我们有两个期望，一是训练得更快，二是训练更大的模型。为了实现这两个期望，在多台设备上，我们就要进行并行训练。分布式机器学习中的并行方法可以粗略地划分为数据并行和模型并行两大类，这是按照切分什么来划分的。具体来说，数据并行是指每个设备持有完整的模型副本，但处理不同的数据子集；模型并行则是指将模型的不同部分（如不同层、同一层的不同部分）分配到不同设备，所有设备共同处理同一份数据。模型并行还可以进一步地划分为流水线并行、

博文更新于 2025.08.09 ·

CISPO：先SG再clip

为了避免 RL 训练过程中，关键反思 token 的概率跃升幅度过大被截断梯度，CISPO 先对rtr_trt进行梯度停止，再对其进行 clip 截断。只影响系数，不影响梯度。

博文更新于 2025.06.30 ·

MAR：无需量化的掩码自回归图像生成模型

本文指出自回归生成式建模不一定要用离散的 token 和分布，只要能够建模自回归过程中生成单个 token 的条件概率px∣zp(x|z)px∣z即可，还是很有启发性的。之前一直以为想要用 AR，就必须要构造成 vocab/codebook 这样离散的 categorical distribution，没有去深入理解 AR。

博文更新于 2025.05.27 ·

MaskGIT：掩码图像生成经典方法

掩码图像生成的经典工作，个人理解应该也可以算是一种广义的自回归，即 random (adaptive?) order multi token prediction，感觉比常规的 raster order next token prediction 做图像生成要更合理一些。

博文更新于 2025.05.22 ·

ReMax：将贪婪采样的 reward 作为 baseline

ReMax 是很早就提出 RLHF 不用 value model 的工作之一。论文首先分析了 RLHF 相较于传统 RL 的独特性，然后在经典的 REINFORCE 算法的基础上，引入贪婪采样结果的 reward 作为 baseline，来降低方差。方法简单有效，理论分析也比较充分，是一篇很不错的工作。

博文更新于 2025.05.08 ·

RLOO：将多次其他回答的平均reward作为baseline

RLOO 和 ReMax 基本算是同期的工作，整体思路也不谋而合，都是分析了特定 RLHF 语境下的特点，以及 PPO 在 RLHF 下某些改进或许是不合适的，并都是基于经典的 REINFORCE 算法，设计了各自的针对于 RLHF 的 baseline 计算方法。区别在于，ReMax 的 baseline 是同一条 prompt 贪婪采样的 reward；RLOO 的 baseline 则是同一条 prompt 的其他k−1k-1k−1条采样结果 reward 的平均。

博文更新于 2025.05.06 ·

GRPO：利用组内平均奖励来计算优势

GRPO 在 DeepSeek Math 中就提出了，在 R1 火爆出圈后，得到了大家的广泛关注和应用。在 R1 爆火后的一段时间里，大家进行 RLHF 训练的主流算法都切换到了 GRPO。具体算法方案上，GRPO 利用组内平均奖励来计算优势，相比于 PPO 需要额外训练一个 value model 的方式，训练开销的降低是肯定的，但是个人认为从效果天花板来看，不一定能比 PPO 更强。

博文更新于 2025.05.01 ·

KL散度的三种估计k1 k2 k3

本文中我们首先介绍了 KL 散度最常用的估计 k1，但是发现它方差非常大，然后我们介绍 f 散度并设计了对 KL 散度近似的 k2 估计，k2 降低了方差但是是有偏的。为了得到无偏且低方差的估计，我们又考虑通过 control variate 构造了 k3 估计，达到了比较理想的对 KL 散度的估计。在 RL (for LLM) 中，k2、k3 都有被选用，我们需要根据实际场景分析和实验来决定选用哪种估计（比如 k2 估计要求两分布是比较接近的，才能有降低的偏差）。

博文更新于 2025.05.01 ·

DAPO：对GRPO的几点改进

DAPO 对标准 GRPO 的一些细节进行了改进优化，从实验结果来看，提升非常显著。字节能开放自己在 RLHF 领域的探索结果出来肯定是非常好的。美中不足是感觉报告的写作比较潦草，并且实验略显单薄，以及对于 clip higher 这个解决方案个人感觉不是很对症。当然也可能是我自己理解不到位 😃，期望有大佬能指点下我的困惑。

博文更新于 2025.04.30 ·

广义优势估计 GAE

本文中，我们首先回顾了之前介绍过的基于累积回报的Ψt\Psi_tΨt选择，这类选择虽然是无偏的，但是由于需要多次采样，会造成累积方差很大。为了减小方差，我们考虑了基于价值函数的Ψt\Psi_tΨt选择，但是在价值网络估计的价值函数不准时，这类选择的偏差又比较大。GAE 提出了一种一般形式，将多项对优势函数的估计值进行加权表示，通过调节超参数λ\lambdaλ，实现了偏差和方差之间进行权衡，目前已经成为策略梯度类算法中优势函数形式的主流选择。

博文更新于 2025.04.15 ·

强化学习Q-Learning:DQN

本文我们先介绍了强化学习中的价值函数，然后介绍如何训练价值网络来拟合价值函数，以及 Q-learning/DQN 中如何不断地优化 policy，最后介绍了 Q-learning 在实际实现中常用的几个技巧。

博文更新于 2025.04.11 ·

重要性采样与PPO、TRPO

本文中，我们首先介绍了强化学习中 on/off policy 的概念，指出 off policy 的样本效率更高，因此我们想将 on policy 的策略梯度法转换为 off policy 的方法。我们借助重要性采样来实现这一转换，但同时也发现重要性采样的方差存在一定隐患，需要保证两个分布之间差异不要太大，这便是 TRPO / PPO 要解决的问题。TRPO 采用了 KL 硬约束来限制两分布的差异，PPO 则提出了 KL 软约束和 CLIP 两种方案。

博文更新于 2025.04.10 ·

Flux Tools 结构简析

在基础模型结构切换到 (MM-)DiT 之后，Flux 官方选择通过拼接条件 token 来实现条件控制，这似乎与 MM-DiT 直接将文本作为输入来实现条件控制的设计思路一脉相承。在 Flux Tools 发布之前，第三方的 ControlNet、IP Adapter 却还是沿用之前 UNet 时代的外挂 Adapter 的方案。在 DiT 架构上，这两种条件控制方式相比有何优劣？实测条件控制效果与出图质量如何，兼容性、可插拔性方面是否会受到影响？在实际应用或训练时应该如何选择？都是仍待探究的问题。

博文更新于 2025.04.08 ·

强化学习策略梯度

本文将首先推导强化学习策略梯度最简单的形式，然后对这个最简形式进行一些改造优化，最终得到我们实际中使用的标准策略梯度实现。我们这里考虑一个随机的、参数化的策略 πθ\pi_\thetaπθ，我们的目标是最大化期望回报 J(πθ)=Eτ∼πθ[R(τ)]J(\pi_\theta)=\mathbb{E}_{\tau\sim\pi_\theta}[R(\tau)]J(πθ)=Eτ∼πθ[R(τ)]。期望回报 J(πθ)J(\pi_\theta)J(πθ) 是指按照特定的策略 πθ\pi_\thetaπθ

博文更新于 2025.04.03 ·