音频扩散模型反演 | Audio Diffusion Inversion

Audio Diffusion Inversion
声音精确编辑技术

本项目探索扩散模型在音频领域的应用，通过研究 DDPM、DDIM 及 Flow Matching 理论，实现无需额外训练即可对真实音频进行高保真重建与属性编辑。重点攻克了 Stable Audio 框架下的 DPM-Solver 精确反演算法，克服硬件配置与梯度传递等技术障碍。目前在ICME 2026（IEEE国际多媒体与博览会）论文拟录用

扩散模型基础学习

2024年4月 - 5月

系统学习 DDPM 马尔可夫链原理及 DDIM 确定性加速采样，初步接触 AudioEditor 框架，研究空文本反演（Null-text Inversion）实现音频编辑的方法。

查看详情

技术路线与初步复现

2024年5月 - 6月

规划将图像领域 Rectified Flow Inversion 迁移至音频的任务书，在 RTX 3060 环境下跑通初步音频编辑代码，识别时序依赖建模等技术挑战。

查看详情

硬件架构与环境配置

2024年6月

配置 Dell Precision 3660 工作站，设计 Swap 文件方案及 SSD 训练加速分区。解决 Ubuntu 系统下无线网卡驱动离线安装及双系统引导等底层难题。

查看详情

Stable Audio 反演机制研究

2024年7月

深挖 Stable Audio 源代码，识别出 Cosine DPMSolver 调度器。提出基于优化的反演策略，通过迭代优化初始噪声 z_T 使重建损失最小化。

查看详情

算法优化与梯度断裂解决

2024年8月

发现并分析 Scheduler step() 方法中的梯度断裂问题，通过重新实现可微 ODE 求解函数，成功复现一阶与二阶 DPM-Solver 反演。实验显示二阶反演在音频重建效果上非常理想。

查看详情

多方案对比实验

2024年8月

对比 DDIM、ReNoise 及 Null-text Inversion 在 Stable Audio 上的表现，验证在特定 Prompt 引导下，正向 Scale=7 与反向 Scale=1 的配置能获得最佳的生成与反演平衡。

查看详情

Audio Diffusion Inversion
声音精确编辑技术

核心研究内容

理论体系构建

高性能算力支撑

反演算法攻关

关键实验指标

研究历程

扩散模型基础学习

技术路线与初步复现

硬件架构与环境配置

Stable Audio 反演机制研究

算法优化与梯度断裂解决

多方案对比实验

demo展示

1 带人声声音重建

2 环境音乐重建测试(ddim生成后反转)

常见问题

Audio Diffusion Inversion 声音精确编辑技术

核心研究内容

理论体系构建

高性能算力支撑

反演算法攻关

关键实验指标

研究历程

扩散模型基础学习

技术路线与初步复现

硬件架构与环境配置

Stable Audio 反演机制研究

算法优化与梯度断裂解决

多方案对比实验

demo展示

1 带人声声音重建

2 环境音乐重建测试(ddim生成后反转)

常见问题

Audio Diffusion Inversion
声音精确编辑技术