基于潜空间的扩散模型图像生成算法改进与性能分析-期刊刊文-新加坡图文科学出版社官网

基于潜空间的扩散模型图像生成算法改进与性能分析

ISSN：3041-0630(P)

EISSN：3041-0606(O)

语言：中文

作者

杨民青

文章摘要

为解决现有生成模型潜在空间表征不足、高分辨率生成质量欠佳等问题，提出基于改进矢量量化变分自编码器（IVQ-VAE）与特征融合Transformer扩散（FFTD）模型的双阶段图像生成框架。IVQ-VAE通过多尺度残差模块与混合损失函数优化潜在表征，FFTD模型融合注意力机制与多分辨率特征提取提升噪声预测精度，采用DDIM采样加速推理。在CelebA-HQ、AFHQ数据集上的实验表明，该框架FID值最低达9.64，生成质量优于主流模型，验证了方法的有效性。

文章关键词

图像生成；潜在空间；扩散模型；矢量量化；特征融合

参考文献

[1] 刘浩南,陈姚节,高登科.潜在空间下扩散模型图像生成[J].计算机系统应用,2026,35(03):170-183. [2] 侯哲晓,李弼程,蔡炳炎,等.基于改进扩散模型的高质量图像生成方法[J].计算机科学,2025,52(S1):461-469. [3] 操伟业.基于生成对抗网络的潜在空间语义表达算法研究[D].南京邮电大学,2022.

Full Text:

点击下载PDF

DOI