论文阅读-LDM
code:
[!NOTE]
CompVis/latent diffusion:
https://github.com/CompVis/latent-diffusion
CompVis/stable diffusion:
https://github.com/CompVis/stable-diffusion
Stability-AI/stable-diffusion:
https://github.com/Stability-AI/stablediffusion
stable-diffusion-webui:
https://github.com/AUTOMATIC1111/stable-diffusion-webui
video:
[!NOTE]
Stable Diffusion
Explained and Demystified with Daniela Dapena - Lightning
AI
【渣渣讲课】试图做一个正常讲解Latent
/ Stable...
论文阅读-统一视角理解扩散模型
Understanding
Diffusion Models: A Unified Perspective
《Understanding Diffusion Models: A Unified Perspective》
【论文精读】Understanding
Diffusion Models: A Unified Perspective
01【introduction】_哔哩哔哩_bilibili
Instruction: Generative
Models
生成模型定义
,给定一个来自感兴趣的数据集的观测样本,生成模型的目标是学习这个样本的真实分布
作用:
任意生成一个新样本
评估观测或采样数据的似然性
现有生成模型
(1)Generative Adversarial Networks (GANs)
通过对抗的方式,在复杂的分布中进行采样。
(2)likelihood-based
基于似然值,使得观测样本的似然值越大越好。
autoregressive models 自回归
normalizing flows...
论文阅读-DiT
《Scalable Diffusion Models with Transformers》
代码:facebookresearch/DiT:
Official PyTorch Implementation of "Scalable Diffusion Models with
Transformers"
[!NOTE]
Transformer
在许多领域都有很不错的表现,尤其是近期大语言模型的成功证明了scaling law
在 NLP 领域的效果。Diffusion Transformer(DiT)把 transformer
架构引入了扩散模型中,并且试图用同样的 scaling
方法提升扩散模型的效果。DiT 提出后就受到了很多后续工作的
follow,例如比较有名的视频生成方法 sora 就采取了 DiT
作为扩散模型的架构。
DiT 使用的是latent diffusion,VAE
采用和Stable Diffusion相同的
KL-f8,并且使用了Improved...
论文阅读-Attention
《Attention Is All You Need》
https://github.com/ tensorflow/tensor2tensor
我们提出了一种新的简单网络架构,即
Transformer,它完全基于注意力机制,完全省去了递归和卷积。
Introduction
RNN,LSTM,gated recurrent neural networks(GRU)等
递归模型本质,生成一个个,顺序计算的限制,导致不能并行,计算效率低。
在这项工作中,我们提出了
Transformer,一种摒弃递归并完全依赖注意力机制来建立输入和输出之间全局依赖关系的模型架构。Transformer允许显著更多的并行化。
Background
随着距离增加会难以学习依赖关系,而Transformer采用Multi-Head Attention抵消。
Self-Attention(intra-attention):
单一sequence中计算不同位置的特征表示。
Model...
理论学习|Flow matching
《Flow matching for generative modeling》2023
对于图像生成,希望让模型学习数据的分布,但很难表示出一个适合采样的复杂分布。
我们会把学习一个分布的问题转换成学习一个简单好采样的分布到复杂分布的映射。一般这个简单分布都是标准正态分布。
此时问题便转化为学习映射。
近年来包括扩散模型在内的几类生成模型用一种巧妙的方法来学习这种映射:从纯噪声(标准正态分布里的数据)到真实数据的映射很难表示,但从真实数据到纯噪声的逆映射很容易表示。
先人工定义从图像数据集data到噪声noise的变换路线(加噪),再让模型学习逆路线。让噪声数据沿着逆路线走,就实现了图像生成。
Flow-matching 学习路径
ODE -> flow -> normalizing flow -> continuous normalizing
flow(CNF) -> flow matching -> rectified...
前沿研究|FLUX
FLUX.1
官方简介:Announcing
Black Forest Labs - Black Forest Labs
官方代码:https://github.com/black-forest-labs/flux
Diffusers运行FLUX.1:https://huggingface.co/docs/diffusers/main/en/api/pipelines/flux
权重:black-forest-labs (Black
Forest Labs)
技术报告:未上线
作者背景
Black Forest Labs开发,成员基本是
Stable Diffusion 3的作者。
代表作:
VQGAN: [2012.09841] Taming
Transformers for High-Resolution Image Synthesis
Latent Diffusion: [2112.10752] High-Resolution
Image Synthesis with Latent Diffusion...
论文阅读|NAFNet
NAFNet 《Simple Baselines for Image Restoration》
代码:https://github.com/megvii-research/NAFNet
地址:[2204.04676] Simple
Baselines for Image Restoration
介绍了Image Restoration(IR)领域的块设计思想,值得借鉴。
但注意是22年的文章,SOTA的比较与现在相比可能不够权威了。
亮点
块设计中,可以不需要非线性激活函数。
思考流程清晰:从PlainNet -> baseline ->
NAFNet,且每个模块添加的解释较为详细,适合查缺补漏。
涉及到了较为新颖的信息转化方式:对图像的通道信息的关注
Motivation
文章主要是基于HiNet,Restormer,Uformer,Local Vision Transformer,Swim Transformer,A convnet for the...
(一)扩散模型学习——DDPM
DDPM 《Denoising Diffusion Probabilistic Models》
代码:https://github.com/hojonathanho/diffusion
地址:http://arxiv.org/abs/2006.11239
开篇之作:第一次使用diffusion models去做无条件图像生成任务。
扩散模型的核心便是,从一个复杂的数据分布,不断变换至简单易分析的数据分布,如高斯分布。
DDPM总体流程
在以上图中,首先是前向过程,对图像加噪得到一系列,,...,,最后接近高斯噪声;然后是逆向过程,从到的去噪过程,也称为图像生成过程。
结论
先说结论。
前向加噪
反向去噪
==注意区分和==
计算时的由UNet预测得到,就是个常数。
重参数化技巧: 从采样可以实现为从采样,然后再算。此时的结果便是要求的
总体流程
前向过程
对图像加噪的方式,DDPM采用的是对图像和噪声,进行以下公式的加权求和, ...
environment build
博客搭建
from: LittleNyima/littlenyima.github.io:
LittleNyima's personal page
nodejs安装:【Node】node.js安装与配置(详细步骤)-阿里云开发者社区
hexo使用教程: 使用
Hexo+GitHub 搭建个人免费博客教程(小白向) - 知乎
进入博客所在目录,右键打开 Git Bash Here,创建博文:
1hexo new "My New Post"
然后 source 文件夹中会出现一个 My New Post.md 文件,就可以使用
Markdown 编辑器在该文件中撰写文章了。
写完后运行下面代码将文章渲染并部署到 GitHub Pages
上完成发布。以后每次发布文章都是这两条命令。
12hexo g # 生成页面hexo d # 部署发布
常用命令:
12345678hexo new "name" # 新建文章hexo new page "name" # 新建页面hexo g #...