Heishuini's Blog

发表于2025-02-03

code： [!NOTE] CompVis/latent diffusion: https://github.com/CompVis/latent-diffusion CompVis/stable diffusion: https://github.com/CompVis/stable-diffusion Stability-AI/stable-diffusion: https://github.com/Stability-AI/stablediffusion stable-diffusion-webui: https://github.com/AUTOMATIC1111/stable-diffusion-webui video： [!NOTE] Stable Diffusion Explained and Demystified with Daniela Dapena - Lightning AI 【渣渣讲课】试图做一个正常讲解Latent / Stable...

论文阅读-统一视角理解扩散模型

发表于2025-02-03

Understanding Diffusion Models: A Unified Perspective 《Understanding Diffusion Models: A Unified Perspective》【论文精读】Understanding Diffusion Models: A Unified Perspective 01【introduction】_哔哩哔哩_bilibili Instruction: Generative Models 生成模型定义，给定一个来自感兴趣的数据集的观测样本，生成模型的目标是学习这个样本的真实分布作用：任意生成一个新样本评估观测或采样数据的似然性现有生成模型 (1)Generative Adversarial Networks (GANs) 通过对抗的方式，在复杂的分布中进行采样。 (2)likelihood-based 基于似然值，使得观测样本的似然值越大越好。 autoregressive models 自回归 normalizing flows...

论文阅读-DiT

发表于2025-01-07

《Scalable Diffusion Models with Transformers》代码：facebookresearch/DiT: Official PyTorch Implementation of "Scalable Diffusion Models with Transformers" [!NOTE] Transformer 在许多领域都有很不错的表现，尤其是近期大语言模型的成功证明了scaling law 在 NLP 领域的效果。Diffusion Transformer（DiT）把 transformer 架构引入了扩散模型中，并且试图用同样的 scaling 方法提升扩散模型的效果。DiT 提出后就受到了很多后续工作的 follow，例如比较有名的视频生成方法 sora 就采取了 DiT 作为扩散模型的架构。 DiT 使用的是latent diffusion，VAE 采用和Stable Diffusion相同的 KL-f8，并且使用了Improved...

论文阅读-Attention

发表于2025-01-05

《Attention Is All You Need》 https://github.com/ tensorflow/tensor2tensor 我们提出了一种新的简单网络架构，即 Transformer，它完全基于注意力机制，完全省去了递归和卷积。 Introduction RNN，LSTM，gated recurrent neural networks(GRU)等递归模型本质，生成一个个，顺序计算的限制，导致不能并行，计算效率低。在这项工作中，我们提出了 Transformer，一种摒弃递归并完全依赖注意力机制来建立输入和输出之间全局依赖关系的模型架构。Transformer允许显著更多的并行化。 Background 随着距离增加会难以学习依赖关系，而Transformer采用Multi-Head Attention抵消。 Self-Attention(intra-attention): 单一sequence中计算不同位置的特征表示。 Model...

理论学习|Flow matching

发表于2025-01-02

《Flow matching for generative modeling》2023 对于图像生成，希望让模型学习数据的分布，但很难表示出一个适合采样的复杂分布。我们会把学习一个分布的问题转换成学习一个简单好采样的分布到复杂分布的映射。一般这个简单分布都是标准正态分布。此时问题便转化为学习映射。近年来包括扩散模型在内的几类生成模型用一种巧妙的方法来学习这种映射：从纯噪声（标准正态分布里的数据）到真实数据的映射很难表示，但从真实数据到纯噪声的逆映射很容易表示。先人工定义从图像数据集data到噪声noise的变换路线(加噪)，再让模型学习逆路线。让噪声数据沿着逆路线走，就实现了图像生成。 Flow-matching 学习路径 ODE -> flow -> normalizing flow -> continuous normalizing flow(CNF) -> flow matching -> rectified...

前沿研究|FLUX

发表于2024-12-28

FLUX.1 官方简介：Announcing Black Forest Labs - Black Forest Labs 官方代码：https://github.com/black-forest-labs/flux Diffusers运行FLUX.1：https://huggingface.co/docs/diffusers/main/en/api/pipelines/flux 权重：black-forest-labs (Black Forest Labs) 技术报告：未上线作者背景 Black Forest Labs开发，成员基本是 Stable Diffusion 3的作者。代表作： VQGAN: [2012.09841] Taming Transformers for High-Resolution Image Synthesis Latent Diffusion： [2112.10752] High-Resolution Image Synthesis with Latent Diffusion...

论文阅读|NAFNet

发表于2024-12-27

NAFNet 《Simple Baselines for Image Restoration》代码：https://github.com/megvii-research/NAFNet 地址：[2204.04676] Simple Baselines for Image Restoration 介绍了Image Restoration(IR)领域的块设计思想，值得借鉴。但注意是22年的文章，SOTA的比较与现在相比可能不够权威了。亮点块设计中，可以不需要非线性激活函数。思考流程清晰：从PlainNet -> baseline -> NAFNet，且每个模块添加的解释较为详细，适合查缺补漏。涉及到了较为新颖的信息转化方式：对图像的通道信息的关注 Motivation 文章主要是基于HiNet,Restormer,Uformer,Local Vision Transformer,Swim Transformer,A convnet for the...

(一)扩散模型学习——DDPM

发表于2024-12-19

DDPM 《Denoising Diffusion Probabilistic Models》代码：https://github.com/hojonathanho/diffusion 地址：http://arxiv.org/abs/2006.11239 开篇之作：第一次使用diffusion models去做无条件图像生成任务。扩散模型的核心便是，从一个复杂的数据分布，不断变换至简单易分析的数据分布，如高斯分布。 DDPM总体流程在以上图中，首先是前向过程，对图像加噪得到一系列,,...,,最后接近高斯噪声；然后是逆向过程，从到的去噪过程，也称为图像生成过程。结论先说结论。前向加噪反向去噪 ==注意区分和== 计算时的由UNet预测得到，就是个常数。重参数化技巧: 从采样可以实现为从采样，然后再算。此时的结果便是要求的总体流程前向过程对图像加噪的方式，DDPM采用的是对图像和噪声，进行以下公式的加权求和， ...

environment build

发表于2024-12-19

博客搭建 from: LittleNyima/littlenyima.github.io: LittleNyima's personal page nodejs安装：【Node】node.js安装与配置（详细步骤）-阿里云开发者社区 hexo使用教程：使用 Hexo+GitHub 搭建个人免费博客教程（小白向） - 知乎进入博客所在目录，右键打开 Git Bash Here，创建博文： 1hexo new "My New Post" 然后 source 文件夹中会出现一个 My New Post.md 文件，就可以使用 Markdown 编辑器在该文件中撰写文章了。写完后运行下面代码将文章渲染并部署到 GitHub Pages 上完成发布。以后每次发布文章都是这两条命令。 12hexo g # 生成页面hexo d # 部署发布常用命令： 12345678hexo new "name" # 新建文章hexo new page "name" # 新建页面hexo g #...