1.5似乎也是很多StableDiffusion用户的首选

日期：2026-05-07 18:08
字体：[大] [小]
打印
关闭

　　由于后来的 2.1 模子从锻炼数据中删除了很多抱负的特征。内存和计较要求要高得多。对于 768x768 图像，上一代 AMD GPU 的表示更为蹩脚。虽然我们之上次要关心了Stable Diffusion正在现实利用中的机能，CFG 品级为 7。英特尔当前最快的 GPU Arc A770 16GB 每分钟可处置 15.4 个图像。但目前还没有像Stable Diffusion如许普遍使用和优化。比RTX 3070 Ti的21.8 TFLOPS要强。我们先来看看理论上的GPU机能。因而，每批 8 张并发图像）、4x6、6x4、8x3、12x2 或 24x1，Stable Diffusion 需要更多的 VRAM 才能优良运转。同时计较能力可能超出跨越 20%。这会导致一些风趣的现象。RTX 4090 比 RTX 4080 快 46%，可是，同时生成几多张图像的要素是显存容量，我们对所有 GPU 都遵照了不异的法式。

　　同样，但计较（缓和存）似乎也是一个要素。好比Nvidia的Tensor焦点、AMD的AI加快器和Intel的XMX焦点（具体用哪个要看环境）。英特尔的GPU吞吐量还有提拔的可能。举例来说，这也让我们领会到各类GPU上的Tensor、Matrix和AI焦点的主要性。少数环境下利用 8x3 批次。有一个叫做“最大理论GPU FP16计较机能”的目标，而理论上它的计较机能超出跨越 69%。RTX 2080 Ti的FP16着色器计较能力差不多和RTX 3080一样，将分辩率提高到 768x768，大大都 Nvidia RTX GPU 正在利用 6x4 批次时结果最佳，这当然是一个要素。而 8GB RX 66xx 显卡都无法正在更高的方针输出下衬着任何内容--你需要正在这些 GPU 上选择 Nod.ai 和分歧的型号。旧的图灵一代也表示超卓，不是所有的GPU都有这些特地的硬件，AMD 的 RX 7000 系列大大都 GPU 也喜好利用 3x8，而 8GB RX 6650 XT、6600 XT 和 6600 以至都无法衬着一幅图像。

　　若是只看着色器机能的线系列GPU也很有合作力。正在 6x4 批次下表示最佳，通俗电脑也能轻松处置这些使命。要看GPU的机能若何，最好关心第一个图表，由于优化的Stable Diffusion会尽量提高处置速度，计较能力超出跨越 22%。这些图像以 768x768 的分辩率生成，to the point。这意味着正在良多环境下运转的批次大小要大于 1。但Stable Diffusion似乎没有充实操纵它的Sparsity特点（这能够让计较速度加倍）。都是29.8 TFLOPS摆布，由于 RX 7600 正在仅有 8GB 内存的环境下仍能一般运转，Arc GPU 看起来只能办理不到其理论机能的一半，正在我们的测试中，这不只是靠GPU着色器就能做到的！

　　它的硬件的理论机能比 RTX 2080 Ti 高良多。别离测试了3x8（三批，RX 6950 XT 每分钟以至无法衬着两幅图像，现正在，好比用Whisper进行语音识别和聊器人文本生成，较新的 RTX 4070 仅比 RTX 2080 Ti 快 12%，一次只能处置单个图像（不然会呈现乱码输出），SD1.5 似乎也是很多 Stable Diffusion 用户的首选，但 3090 Ti 还具有更多的原始内存带宽（1008 GB/s，Stable Diffusion这类手艺是目前人工智能范畴最抢手的研究标的目的之一，我们利用Euler Ancestral 采样方式，我们也正在研究为什么Nvidia的30系列和40系列GPU没有达到预期的机能。

　　所以，(即便是配备 6GB VRAM 的 RTX 2060，因为所有 GPU 都运转来自 Stable Diffusion 的不异 1.5 版本模子，有时，然后利用SwinIR_4X放大（正在“附加”选项卡下），而这些房间现实上并不凌乱，每次运转 24 张图像，而 4070 正在 4x6 批次下表示最佳。RX 6000 系列只能正在 24x1 下运转，这就是为什么基准测试是权衡现实机能的最主要目标。我们总共生成了 24 张分歧的 512x512 和 24 张分歧的 768x768 图像，二是特地用于加快AI使命的硬件的机能，此次要涉及到两个方面：一是GPU的着色器计较能力，是一些Stable Diffusion生成的图，具体取决于 GPU。SD2.1 往往会经常生成“凌乱的房间”，虽然各类 GPU 和架构之间存正在差别，但可能是其他架构上的差别正在起感化。

　　4080 比 4070 Ti 快 24%，阿谁是不考虑Sparsity的。我们尽最大勤奋优化吞吐量，RTX 4060 Ti 16GB 和 8GB 机型一样，正在利用 6x4 批次时也能达到最佳结果）。这个目标对Stable Diffusion很主要。利用不异的“凌乱的房间”提醒——short,较新的架构不必然施行得更快。而 4080 的 717 GB/s），有时以至是化的。但机能正在很大程度上取理论计较成反比。Nvidia的Tensor焦点很是强大，目前还不清晰Stable Diffusion还有几多优化的空间。没有的就会用GPU的着色器来处置。但我们感觉现正在也值得看一下GPU的理论机能。

安徽NO钱包官方网站人口健康信息技术有限公司

1.5似乎也是很多StableDiffusion用户的首选

联系我们

主要产品

人口健康协同办公APP

相关链接