Stable Diffusion UI 界面参数介绍 -文生图模块

一、基础模型和VAE配置

Stable Diffusion 大模型（checkpoint）：

释义：一种深度学习文本到图像生成模型，也就是俗称底模（经常听到SD1.0，SD1.5， SD2.0.这是官方发布的版本），基于底模微调训练出来的就是大模型（checkpoint），微调过程中通常使用了大量高质量的图片，所以通常可以生成更高质量的图片，也就是Stable diffusion使用的主模型。

默认文件位置：Stable-diffusion-web-ui/models/Stable-Diffusion/ ，一般为ckpt和safetensors格式。

优秀大模型推荐（civitai.com）：

VAE（Variational Auto-Encoder）

释义：将潜空间的数据转换为正常图像，可以简单理解为滤镜，用于图片亮度和饱和度的修正、画面较正和以及补光等。一般在绘图时如果出现图片亮度过低、发灰等问题时就需要用到。

默认文件位置：Stable-diffusion-web-ui/models/VAE/ ，VAE 模型的后缀为 .pt 或 .safetensors，体积一般为 335M 或 823M。

功能模块介绍

**txt2img：**通过文本的描述来生成图片。

img2img：通过以已有图片为基础生成相似的图片。

**Extras：**额外的一些功能，比如图片放大和去模糊这些功能。

**PNG info：**获取图片信息，若图片是由AI生成的图片，当上传一张图片后，这里会提示图片的相关prompt关键字与模型参数设置。

**checkpoint merger：**模型合并，可以合并多个模型，配置多个模型的权重来生成图片。

**Train：**通过自己的数据集（图片和相关数据）训练模型。

Settings: UI界面设置。

**Extensions：**插件扩展。

提示词模块

正向提示词（prompt）

释义：对图片信息的正向描述，也就是我们想要图片展现的样子，通常可以从人物或主体特征、场景、环境、画风等角度描述图片

通用正向提示词：

中文释义英文释义中文释义英文释义中文释义英文释义高质量best quality高细节highly detailed杰作masterpiece超细节ultra-detailed插图illustration

示例：

best quality,masterpiece,highres,cg,
1girl,weapon,sword,long hair,dress,water,solo,jewelry,white dress,earrings,hair ornament,splashing,upper body,hair bun,black hair,lighting,candid,Photograph,high resolution,4k,8k,Bokeh,

负面提示词（negative_prompt）

释义：不希望生图图片中可能包含的不协调内容，比如低分辨率，畸形等等。

常用提示词：

中文释义英文释义中文释义英文释义中文释义英文释义低分辨率low resolution解剖结构不良poor anatomy文本text不好的手poor hands错误error缺少手指missing fingers额外的手指extra finger少量手指fewer fingers裁剪的cropped最差质量worst quality低质量low quality普通质量normal quality伪影，伪像artifacts署名，签名signature水印watermark用户名username模糊的blurry缺少手臂missing arms长脖子long neck驼背的humpbacked不好的脚poor feet不适宜工作场所NSFW

示例：(((simple background))),monochrome,lowres,bad anatomy,bad hands,text,error,missing fingers,extra digit,fewer digits,cropped,worst quality,low quality,normal quality,jpeg artifacts,signature,watermark,username,blurry,lowres,bad anatomy,bad hands,text,error,extra digit,fewer digits,cropped,worst quality,low quality,normal quality,jpeg artifacts,signature,watermark,username,blurry,ugly,pregnant,vore,duplicate,morbid,mut ilated,tran nsexual,hermaphrodite,long neck,mutated hands,poorly drawn hands,poorly drawn face,mutation,deformed,blurry,bad anatomy,bad proportions,malformed limbs,extra limbs,cloned face,disfigured,gross proportions,(((missing arms))),(((missing legs))),(((extra arms))),(((extra legs))),pubic hair,plump,bad legs,error legs,username,blurry,bad feet,

后面会针对提示词做一期专栏介绍。

辅助模块：

LoRA模型：

释义：LoRA（Low-Rank Adaptation of Large Language Models），可以理解为大模型的补丁，用于修改风格/对象。性价比很高（效果好而且训练较为快速和简单），所以很常用。

默认文件路径：stable-diffusion-webuimodelsLora，LoRA模型通常是10~200 MB，常见格式为ckpt（safetensors）。

LoRA的原理是冻结预训练好的模型权重参数，然后在每个Transformer块（利用注意力机制来提高模型训练速度）里注入可训练的层，由于不需要对模型的权重参数重新计算梯度，所以可以减少参数量和计算量，提高训练效率和生成质量。

Embedding模型（Textual inversion）

释义：文本编码器模型，用于改变文字向量。 embedding模型用于定义新关键字来生成新的对象或风格的小文件（多用于风格引导），可以将其理解为一组 Prompt。

默认文件路径： stable-diffusion-webuiembeddings ，后缀为 .pt 或者 .safetensors，体积非常小，一般只有几 kb。

个人理解作用机制是通过文字向量的方式特定提示词可以指向特定的角色或者风格，从而使得可以生成我们想要的人物形象或者风格。

hypernetworks模型

释义：hypernetworks是 Stable Diffusion 的微调模型之一，可以根据自己的图片训练一个小部分的神经网络，生成一个新的权重，然后用这个权重来改变生成图片的风格。较少使用（未验证）

默认文件路径：stable-diffusion-webuimodelshypernetworks，通常为 5~300 MB，常见格式为pt。。

基础参数配置

特性描述采样方法（sample method）生成图片过程中降噪算法，不同算法对于不同类型的图片最终成效的效果有所差异，带++的算法是优化过的，默认推荐R-ESRGAN 4x+，偏向二次元的算法推荐R-ESRGAN 4x+ Anime6B，效果不错。采样迭代步数（sampling steps）加噪和去噪的过程，也就是生成图片不断调整的次数，理论上步骤越多，每一步移动也就越小越精确，同时也成比例增加生成图像所需要的时间，但基本上超过50的迭代次数没有明显的效果，结合生成效果和时间等，可以参考模型创作者推荐的迭代步数。面部修复(restore faces)对生成图片的人物面部（主要是真人）进行修复，让人脸更像真人的人脸，提供更多面部细节。平铺/分块(Tiling)将过大的图片分块生成，降低显存要求高清修复（Hirres fix）把低分辨率的照片调整到高分辨率。在较低的分辨率下部分渲染你的图片，再通过算法提高图片到高分辨率，然后在高分辨率下再添加细节。宽高（width/ height）图片的宽高尺寸。提示词相关性（CFG scale）图像和提示词的匹配程度，相关性越高，AI在提示词基础上自由发挥的程度越低。增加这个值将导致图像更接近你的提示,但过高可能会让图像色彩过于饱和，太高后在一定程度上降低了图像质量。可以适当增加采样步骤来抵消画质的劣化。生成批次（batch count）总共生成多少批次的图片单批生成数量（batch size）单一批次的生成图片数量，注意数量限制，避免显存爆炸。随机种子（seed）SD通过特定算法计算出的固定值，seed一样的情况下，可以生成比较相似的图片重绘幅度（denoising strength）可以理解为AI在提示词基础上自由发挥的程度，重绘幅度越大，图片与原始图片越不相似，越小与原始图片越相似。放大倍数（Upscale by）在原有宽度和长度上的放大倍数，拉高需要更高的显存。