[AI 奇技淫巧][第十七期]炼丹工坊：从“用别人的模型”进化到“创造自己的模型”

.:. 草榴社區 » 技術討論區 » [AI 奇技淫巧][第十七期]炼丹工坊：从“用别人的模型”进化到“创造自己的模型”
	手機版回帖發布主題

--> 本頁主題: [AI 奇技淫巧][第十七期]炼丹工坊：从“用别人的模型”进化到“创造自己的模型”

字體大小寬屏顯示只看樓主最新點評熱門評論時間順序

shepherd

級別：精靈王 ( 12 )
發帖：5984
威望：686 點
金錢：2059 USD
貢獻：59278 點
註冊：2011-12-02

主題資料短信推薦編輯

[AI 奇技淫巧] 第十七期

— 炼丹工坊：从“用别人的模型”进化到“创造自己的模型” —

🛑 免责声明 / WARNING 🛑

1. 本期涉及 AI 模型训练技术，严禁用于训练儿童色情 (CSAM) 内容。
2. 严禁使用本技术训练未经同意的真实人物 (Deepfake) 用于侮辱、诽谤或诈骗。
3. 请遵守当地法律法规。技术无罪，但请珍惜你的账号和人身自由。

■ 前言

1024，各位榴友。
前几期我们玩遍了别人的模型：换别人的脸、用别人的声音。但“拿来主义”总有局限：
那个令你魂牵梦绕的冷门女优，C 站搜不到 LoRA 怎么办？
想看特定的制服+特定的体位，现有的模型做不到怎么办？
既然市面上没有，那我们就自己造！
今天，我们将推开“炼丹工坊”的大门。这一期难度稍高，但回报巨大——学会了它，你就是赛博世界的造物主。

一、奇 ｜融合与未来：Supermerger & Flux
★【看点一：Supermerger (不用炼丹的炼丹术)】
看点解析
炼丹太难，显卡太差？试试“调鸡尾酒”。
Supermerger 是一种模型融合技术。
* 玩法： 你觉得 A 模型的皮肤质感好，B 模型的身材比例好。像调酒一样设定比例（比如 0.5 A + 0.5 B），瞬间“缝合”出一个全新的模型。
* 必杀技 (Block Merge)： 甚至可以只把 A 的“头”嫁接到 B 的“身体”上，完全不需要训练，6G 显存就能玩。

★【看点二：Flux.1 (未来的天花板)】
看点解析
虽然现在我们主力用 Pony，但 Flux.1 已经展现出了惊人的潜力。它的手指几乎不崩，文字生成能力极强。虽然现在训练它需要 24G 显存（富哥专属），但它是未来的方向，值得关注。

扯扯蛋：如果你显卡不行，Supermerger 就是你的“穷人版法拉利”。把几个大神的模型融一融，没准能搞出个版本之子。

二、技 ｜炼丹字典：小白黑话速查表
★【看点：看不懂参数？看这张做菜指南】
看点解析
炼丹最劝退的就是那些英文术语。为了让大家能看懂，我把它们翻译成了“做菜”：

英文术语	中文俗称	做菜比喻	作用与影响
Checkpoint	底模	汤底	决定画风的基础。比如 Pony V6 就是浓郁的二次元厚涂汤底。
LoRA	模型/插件	调料包	我们要炼的角色。它是特定的人物/体位，撒进汤里就有那个味儿。
Trigger Word	触发词	菜名	召唤角色的咒语。输入这个词，LoRA 才会生效。
Learning Rate	学习率	火候	最关键！火大(高)会练糊，火小(低)练不熟。
Epoch	轮次	炖的时间	总共练几轮。炖太久肉会烂，炖太短肉不熟。
Batch Size	批次大小	一锅煮几个	显存大就多煮几个(快)，显存小只能煮1个(慢)。8G显存通常设为 1。
Network Rank	模型维度	锅的容量	值越大(128)，能装的细节越多，但文件大；值越小(32)，文件小但可能丢细节。
Overfit	过拟合	煮烂了	练过头了。表现为：人物脸部崩坏、出现噪点、或者怎么换提示词都穿着同一件衣服。

扯扯蛋：别被这些词吓唬住了。说白了就是把素材扔锅里，开火炖。只要火候（参数）对，就没有炼不出来的丹。

三、淫 ｜欲望引擎：Pony Diffusion V6
★【看点：为什么一定要用 Pony？】
看点解析
在 NSFW (你懂的) 领域，Pony V6 (基于 SDXL) 是目前唯一的真神。
相比老的 SD1.5，Pony 对人体结构、肉感质感、高难度体位的理解是降维打击级别的。
本期我们就以 “训练一个基于 Pony 的人物 LoRA” 为目标，教大家如何把一位“老师”炼进模型里。
扯扯蛋：Pony 这个模型...怎么说呢，它“阅片量”可能比你还大。你只需要给它一点点提示，它就能还你一个大大的惊喜。

四、巧 ｜施工蓝图：从零开始的炼丹手册
>>> ⚠ 显卡红线：训练 Pony 建议 12G+ 显存；8G 用户请严格按“贫民窟配置”操作；6G 以下请玩 Supermerger <<<
Step 1: 备菜 (Dataset Engineering)
逻辑：Garbage In, Garbage Out。这一步做不好，后面全是白费。

步骤	具体操作 (小白必看细节)
1. 收集	找 20-30 张目标人物的高清图。脸要大且清晰！不要全是同一套衣服。
2. 裁剪	打开 Birme 网站，设置宽高 1024x1024 (Pony 标准)。手动调整裁剪框，确保脸部在中间。下载 zip。
3. 命名	这是第一个坑！新建文件夹 `train_data`，在里面建个子文件夹，命名格式必须是：`数字_概念名`。推荐：`20_xiaomei` (`20`是每张图学20遍，`xiaomei`是你的触发词)。把图放进去。

Step 2: 清洗 (标签工程)
逻辑：告诉 AI 哪些是“人”，哪些是“衣服”。

步骤	操作与清洗口诀
1. 打标	打开 Kohya_ss -> `Utilities` -> `WD14 Captioning`。选 `train_data` 文件夹，点击打标。
2. 清洗	这是第二个坑！打开生成的标签文件： * 删标签：你希望固定在人物身上的特征（如：痣、发型）。删了 AI 就会把它归纳进触发词里。 * 留标签：你希望可以随意更换的特征（如：glasses, white shirt）。留着 AI 就知道这些是外部物体，换装时容易去掉。

Step 3: 开炉 (参数配置)
逻辑：防止炸显存，防止炼过头。

配置项	推荐值 (贫民窟保命版)
Base Model	必须加载你下载好的 `Pony Diffusion V6 XL` 模型文件。
Folders	Image folder 选 `train_data` 的上一级目录。
Parameters	* Batch Size: `1` (8G显存只能填1)。 * Epoch: `10`。 * Learning Rate: `0.0001`。 * Mixed Precision: `fp16`。 * Gradient Checkpointing: 必须勾选！ (显存救星)。

Step 4: 验货 (XYZ 测试)
逻辑：Pony 有特殊的起手式，不然验证图是一坨翔。

注意	操作
起手式	在 WebUI 测试模型时，Prompt 必须包含： `score_9, score_8_up, score_7_up, source_anime, xiaomei` (没有这些 score 标签，Pony 无法被正确激活)

■【避雷针】/ Troubleshooting

新手炼丹容易犯的 3 个错：
1. 文件夹命名错误： 随便起个名，没加数字前缀（如 `xiaomei`）。
* 后果： 训练报错，或者根本没学进去。必须是 `20_xiaomei` 这种格式。
2. 打标悖论： 想让 AI 记住眼镜，却保留了 `glasses` 标签。
* 后果： 以后生成的图，眼镜时有时无。想焊死在脸上，必须删掉对应标签。
3. 过拟合 (脸崩)： 脸部出现诡异纹理，或者所有图构图都一样。
* 后果： 火太大了。尝试降低学习率，或者在 WebUI 里把 LoRA 权重降到 0.7 试试。

老司机语录： 炼丹是一门玄学，更是一门艺术。不要迷信别人的参数，多看控制台的 Loss 曲线，多跑 XYZ 测试，你的“丹”只有你自己最懂。

■ 结语

恭喜你，你已经掌握了 AI 领域最核心的技能之一——创造。
现在，无论是哪个冷门老师，只要你能搜集到她的 20 张图，她就能在你的硬盘里永生。
但是，图毕竟是图。虽然我们有了 FaceFusion 可以换脸视频，但那终究是在“修改”别人的作品。
能不能直接用 AI，凭空生成一段从未存在过的视频？让照片里的人动起来，走两步，甚至...？
下一期，我们将进入 AI 视频生成的全新纪元。
下期预告：【第 18 期】动态影像 —— SVD 与 AnimateDiff，让静态的梦境流动起来。

关键词索引：GitHub 搜 "Kohya_ss" / "Supermerger" / "Pony Diffusion"

温馨提示：炼丹虽好，请注意散热。

站内翻阅往期（技术底座与路线）：
7098897 [置顶底座] 引用 7098897：[AI 奇技淫巧][2016.01.12]从零打造你的本地化AI全能作战平台「实操向」
7103439 引用 7103439：[AI 奇技淫巧][第十六期]移花接木：FaceFusion 换脸与 MuseTalk 唇形同步
7103141 引用 7103141：[AI 奇技淫巧][第十五期]神之画笔：ControlNet 让 AI 指哪打哪