[AI 奇技淫巧] 第十七期
— 炼丹工坊:从“用别人的模型”进化到“创造自己的模型” —
🛑 免责声明 / WARNING 🛑
1. 本期涉及 AI 模型训练技术,严禁用于训练儿童色情 (CSAM) 内容。
2. 严禁使用本技术训练未经同意的真实人物 (Deepfake) 用于侮辱、诽谤或诈骗。
3. 请遵守当地法律法规。技术无罪,但请珍惜你的账号和人身自由。
■ 前言
1024,各位榴友。
前几期我们玩遍了别人的模型:换别人的脸、用别人的声音。但“拿来主义”总有局限:
那个令你魂牵梦绕的冷门女优,C 站搜不到 LoRA 怎么办?
想看特定的制服+特定的体位,现有的模型做不到怎么办?
既然市面上没有,那我们就自己造!
今天,我们将推开“炼丹工坊”的大门。这一期难度稍高,但回报巨大——学会了它,你就是赛博世界的造物主。 ![]()
一、 奇 | 融合与未来:Supermerger & Flux★【看点一:Supermerger (不用炼丹的炼丹术)】看点解析炼丹太难,显卡太差?试试“调鸡尾酒”。
Supermerger 是一种模型融合技术。
* 玩法: 你觉得 A 模型的皮肤质感好,B 模型的身材比例好。像调酒一样设定比例(比如 0.5 A + 0.5 B),瞬间“缝合”出一个全新的模型。
* 必杀技 (Block Merge): 甚至可以只把 A 的“头”嫁接到 B 的“身体”上,完全不需要训练,6G 显存就能玩。★【看点二:Flux.1 (未来的天花板)】看点解析虽然现在我们主力用 Pony,但 Flux.1 已经展现出了惊人的潜力。它的手指几乎不崩,文字生成能力极强。虽然现在训练它需要 24G 显存(富哥专属),但它是未来的方向,值得关注。扯扯蛋:如果你显卡不行,Supermerger 就是你的“穷人版法拉利”。把几个大神的模型融一融,没准能搞出个版本之子。![]()
二、 技 | 炼丹字典:小白黑话速查表★【看点:看不懂参数?看这张做菜指南】看点解析炼丹最劝退的就是那些英文术语。为了让大家能看懂,我把它们翻译成了“做菜”:| 英文术语 | 中文俗称 | 做菜比喻 | 作用与影响 |
| Checkpoint | 底模 | 汤底 | 决定画风的基础。比如 Pony V6 就是浓郁的二次元厚涂汤底。 |
| LoRA | 模型/插件 | 调料包 | 我们要炼的角色。它是特定的人物/体位,撒进汤里就有那个味儿。 |
| Trigger Word | 触发词 | 菜名 | 召唤角色的咒语。输入这个词,LoRA 才会生效。 |
| Learning Rate | 学习率 | 火候 | 最关键! 火大(高)会练糊,火小(低)练不熟。 |
| Epoch | 轮次 | 炖的时间 | 总共练几轮。炖太久肉会烂,炖太短肉不熟。 |
| Batch Size | 批次大小 | 一锅煮几个 | 显存大就多煮几个(快),显存小只能煮1个(慢)。8G显存通常设为 1。 |
| Network Rank | 模型维度 | 锅的容量 | 值越大(128),能装的细节越多,但文件大;值越小(32),文件小但可能丢细节。 |
| Overfit | 过拟合 | 煮烂了 | 练过头了。表现为:人物脸部崩坏、出现噪点、或者怎么换提示词都穿着同一件衣服。 |
扯扯蛋:别被这些词吓唬住了。说白了就是把素材扔锅里,开火炖。只要火候(参数)对,就没有炼不出来的丹。![]()
三、 淫 | 欲望引擎:Pony Diffusion V6★【看点:为什么一定要用 Pony?】看点解析在 NSFW (你懂的) 领域,Pony V6 (基于 SDXL) 是目前唯一的真神。
相比老的 SD1.5,Pony 对人体结构、肉感质感、高难度体位的理解是降维打击级别的。
本期我们就以 “训练一个基于 Pony 的人物 LoRA” 为目标,教大家如何把一位“老师”炼进模型里。扯扯蛋:Pony 这个模型...怎么说呢,它“阅片量”可能比你还大。你只需要给它一点点提示,它就能还你一个大大的惊喜。![]()
四、 巧 | 施工蓝图:从零开始的炼丹手册>>> ⚠ 显卡红线:训练 Pony 建议 12G+ 显存;8G 用户请严格按“贫民窟配置”操作;6G 以下请玩 Supermerger <<<Step 1: 备菜 (Dataset Engineering)逻辑:Garbage In, Garbage Out。这一步做不好,后面全是白费。| 步骤 | 具体操作 (小白必看细节) |
| 1. 收集 | 找 20-30 张 目标人物的高清图。脸要大且清晰!不要全是同一套衣服。 |
| 2. 裁剪 | 打开 Birme 网站,设置宽高 1024x1024 (Pony 标准)。手动调整裁剪框,确保脸部在中间。下载 zip。 |
| 3. 命名 | 这是第一个坑! 新建文件夹 `train_data`,在里面建个子文件夹,命名格式必须是:`数字_概念名`。 推荐:`20_xiaomei` (`20`是每张图学20遍,`xiaomei`是你的触发词)。把图放进去。 |
Step 2: 清洗 (标签工程)逻辑:告诉 AI 哪些是“人”,哪些是“衣服”。| 步骤 | 操作与清洗口诀 |
| 1. 打标 | 打开 Kohya_ss -> `Utilities` -> `WD14 Captioning`。选 `train_data` 文件夹,点击打标。 |
| 2. 清洗 | 这是第二个坑! 打开生成的标签文件: * 删标签: 你希望 固定在人物身上 的特征(如:痣、发型)。删了 AI 就会把它归纳进触发词里。 * 留标签: 你希望 可以随意更换 的特征(如:glasses, white shirt)。留着 AI 就知道这些是外部物体,换装时容易去掉。 |
Step 3: 开炉 (参数配置)逻辑:防止炸显存,防止炼过头。| 配置项 | 推荐值 (贫民窟保命版) |
| Base Model | 必须加载你下载好的 `Pony Diffusion V6 XL` 模型文件。 |
| Folders | Image folder 选 `train_data` 的上一级目录。 |
| Parameters | * Batch Size: `1` (8G显存只能填1)。 * Epoch: `10`。 * Learning Rate: `0.0001`。 * Mixed Precision: `fp16`。 * Gradient Checkpointing: 必须勾选! (显存救星)。 |
Step 4: 验货 (XYZ 测试)逻辑:Pony 有特殊的起手式,不然验证图是一坨翔。| 注意 | 操作 |
| 起手式 | 在 WebUI 测试模型时,Prompt 必须包含: `score_9, score_8_up, score_7_up, source_anime, xiaomei` (没有这些 score 标签,Pony 无法被正确激活) |
![]()
■【避雷针】/ Troubleshooting
新手炼丹容易犯的 3 个错:1.
文件夹命名错误: 随便起个名,没加数字前缀(如 `xiaomei`)。
*
后果: 训练报错,或者根本没学进去。必须是 `20_xiaomei` 这种格式。
2.
打标悖论: 想让 AI 记住眼镜,却保留了 `glasses` 标签。
*
后果: 以后生成的图,眼镜时有时无。想焊死在脸上,必须
删掉对应标签。
3.
过拟合 (脸崩): 脸部出现诡异纹理,或者所有图构图都一样。
*
后果: 火太大了。尝试降低学习率,或者在 WebUI 里把 LoRA 权重降到 0.7 试试。
老司机语录: 炼丹是一门玄学,更是一门艺术。不要迷信别人的参数,多看控制台的 Loss 曲线,多跑 XYZ 测试,你的“丹”只有你自己最懂。
■ 结语
恭喜你,你已经掌握了 AI 领域最核心的技能之一——创造。
现在,无论是哪个冷门老师,只要你能搜集到她的 20 张图,她就能在你的硬盘里永生。
但是,图毕竟是图。虽然我们有了 FaceFusion 可以换脸视频,但那终究是在“修改”别人的作品。
能不能直接用 AI,凭空生成一段从未存在过的视频?让照片里的人动起来,走两步,甚至...?
下一期,我们将进入 AI 视频生成的全新纪元。
下期预告:【第 18 期】动态影像 —— SVD 与 AnimateDiff,让静态的梦境流动起来。
关键词索引:GitHub 搜 "Kohya_ss" / "Supermerger" / "Pony Diffusion"
温馨提示:炼丹虽好,请注意散热。
站内翻阅往期(技术底座与路线):
7098897 [置顶底座] 引用 7098897:[AI 奇技淫巧][2016.01.12]从零打造你的本地化AI全能作战平台「实操向」
7103439 引用 7103439:[AI 奇技淫巧][第十六期]移花接木:FaceFusion 换脸与 MuseTalk 唇形同步
7103141 引用 7103141:[AI 奇技淫巧][第十五期]神之画笔:ControlNet 让 AI 指哪打哪
赞(24)