游戏要结束了：ControlNet正在补完AIGC工业化的最后一块拼图

2023-02-17 星期五由 Bad.news 提供快照支持加入tg群

就在情人节前一天一款叫ControlNet的SD插件发布了，这款插件在短短的两天内成为了AI绘画领域最新的热点。而它的出现代表着AI生成开始进入真正可控的时期，而AIGC的可控性是它进入实际生产最关键的一环。

在此之前，大家用了很多方法想让AI生成的结果尽可能的符合要求，但是都不尽如人意，ControlNet 比之前的 img2img 要更加的精准和有效，可以直接提取画面的构图，人物的姿势和画面的深度信息等等。有了它的帮助，就不用频繁的用提示词来碰运气，抽卡式的创作了。

ControlNet的作者：张吕敏

ControlNet 的作者是一个2021年才本科毕业，目前正在斯坦福读博的中国人。

之前很火的 Style2Paints 也是他制作的，除此之外他还做了一款名为 YGOPro2 的Unity 纸牌游戏，这款游戏在国内外都有不少粉丝。

AI线稿上色这个领域一直都是他在做，感觉几乎没有其他人了，不知道是大厂嫌这块蛋糕太小还是其他原因。Style2Paints 今年1月已经迭代到了第5版。下图是Style2Paints 线稿到插画的示例图。

Style2Paints的项目地址：https://github.com/lllyasviel/style2paints/tree/master/V5_preview

在读博，写论文，做这些AI工具之余还能玩票做了一款热度还挺高的游戏，现在的00后都这么强的么？

ControlNet是什么？

ControlNet 直译就是控制网，ControlNet 是作者提出的一个新的神经网络概念，就是通过额外的输入来控制预训练的大模型，比如 stable diffusion。这个本质其实就是端对端的训练，早在2017年就有类似的AI模型出现，只不过这一次因为加入了 stable diffusion 这样优质的大模型，让这种端对端的训练有了更好的应用空间。

它很好的解决了文生图大模型的关键问题：单纯的关键词的控制方式无法满足对细节控制的需要。

ControlNet 把每一种不同类别的输入分别训练了模型，目前公开的有下面8个。分别是：canny，depth，hed，mlsd，normal，openpose，scribble，seg。

ControlNet 相关资源

ControlNet项目地址：https://github.com/lllyasviel/ControlNet

ControlNet 的 WebUI 扩展： https://github.com/Mikubill/sd-webui-controlnet#examples

模型下载（5G）https://huggingface.co/lllyasviel/ControlNet/tree/main/models

模型下载（700mb）https://huggingface.co/webui/ControlNet-modules-safetensors/tree/main

中文教程：https://www.bilibili.com/video/BV1Gv4y1x74L/?spm_id_from=333.337.search-card.all.click&vd_source=453933dd6891757733da4e4288779255

英文教程：https://www.youtube.com/watch?v=vFZgPyCJflE

https://www.youtube.com/watch?v=OxFcIv8Gq8o

https://www.youtube.com/watch?v=YJebdQ30UZQ

controlNet导入方法（日语）https://miro.com/app/board/uXjVPnNbqTA=/

ControlNet可以做什么？

1 canny 边缘检测，提取线稿

通过从原始图片中提取线稿，来生成同样构图的画面。这个案例是输入鸟的图片和提示词。

通过给线稿上色来制作的小动画，稳定性很好。

图片来源：https://twitter.com/izumisatoshi05/status/1625835599017148416

2 depth 深度检测，提取深度图

通过提取原始图片中的深度信息，可以生成具有同样深度结构的图。

用Blender创建空间→创建深度图→用ControlNet Depth创建插图→粘贴为Blender空间中的纹理，就可以创建无限弹出的立体书

来源：https://twitter.com/TDS_95514874/status/1625849823957233664

3 hed HED边缘提取，跟canny类似

相对于使用普通的 img2img ，边缘线提取的方式可以生成更加清晰完整的图，黑色描边也得到了很好的重绘。

图片来源：https://twitter.com/hesui_channel/status/1625462909878034433

4 mlsd 线段识别，适用于建筑场景

5 normal 模型识别，适用于建模

跟深度图有点类似，通过读取原图片中的深度信息和法线背景阈值。它比深度模型对于细节的保留更加的精确。

6 openpose 姿势识别，用于人物动作

这个功能对于人物设计和动画十分有利，应该会很快用在影视行业。

除了生成单人的姿势，它甚至可以生成多人的姿势，这点非常关键，在此之前AI生成的画面里多个人物的特定动作是几乎无法靠提示词来实现的。

图片来源：https://twitter.com/toyxyz3/status/1626138471256715265

通过控制人物姿势，在人物角色设计上的尝试。

图片来源：https://twitter.com/DiffusionPics/status/1626012676554952707

7 scribble 黑白稿提取

图片来源：https://www.bilibili.com/read/cv21848861/

8 seg 语义分割识别

这个之前英伟达做过类似的产品。

总结

AI工具以及细分领域应用的公司们，可以做的事情越来越多了。而今年才过了不到两个月，我们无法想象在年底的时候，AIGC的发展会到达什么样的程度。

原文地址：点击

(xxx)评论