NetaYume:一个很强的二次元画图模型
这段时间没有折腾什么技术方面的内容,自从买了V100,就是天天让V100给我画图,不知不觉花了一大堆图片,有一说一也确实好玩。
我想想博客鸽了这么久,不如分享一些不错的画图成果吧。
NetaYume模型是Neta Lumina模型微调后的版本,角色理解能力更强。
Neta Lumina 的最大优势在于能够理解复杂的自然语言描述。
除了使用标签(Tags),Neta Lumina 也能深刻理解自然语言描述(NLP)。模型在训练时学习了多种不同的描述风格,这意味着您可以像与真人画师沟通一样,用完整的句子来描述您想要的画面。
以上内容摘自官方文档,所以说,当我初步掌握了如何针对这个模型写提示词的时候,画出来的效果是让我大受震撼的。
另外,值得一提的是,我后面还尝试使用它的拆分版本运行,实测H61主板+E3-1220v2+两条8G DDR3内存+P104-100可以跑,但是跑一张1920x1080的图需要跑大概15分钟,而V100只需要5分钟,慢了整整三倍,还是很夸张的。不过也可以理解,一个CUDA核心数1920,另一个5120,差了2.6倍,而且还有显存带宽的差距,所以倒也不奇怪了。
好看的巧克力插画
其实,我画的最多的角色是猫娘乐园的巧克力,因为好看的同人图太少了。
一开始我并没有看文档,想当然地按照常规画图提示词的套路来,虽然结果不够理想,但也抽出来了一些不错的图片:


好看是好看,但是感觉像是同人图,没有官方插画那么对味。
查阅文档后,我才发现,这个模型有对画师画风进行强化训练,也能比较好地理解角色,所以,我尝试指定了Sayori的画风,得到了出乎意料的惊喜:
像!太像了!
于是我又尝试去构建了几个不同的场景:












真给我画爽了。不过别看这么好看,这是抽卡抽了几百张图,挑出来比较好看的结果,画崩的我就不放出来了。
最容易绷的还是手,这个确实没办法,虽然这个模型以及改善了很多,但是还是会不可避免地崩掉一些。
尝试指定不同画风
另外,因为模型支持指定画师画风,我还尝试了使用别的画师画风去画对应的角色。
巧可甜恋的雪村千绘莉,指定为原画师Shiratama画风:
初音未来,指定画师TID的画风:
看头发和眼睛确实对味了 TID是洛天依官方插画御用画师,所以画出来有点像洛天依(
初音未来,指定画师Qys3画风:
非常的对味
镜音铃,指定画师TID的画风:
我还尝试了一下用三种不同画师的画风画了一下巧克力,也就是保持第一张图的随机种子不变,如何分别用三种不同的画师预设画三次:


确实就是各自画师的画风风格了,对比还是很明显的。
画个香草吧
我还是试了一下画香草,但是相对来说没巧克力画的这么完美。因为香草的眼睛上睫毛是平的,虽然多次和AI强调过这个细节,甚至添加了相关的负面提示词,但是总是会画出来有点弧度,导致不太像,结果不理想。


其中,图二是最像的,人物的感觉和形象都对了,但是还是差一点感觉。这是抽卡抽了一百多张图才抽出来几张还行的。
Z-Image-Tubro试水
另外,我发现一些复杂场景描述下,NetaYume没办法很好的驾驭,总是画崩,而Z-Image-Tubro却可以很好的理解画面的描述,进而画出准确的画面。目前在我试过的模型里面,Z-Image-Tubro确实无疑是最强的,只是可惜这个模型是真实画面的通用模型,并没有对二次元插画进行优化,以至于叫它画二次元,画风都是清一色一个样。不过还算可以,至少它在生成图像的时候,对于人造几何体的把控能力,比NetaYume要强得多。
我也尝试画了一些图:







好像也就只能画对初音未来,巧克力和香草,我用最详细的语言来描述了,还是画不对。
不过从构图理解能力,人造几何体绘制能力来看,确实是遥遥领先的。如果这个模型可以微调出来一个二次元专用的版本,那就是无敌。









































































































































































































