学習データは公式イラスト1枚とフィギュアサンプル画像、計10枚です。
背景抜きを行い、自動タグ付けを行っています。
公式画像やサンプルのみでどの程度まで学習できるのかを見てみたいと思いました。
当初は、フィギュア相当の不気味なリアル調画像が出力されるのでは...と思っていましたが、、
モデルデータやプロンプト等でクオリティ増強すれば中々いいのでは…と思いました。
素材が少ない分強く学習しているのか、自由度はほぼ無く、
- 基本的に張り手、隙あらば手を前に出してくる。なにもない空間からも手が伸びます。
- プロンプトの自由度もなく、いくつかのパターンの同じ構図・同じポーズ
- 色見の変化も殆どしない
- 背中(ジャケット)は殆ど学習してくれない(エッチなのでこれはこれでアリですが)
DBと違い、別モデルへも使いまわせるのが便利ですね。
無理にモデルデータに埋め込まず、ニッチなキャラやシチュエーションはLoRA化してAddon化できれば将来的にも使っていけそうです。
驚いたのがリアル系モデルデータにも効きます。
出力画像の柔軟性がないことが逆にメリットにもなるかなと思いました。
例えば、手を少ない画像枚数で強烈に学習させ、特定の手の形しか出さないLoRAファイルができれば…
様々な手のパターンのLoRAを用意できれば手の破綻はほぼ解決できそうです。
そもそも特定部位のみの学習ができるのか、、
フィギュア画像が学習データとして十分使えそうなので、他キャラでも試したいです。
360度回せるので構図はなんとかなるにしても、ポーズが固定化されるのが難点なので、将来的には3Dデータを元にできれば大分クオリティを上げることができそうです。
DAZやXNArara、illusionゲーで素材は作れるかな...
公式が3Dデータを配布している原神は凄いと思います。
最終的には自前で好きなキャラを作成できるZBrush原型師が最強になるのではと思いました。