ちょっと前にTwitterを中心としてAIに絵を描かせることが流行ってましたよね。自分としては対岸が騒いでるなぁという形で、特段気にしてなかったんですが、先日実際に使ってみてびっくり。。いつの間にこんな技術革新進んでたの?っていう感じです。
実際に自分で作ってみた画像
『月を歩くラクダ』
『葛飾北斎が書いた自由の女神』
普通にこれデザイナーに書かせたらかなり値段しますよね。
『アンディウォーホルが書いた渋谷スクランブル交差点』
すごくないですか。どれも1分もかからずに生成されちゃいます。
そこで今回は概要、簡単な利用方法、(著作権含む) 活用方法についてザックリと解説していきたいと思います。
概要
このAIアート。いわゆるネット上に転がってるるデータを機械学習させて、絵を自動生成されるという技術は少し前にGoogleなどが実現していたといいます。しかしながら社会に与えるインパクトが大きいということで一般公開はされてきませんでした。
出典:GAN:敵対的生成ネットワークとは何か ~「教師なし学習」による画像生成 - アイマガジン|i Magazine|IS magazine
これは敵対的生成ネットワークという教師なし機械学習(GANと呼ばれます)という技術が不可欠なのですが、この分野が成熟したことによって、GoogleではないMidjourneyやStable Diffusionという民間サービスでも実現できるようになったのでした。このAIアートサービスにもいくつか種類はありまして、上記の二つの他にも、人の顔を描くのに特化した、Style Ganなどというサービスも登場しました。
これ全部存在しない人の写真です。
出典:https://arxiv.org/pdf/1812.04948.pdf
「写真が証拠になる時代は完全に終わった」と言われています。
利用方法
さまざま方法はあるのですが、無料でかつ試行回数が無制限といえば、このStable DIffusionがおすすめです。
初歩的な英語が間違ってるwww(正しくはlots of dogs)
利用方法は簡単。このデモサイトで、検索窓に言葉を入れるだけです。そうするとほら。大体1分程度で完成してしまいます。
Stability diffusionの唯一の難点として顔の生成が苦手であるということ
ただ、今現在大変人気なため、時間帯によっては多少アクセスが集中することがあります。それでも10回くらいクリックしてると、ほとんどの場合、画像の生成が始まります。
検索窓に入れる言葉ですが、英語の方がどうやら精度は高いようです。DeeplやGoogle翻訳を使ってじゃんじゃん訳していきましょう。
他にも呪文と言われる文法がありまして、kawaiiをつけると怖い画像が出にくい、by (アーティスト名)とすると画風が反映される、一番影響させたいものは最初に持ってくる、などなど様々あります。
この辺りの詳しい呪文文法はこちらのサイトに解説を譲ります。
Prompt 呪文詠唱 完全入門 ~ Midjourney , StableDiffusion ~
オープンソースであるということ
利用者にとってはあまり関係ないことかもしれませんが、これオープンソースなんですよ。つまりサービスのコードが公開されているということです。少しプログラミングに関する素養があれば、簡単にネットからコードを落として自分のパソコンで動かすこともできますし、自分でコードを書き換えて、それをサービスとして新たに展開させるということも可能なんです。
オープンソースという概念は、Linuxをはじめとして急速に技術革新にブーストをかけるものですが、現在も世界中のエンジニアがコードを書き換えているようですので、年内にもこの分野の技術革新はすごいことになると思います。
Delighted to announce the public open source release of #StableDiffusion!
Please see our release post and retweet! https://t.co/dEsBX7cRHw
Proud of everyone involved in releasing this tech that is the first of a series of models to activate the creative potential of humanity
— Emad (@EMostaque) August 22, 2022
(なお開発者のEmad Mostaque氏は貪欲にビデオ、音楽、3Gなどさまざまな分野に手を出していくことを表明しています)
無限に広がる活用可能性
問題はこうした作品の著作権は誰に帰属するかです。大抵は産みの苦しみを伴った作者にあるわけですが、このStability Diffusionに関しては、ユーザーにあるということです。しかも商用利用に関する制限もなく、この絵に対して自由に手を加えることも可能だというのです。
ですのでブログに使うのもよし、これを使って金を稼ぐのもよし、法人利用で使ってもよし、ということでかなり利用方法の幅はとてつもなく広いでしょう。正直Googleのコモンライセンスや、Adobe、Pinterestを漁る必要はなくなりましたよね。。
写真生成の実験中。接写から風景写真までこのクオリティで生成できる。すごい。#stablediffusion pic.twitter.com/iibN8gRBV2
— やまかず (@Yamkaz) August 20, 2022
デザインなどの仕事でも、大まかな風景や、コンテはAIに出力させて、重要なところだけ自分で手を加えるという活用方法もありかもしれません。
山積している問題も
当然これだけの精密な画像デザインを出力するわけですから、問題がないわけではありません。例えば以下の画像。
これは自分が実際に生成させたものですが、どう考えてもミッキー(というかミニー)ですよね。いくらサービス側が著作権はユーザーにあると言ったところで、果たしてディズニーがこれを個人の創作として認めるでしょうか。この辺りはこれから法整備が進んでいくのではないかと思われます。(AIの機械学習に著作物を用いるのは何の問題もないとされている)
※ Quoraでも意見を募ったのですが、見た側の人が明らかに誤認するものは使わない方が現段階では無難でしょう。
またデザインを本業にしてる人にとっても、特にアメリカでは仕事が奪われるのではないかという危機感がにわかに広まっているようです。例えば企業のパンフレットや、デザインを描かせるために雇っていたデザイナーの解雇や、契約打ち切りというのは十分に考えられます。正直、このAIが出力させたもので十分と考える企業や雇用主は多くいると思われます。
こんなのもものの1分で書けちゃう。。
他にもオープンソースが故に、児童ポルノで用いられる危険性や、女性の裸体を描かせる、人種差別を扇動する内容を描かせるといった活用方法も可能で、この辺りのフィルタリングを規制していくのは難しいのではないかと言われます。
現状ではこのようにまだまだ問題は山積しているのようですので、この辺りがどうなっていくかは未知数だとも思われます。
まとめ
見るものを驚かせるAIアート。改めてAIの凄さを思い知りました。例えば普通に、機械学習で学んだ絵をつなぎ合わせるということは十分可能だと思っていましたが、出力された画像を見ると、質感や影の伸び方など本当にAI は知能なんだなと思わされます(ある意味怖い)。また著作権が自分に帰属するということは、画像の活用方法やフリー画像のあり方にも大きな影響を与えると思われます。
『ゴッホが描いた渋谷のスクランブル交差点』
出典:
https://en.wikipedia.org/wiki/StyleGAN
https://qiita.com/YasutomoNakajima/items/1e0153cfb598641f5c9b
https://www.4gamer.net/games/999/G999905/20220823081/
https://en.wikipedia.org/wiki/Artificial_intelligence_art