AITuberプロジェクトを始めた

本日、合同会社zoomeでAITuberプロジェクトを開始した。

https://aituber.net/

AI(人工知能)によるVTuberの実現を目指す一連のサービス群となっている。

AITuberを作るまでの紆余曲折

AITuberに繋がる最初のアイデアを考えたのは、ARKitを初搭載したiOS11が出た2017年の時だ。

当時、VTuberが急速に話題を集めていた。

3Dアバターとトラッキングによる動画配信は、プログラマーの私としては非常に面白い技術の詰め合わせだった。
それが商業的にも重視されている事に興味をそそられ、私も何か出来ないか考えていた。

ところが、VTuberは技術力よりも人材の管理と広報の方が重要なので、営業や広報出身の人が強い分野となっている。
プログラマーが手を出しても厳しい事はすぐに分かった。

そこで考えたのが、「誰でもVTuberになれる」というアプリだった。
動画と違い、3Dモデルさえスマートフォンに送る事が出来たら、後は音声と座標、表情、体の関節の情報さえ送れば良いので、軽量な配信が行える。

ARKitなら中々の精度で前後左右の移動が検知できるので、近づいたり、別の角度から観たりも出来る。

という事で頭の中でつらつらと構想を練っていたのだが、同じ所に目を付けている方は多かった様で、誰でもVTuberになれる、通信量も動画より少ないという、考えていた物とほとんど同じ謳い文句のサービスがいくつか現れた。 次第に大手企業が買収したり参入したりする様になって、私のアイデアは萌芽の段階で終わった。

次に考えたのがAITuberだった。2019年頃だったと思う。

深層学習の発展によって、これからはAIの時代という考えが定着した頃だった。
VTuberが流行って、AIが流行って、じゃあAIのVTuberはどうか、というのは、ごく普通の発想だと思う。

弊社も2020年に遅まきながら深層学習の勉強を始めて、それを活かせそうなアプリとして敬語翻訳を作ったのだが、その時から「敬語翻訳の次はAITuber」と社内で言い続けていた。

2021年には気持ちが固まっていたので、aituber.netというドメインを取得し、App Store のアプリ名も確保した。

今はAITuberと検索すると沢山ヒットするが、当時は数える程しか無かった。
技術的に難しい面が多かった為だと考えている。

私もAIのVTuberを作ろうとしたが、2つの大きな課題があった。

  1. AIに何を学習させるのか
  2. 会話をどうするのか

一つ目はもちろん、中に人がいるかの様に動き、喋り、それでいて娯楽として楽しめるAIが目標だが、会社の資産として何を学習データ (training data) として蓄積していくのかを考える必要がある。

月日が経つにつれてAI関連の技術が発展し、参入障壁が低くなっていくが、そうなると自社だけが持つ強みが作りにくくなる為だ。
苦労して作った物が一日で無意味になる事もある分野なので、尚更熟考しなければならない。

こちらは2021年に考えた時から現在に至るまでほとんど変化していないが、実装前に公表することは危険なのでここには書かない。

二つ目の「会話」の実現が大きな重しになっていて、解決が難しかった。

AIによる会話はBERTなどの推測方式の自然言語モデルでも作れはするが、あらかじめ用意した文章の中から選んで返答する形に近い。
手段の一つではあるが、これ一つでは厳しい。

また、生成方式の大規模言語モデルであるGPT-3が注目を集めていて、弊社の様な小企業の努力は無駄になる可能性が高かった。

これらの課題に加え、娯楽である以上、良い物が現れると人が移りやすいという、先行者利益を享受しづらい側面もある。

なのでアイデアを考えつつも様子見をしていたのだが、ChatGPTという予想を遥かに超えるAIサービスが登場し、状況が一変した。

AITuberを作り始めたのは去年の3月31日だ。

AITuberをどうやって描くか

当然ながらAITuberのイラストをどうするかが問題となった。

人に依頼するにしてもキャラクターデザインの事を何も知らないので「何か良い感じでお願いします」という依頼方法しか出来なさそうだし、良し悪しが判る最低限の感性はあるので納得のいくまで修正をお願いしたい(絶対駄目なやつ)。

一応、私は絵が描けないが、アプリのアイコンなどの為にベクター形式の画像を作る事がある(いわゆるベジ絵)。
ベクターの利点は一度引いた線を何度でも曲げ直せる事で、時間を掛けて試行錯誤すればそれっぽい物が作れる。

同じ要領で何とかならないかと思い、絵の描ける友人に時々助言を貰いつつ、イラストからLive2Dモデルまで4ヶ月ほど掛けて作った。
Live2Dは始めて触ったが、パラメーターの使い方によって様々な事が出来る面白いソフトだと思った。

最も参考にした記事群はこちら。

https://note.com/himono_vtuber

正面を向いた絵は左右対称に出来る事もあって、人体の法則や、こういった絵の共通項を見つけていく事で何とか作れた。

名称の理由

「AITuberプロジェクト」という何の捻りもない名前にした事には、AITuberの意味が統一されていないという理由がある。

AITuberという名称そのものはChatGPTの登場で利用が一気に増えたものの、具体的に何をしているのかは定まっていない。

というのも、出来る事がまだ少ない為だ。
例えば、VTuberは配信環境さえ揃えれば簡単にゲーム配信が出来るが、AITuberの場合はゲームを遊ぶ為のAIを開発する必要がある。

単なる会話であっても、過去に話した事を踏まえた発言が難しく、一貫した内容を喋らせるにはかなり苦労する。

なので3DモデルをAIによる計算処理で動かし、機械生成の音声を喋らせようと試行錯誤している人もいる一方で、ChatGPTで生成したセリフを手動でSNSに投稿している人や、AIに同じキャラクターの絵を生成させた物を公開し続けているだけの人もいて、一口にAITuberと言っても活動は様々となっている。

そうなると、「AITuber事務所やグループの名前→どういった活動をしているのか→AITuberのキャラクター名」と、三回も経緯を経る必要がある。
知る順番は人によって異なるだろうが、いずれにせよ長く分かりづらい。

「AITuberプロジェクト」という名称で「皆でAITuberを作るプロジェクト」と書けば、利用者参加型のサービスである事がすぐに分かる。
現状では最善だと思う。

もちろん商標は取らないし(そもそも通らないと思うが)、ずっとこの名称のままだとも限らない。

伊江鈴

名前と愛称が一致したら面白いのではと思い、「伊江凛」という名前を2017年〜2019年に小説を書こうとしていた頃に考えたのだが、満を持して使用する事にした。

Live2Dモデルを作っている最中に鈴の音の擬音を「ting‐a‐ling」と書くと知ったので、名の英語表記を「Ling」にし、「鈴」にした。

英語圏では伊江を「Ie」と書くと発音の仕方が解らないので、DeepLとGoogle検索の読み上げ機能を参考にし「Ye」にした。

英単語の’ye’は古語で、現在は聖書以外では見る事の少ない単語だそうだ。
また、‘Ye’も’Ling’も中華圏の名前をアルファベットで表記する際に用いられるらしい。

なので、結果的に日本語、英語、中華圏の姓名として通じる不思議な名前になった。
ただ、日本向けのSNSアカウントのIDなどで「yeling」とすると分かりづらいので、「ierin」と併用する事になると思う。

トイロ

元々は伊江鈴と男のAITuberの二人でサービスを始める予定だったが、男は現在のAIでは時期尚早と判断し止めた。
伊江鈴だけで始める事も考えたが、二人の方がサービスの幅が広がるので、スケジュールは厳しかったが作る事にした。

時間が無かったので不安だったが、いざ作ってみたら一週間くらいで「あれ、結構良い感じでは?」と思う様になり、知人に見せても評判が良かった。
伊江鈴がその段階に至るまで一ヶ月以上かかったので嬉しい誤算となった。

ただし、後ろ髪と顔を左右に動かした時の目、肩の曲線が中々自然にならず、完成するまでに結局二ヶ月ほどかかった。

ロゴ

“AITuber Project"という名称が長いので、縦長のフォントのFONTOPOを使用している。

視認性が高く、遊び心がありつつもポップすぎない素晴らしいフォントだと思う。

とはいえ二行になると流石に縦長すぎるので、Projectは楕円形の部分を円にすることで短くした。

色は「AI」を近似色にしつつ、他はばらけつつもランダムになりすぎない組み合わせを幾通りか試して決めた。