社長の入社式スピーチを生成AIに任せてみた

2024年4月23日 11:30

会社で4月最初のイベントと言えば入社式。
私たちファンリードでも、4月1日に７人の新入社員を迎え、グループ全体で入社式が実施されました。

入社式の中で、当社社長の小林さんが「生成AI を使って話す」という動画を再生し、なかなか好評だったとのこと。

今回は、こちらの動画をどのように作成したかをご紹介します。

実際の動画

まずは実際の動画をご覧ください。

今回の記事に本人が話す動画がないので比較できないかもしれませんが、少なくとも「人が話している」ようには見えますよね？

AI小林社長の入社式スピーチ動画は、3つのステップで作成されています。

それでは、各ステップで使用したツールと技術について詳しく見ていきましょう。

小林社長の声を学習するために、「GPT-SoVITS」というオープンソースのプロジェクトを利用しました。このプロジェクトは、TTS（Text-to-Speech）と呼ばれるテキストを音声に変換する技術を使っていて、1分程度の短い音声データからでも高品質な音声合成モデルを学習できるのが特徴です。

学習用のデータとして、今回は小林社長が話している3分くらいの動画から音声を抽出したファイルを使用。GPT-SoVITSにこの音声データを与えることで、AIは小林社長の声の特徴をしっかりと捉えることができました。

次に、ChatGPTを使って入社式スピーチの原稿を生成。この原稿のテキストをステップ1で学習済みのAIモデルで読み上げることで、小林社長が話しているかのような自然な音声データを合成しました。

最後は、「HeyGen」というAIビデオジェネレーターを使って、小林社長の写真と音声データから動画を生成します。HeyGenは、img2vid（Image-to-Video）と呼ばれる静止画から動画を生成する技術と、音声に合わせて口の動きを同期させる技術（リップシンク）を組み合わせています。

リップシンクとは、音声に合わせて唇や口の動きを自動的に生成する技術のことです。この技術によって、まるで小林社長が実際に話しているかのような自然な口の動きを再現することができます。

写真は小林社長の写真を、音声にはステップ2で合成した音声データを使用。HeyGenにこれらのデータを読み込ませるだけで、リアルな「AI小林社長」の入社式スピーチ動画が完成しました。

気になる作業時間ですが、音声データの事前準備や学習に約10分、音声合成に数秒から数十秒、動画の生成に約5分といったところです。一度この仕組みを構築してしまえば、次からは原稿や画像を変更するだけで、新しい音声データや動画をさらに短時間で生成することが可能となります。

このように、実在の人物が架空の内容を話す動画を簡単に生成できる時代になりました。
社長からも、「社長業の情報発信の部分は、すべてAIで置き換えられるかもしれませんね」とコメントをいただきました。

しかしながら、この技術の普及には懸念もあります。
実際、今回の技術を使えば社長が思ってもいないような、例えば「社員全員にハワイ旅行を社長のポケットマネーでプレゼントします！」みたいなことを社内発信できてしまいますので、悪用はしないように気をつけたいと思います。

今回の動画は、2023年8月からファンリードのグループ会社となった、エクシーズのメンバーが作成しました。
エクシーズでは、VRやARなどのXR技術を活用して、お客様のDX推進をサポートしています。

近年、生成AI技術は驚くべき進化を遂げており、その応用範囲はますます広がっています。
私たちファンリードグループでは、進化のスピードに乗り遅れることなく、常に新しい技術を習得しながら、お客様だけでは想像できない未来「make WOW！」を、一緒に形づくっていきます。

最後までご覧いただき、ありがとうございました。

#新生活をたのしく

46,932件