見出し画像

社長の入社式スピーチを生成AIに任せてみた

会社で4月最初のイベントと言えば入社式。
私たちファンリードでも、4月1日に7人の新入社員を迎え、グループ全体で入社式が実施されました。

グループ入社式会場のホテル椿山荘
ちょうど桜が満開のタイミングでいい景色です!

入社式の中で、当社社長の小林さんが「生成AI を使って話す」という動画を再生し、なかなか好評だったとのこと。

今回は、こちらの動画をどのように作成したかをご紹介します。


実際の動画

まずは実際の動画をご覧ください。

今回の記事に本人が話す動画がないので比較できないかもしれませんが、少なくとも「人が話している」ようには見えますよね?

AI小林社長の作り方

AI小林社長の入社式スピーチ動画は、3つのステップで作成されています。

  1. 声の学習
    小林社長の音声データを使って、AIに小林社長の声を学習させます。

  2. 音声合成
    ChatGPTが生成した入社式スピーチの原稿を、学習済みのAIモデルで読み上げ、音声データを作成します。

  3. 動画作成
    音声データに合わせて小林社長の口の動きを自動生成し、写真と組み合わせて動画を作成します。

それでは、各ステップで使用したツールと技術について詳しく見ていきましょう。

1.声の学習

小林社長の声を学習するために、「GPT-SoVITS」というオープンソースのプロジェクトを利用しました。このプロジェクトは、TTS(Text-to-Speech)と呼ばれるテキストを音声に変換する技術を使っていて、1分程度の短い音声データからでも高品質な音声合成モデルを学習できるのが特徴です。

学習用のデータとして、今回は小林社長が話している3分くらいの動画から音声を抽出したファイルを使用。GPT-SoVITSにこの音声データを与えることで、AIは小林社長の声の特徴をしっかりと捉えることができました。

2.音声合成

次に、ChatGPTを使って入社式スピーチの原稿を生成。この原稿のテキストをステップ1で学習済みのAIモデルで読み上げることで、小林社長が話しているかのような自然な音声データを合成しました。

GPT-SoVITSの画面

3.動画作成

最後は、「HeyGen」というAIビデオジェネレーターを使って、小林社長の写真と音声データから動画を生成します。HeyGenは、img2vid(Image-to-Video)と呼ばれる静止画から動画を生成する技術と、音声に合わせて口の動きを同期させる技術(リップシンク)を組み合わせています。

リップシンクとは、音声に合わせて唇や口の動きを自動的に生成する技術のことです。この技術によって、まるで小林社長が実際に話しているかのような自然な口の動きを再現することができます。

HeyGenの画面

写真は小林社長の写真を、音声にはステップ2で合成した音声データを使用。HeyGenにこれらのデータを読み込ませるだけで、リアルな「AI小林社長」の入社式スピーチ動画が完成しました。

気になる作業時間ですが、音声データの事前準備や学習に約10分、音声合成に数秒から数十秒、動画の生成に約5分といったところです。一度この仕組みを構築してしまえば、次からは原稿や画像を変更するだけで、新しい音声データや動画をさらに短時間で生成することが可能となります。

AIの進化がすごいけど…

このように、実在の人物が架空の内容を話す動画を簡単に生成できる時代になりました。
社長からも、「社長業の情報発信の部分は、すべてAIで置き換えられるかもしれませんね」とコメントをいただきました。

しかしながら、この技術の普及には懸念もあります。
実際、今回の技術を使えば社長が思ってもいないような、例えば「社員全員にハワイ旅行を社長のポケットマネーでプレゼントします!」みたいなことを社内発信できてしまいますので、悪用はしないように気をつけたいと思います。

生成AI動画もお手の物「株式会社エクシーズ」

今回の動画は、2023年8月からファンリードのグループ会社となった、エクシーズのメンバーが作成しました。
エクシーズでは、VRやARなどのXR技術を活用して、お客様のDX推進をサポートしています。

終わりに

近年、生成AI技術は驚くべき進化を遂げており、その応用範囲はますます広がっています。
私たちファンリードグループでは、進化のスピードに乗り遅れることなく、常に新しい技術を習得しながら、お客様だけでは想像できない未来「make WOW!」を、一緒に形づくっていきます。

最後までご覧いただき、ありがとうございました。

この記事が参加している募集