spliti 〜「言葉に込められた感情」もアウトプット。Chat GPT-4oの出現で、AI環境はどう変化する？

Text by 廣田一馬

『NexTech Week2024【春】』のセミナー企画「Chat GPTが大幅アップデート！ GPT-4oの最新情報を徹底解説」が5月23日に東京ビッグサイト西展示棟特別講演会場で開催された。

同セミナーには、石川陽太（ChatGPT研究所代表）が登壇。モデレーターの小澤健祐（AI専門メディア「AINOW」編集長、Cinematorico Founder COO）と共に、5月に公開されたChat GPTの新バージョン「GPT-4o（omni）」についてトークを繰り広げた。

今回の記事では、当日の様子をレポートする。

登壇者の石川陽太（左）とモデレーターの小澤健祐（右）

立ち見も出るほどの注目度となった会場。石川はGPT-4oについて「まったく新しく学習されたOpenAIのマルチモーダルAIモデル」と話す。

これまでのChat GPTでは画像や音声、テキストを別々のモデルを使用し学習していたが、GPT-4oではすべてを統合して学習しており、飛躍的な性能向上につながったという。

例えば音声生成においては、認識した音声をテキストに変え、また音声に戻す形でアウトプットしていたが、GPT-4oでは音声で認識しそのまま音声でアウトプットするかたちに変化。テキストに変換する場合には欠落してしまっていた「言葉に込められた感情」などもアウトプットできるようになった。

音声理解能力も向上。「わかりにくい会議の内容を話者の名前付きで要約する」といった命令にも対応できるようになるという。雑音の多い環境でも使用可能なため、議事録生成ツールがいらなくなる可能性もあると小澤は指摘する。

石川はそのほかの特徴として「高性能で低価格」「GPT-4の2倍となったテキストの応答速度」「高度な画像生成能力」などを挙げたほか、小澤は数学性能の向上も特筆すべきポイントだと解説。これまでのChat GPTは言語処理能力に長けているものの数学が苦手分野だったが、GPT-4oでは飛躍的に数学能力が向上したという。

GPT-4oへの注目度からか、会場は立ち見も出るほどの参加者が集まった。

GPT-4oでは音声生成能力の向上によって、歌を自然に歌うことも可能に。会場ではGPT-4oが歌う動画も映し出された。

石川は続けて、GPT-4oが生成した「コインが地面に落ちたときの音」を紹介。過去にドラマを製作していた経験を持つ小澤は「（効果音を作るために）ありとあらゆるものを擦ってみたり、いろいろなものを叩いたりしてもちょっと違った」と効果音づくりに苦労した経験を吐露した。

GPT-4oではコインの種類や地面に落とす高さなどの具体的な指示を加えることも可能で、ゲーム製作の分野での活用も進むと石川は語る。

これまでのChat GPTでは難しかった「画像内の文章の生成能力」が向上したことも話題に。

これまでのChat GPTによる画像生成では、意図しない言語や不明な文字が含まれることが多かったが、GPT-4oでは以前よりも複雑な文章に対応しているという。

日本語への適応がどこまで進んでいるかは未知数だというが、今後は使用者それぞれがフォントデザインもオリジナルでつくりだして文字を生成できる可能性も語られた。

Mac版のデスクトップアプリが登場し、Windows版のアプリも後日公開されることが話題に。Mac版ではショートカットキーを押すことで、すぐにChat GPTの入力画面を表示できるようになった。スクリーンショットを撮って質問するなども可能で、「今後Mac OSにGPTが取り込まれ、一体となっていく可能性もある」と小澤は語った。

講演の最後には今後GPT-4oのビジネス応用についての話題に。テキスト、オーディオ、画像の入力を同時に処理できるGPT-4oの能力を活かし、リアルタイムで適切な解決策を提示するカスタマーサポートや多言語翻訳、マーケティング資料などのコンテンツ作成、データ解析での利用が進むことが予想されるという。