トップへ

「音のVR」はどのようにして“新たな音楽視聴体験”をもたらした? 開発者を直撃

2020年05月01日 17:42  リアルサウンド

リアルサウンド

写真

 360度動画の見たい・聴きたい部分に自由自在にフォーカスできる、KDDI総合研究所独自のインタラクティブ視聴技術「音のVR」。この春、同社は日本を代表するプロ合唱団である東京混声合唱団と、定番卒業ソング「旅立ちの日に」など5曲の新しいコンテンツ(以下 本コンテンツ)を制作し、新しい音楽視聴体験を提供する「新音楽視聴体験 音のVR」アプリで配信を行なった。さらに4月24日より、新たに東京混声合唱団のリモート合唱動画も公開されている。


(参考:『攻殻機動隊』の世界が5Gでリアルに味わえるーー「au 5G × 『攻殻機動隊 SAC_2045』」が生み出した“新たな体験”


 新型コロナウイルス感染症対策による休校や、卒業式の中止・縮小によって合唱による思い出づくりができなかった全国の学生を中心に反響があった同企画。その成り立ちと今後の可能性について、KDDI総合研究所・イノベーションセンター・マルチモーダルコミュニケーショングループ・研究マネージャーの堀内俊治氏に話を聞いた。


ーー改めて堀内さんの手掛けている事業、領域について、詳しく教えてください。


堀内:私はKDDI総合研究所・イノベーションセンター・マルチモーダルコミュニケーショングループに所属している、いわゆる企業研究者です。私が主に研究しているのは音響技術なんですが、マルチモーダルという枠組みの中で、五感の技術を組み合わせてお客様に新しい体験をしてもらう技術を作っています。とくにそのなかでも重要視しているのが「ユーザーセントリックエンターテインメント」という言葉で。これはエンターテインメントとして映像や音響をお客様に届けるにあたって、お客様にある程度の自由度を与える技術に力を入れています。


ーー双方向で成り立つコンテンツ、などでしょうか。


堀内:まさにそうです。インタラクションのある映像・コンテンツの実現に関する技術を手掛けているという形で。


ーー今回は社内にある「音のVR」というアセットを使ったわけですが、そもそもこの技術はどういう経緯で生まれたのでしょう?


堀内:VRで360度映像が流行り始めた2015年前後に、そういう映像を見ながら「音はあまり変わらないな」と感じていて。好きなところにズームして見ることはできても、ズームして聴くことはできなかったので、それを実現する技術があれば面白いのに、と研究を始めました。それと同時に、お客様に対して画角の自由度を提供したい、という思いもありました。そうすることで好きな被写体にフォーカスできるので、アイドルのライブであれば推しメンに近づく、といったようなこともできるだろうと。この技術に関しては、サービスの発想から技術の方を興していった形です。


ーーそれを実装するうえで、一番重要だった技術は?


堀内:音響効果を作るために、既存の技術を組み合わせて新しい手法を作り上げました。そのなかで一番大事なのは、操作に応じてスムーズに、連続的に没入した感覚になるようにすることで、「ステレオ幅制御」「位相シフト」「時間周波数マスキング」という3つの技術を使っています。ステレオの音場を広げたり縮めたりする技術と、従来から研究していた不必要な音を消していく技術や、指向性をつけて音を取り出す技術のことです。


ーー同じ声が連続しているなかで、いきなり視点を変えてもディレイなく音が繋がることが大変だったのでしょうか。


堀内:ディレイがないのは当然として、近づいたりすると頭が音の場の中に埋れていく感じにしたかったんです。そういうことをHRTF(頭部伝達関数)やアンビソニック(立体音響ミックス技術)といった既存のものに代えて、中間的な位置づけとして、一般的な放送システムで使われているサラウンドシステムのような簡単な状態で録音して、ソフトウェア側で加工可能な状態にするのが一番難しかったです。


ーー録音を簡易にし、ソフトウェア側での技術に集約したのは、汎用性を高めるため?


堀内:そうです。録音自体は球状のマイクアレイを使っていて、そこで録った素材から、既存の配信のフォーマットの範囲でステレオに加工して、近づいたり遠ざかることができるというのが重要だったので。


ーー今回「音のVR」を混声合唱団で活用するにあたり、改めて改良した部分は?


堀内:過去にモーニング娘。’18さんやアンジュルムさんでシステムを使用させていただいたんですが、その時はマイクが6つだったのに比べ、今回は19個のマイクを使用しています。合唱団の方は人数が多く、みなさんがハーモニーを成して歌うので、「音のVR」そのものよりも送り出すサラウンドのフォーマットや圧縮のレベルに注意しました。配信フォーマットそのものについては、モーニング娘。’18さんらのときは6chサラウンドなんですが、今回は22.2chサラウンドで圧縮はAACの高いビットレートにして、合唱団のみなさんの粒だった声をうまく送れるようにしています。再生側で言うと、引き画で見たときは全員の合唱として聞こえて欲しいし、ズームしたときは各パートで分かれて聞こえるようにしたかったんです。その変化のし具合というか、線形ではなく曲線的に近づいたり遠ざかったりするようなパラメータの変化も意識しました。


ーーアイドルのライブと違い、混声合唱となると音数も少なくパートも分かれているので、よりその違いがわかりやすそうですね。


堀内:そうですね。技術としてもうまく変化をかけないと不自然に聴こえやすいです。合唱ですから、パートは違えど皆さんほぼほぼ同じところを歌っているわけで、既存の技術を改修してはいないんですが、今回に合わせてパラメータのバランスを変えました。


ーー今回は合唱団×卒業ソングでしたが、音楽以外にも利用できることを想定しているものなのでしょうか?


堀内:昨年には、『CEATEC 2019』で、フィギュアスケートやトライアルバイクといったスポーツ鑑賞技術としても「音のVR」を展示しました。いまはスポーツの見方も変わってきていると思っていて、従来型のテレビ放送やYouTubeだと、カメラマンによって視点が変わっているんですが、360度映像は好きなところを見られるし、基本的には普段撮らない内側の視点から見ることできるのも面白いですよね。フィギュアスケートだと、スケートリンクの真ん中にカメラを置くことで、選手側はいままでにない視点から見られることになるので、社会実装的な側面でいうと、得点の付け方も変わってくるんじゃないか、とか。


ーーコンテンツのありかたそのものが、技術によって変わり得るというのは面白いですね。こうして個々にフォーカスを当ててみられる前提条件ができると、パフォーマンスする側としてはより複雑なものが出しやすくなるのかもしれません。


堀内:そうですね。良い意味で表現を難しくすることはできると思います。大衆向けにプロが作ったコンテンツがテレビで、ユーザー側がコンテンツを発信できるようになったのがYouTubeだとすると、今度はユーザーがコンテンツを作ることそのものに入っていく時代になると思っていて、そうなってきたときのための技術をこれからも作っていきたいです。


ーーユーザー側がコントロールできるようになると満足度が高まりますよね。


堀内:だからこそ、コンテンツにもっと入り込める自由度を増やしていきたいです。大衆向けのコンテンツのうえで、好きな人にフォーカスするだけという風に一般化可能なので、カメラワークはお客様にやってもらおう、ということも近い将来出てきそうです。


ーー自分ごとにできるから、コンテンツへの思い入れが強まるということもあるでしょうし。


堀内:まさにそうですね。ミュージックビデオって、カメラワークは変わるけど音は変わらないじゃないですか。でも、それが変わるようになったり、ハプティック(触覚)が組み合わさることによってもっと没入感が高まるんじゃないか、ということも考えています。結果的には、それらを組み合わせることによって自分たちのキャリアをもっと使ってもらえるような面白いものを提供していきたいです。


ーー最後に、5Gの時代になったことで出来るようになったもの・作っていきたいものについても聞かせてください。


堀内:大容量はもちろん、技術者としては低遅延・多接続の技術に期待しています。「音のVR」はサーバーから片方向で配信していて、操作に応じて好きなように触ってもらうものですが、低遅延となってくると、その場で起きていることをライブ的に見てもらえるようになるのかなと。ライブ会場で端末をかざしても、ほぼ同時に見ることができるうえ、画面の中では違うことがリアルタイムで起こっている、ということも可能になりますし。多接続については、いろんなユーザーのアクションが一気にできるようになると、街そのものをバーチャル空間上に作ることができるんじゃないかと思っています。研究開発としては、低遅延・多接続になっていった将来に向けて、引き続き触覚などにもフォーカスした技術の弾込めをしているところです。


ーー五感の一つが新たに加わると、体験ベースではこれまでにない大きな変化があるんでしょうね。


堀内:ただ、ほかの五感ーーたとえば味覚は物理的になかなか難しいので、嗅覚で代用するようなイメージをしています。インクジェットプリンタみたいなイメージで匂いのもとを組み合わせる技術はすでにでてきているので、それを使ったりできますし。とはいえ、大衆向けにはその技術を実装するのはかなり先になるので、基本は視覚・聴覚に加えて触覚を使う技術が実装されていくと思います。


(中村拓海)