トップへ

AIがもたらす音楽の未来は? ザ・ビートルズ『Revolver』を生まれ変わらせた音源分離技術から考える

2022年11月02日 17:00  CINRA.NET

CINRA.NET

写真
Text by 山元翔一
Text by imdkm

音楽にAIが活用されるーーそう聞いたとき、どんなことをイメージするだろうか? タイムラインにあふれる画像生成AIによるイラストのように、自動作曲AIが手がけた楽曲がSNS、あるいはYouTubeにあふれかえった光景だろうか?

AIが人間に取って代わる、なんてことも言われたりするが、人間が対応できないような作業を任せるツール、あるいはアシスタントとして、AIや機械学習の技術は日常生活や仕事におけるさまざまなシーンに浸透しつつある。それは広く音楽制作の現場においても同様で、先日発表されたThe Beatles『Revolver』のスペシャルエディションにはAIによる音源分離(デミックス)技術が活用されているという。

AIは音楽の未来に何をもたらすか? 直近の事例や研究をもとに、ライターのimdkmによる記事をいくつか展開していこうと思う。まず本稿では、デミックス技術の誕生と発展について、デミックス技術がこの先の音楽家たちに与えるであろう影響、そして私たちリスナーに問いかけることについて考えていく。

『Sgt. Pepper's Lonely Hearts Club Band』(1967年)、『The Beatles (White Album)』(1968年)、『Abbey Road』(1969年)、『Let It Be』(1970年)と新たなミックス&リマスターを施したスペシャルエディションのリリースが続いたThe Beatles。いずれも、The Beatlesの右腕として知られたジョージ・マーティンの息子がエンジニアを手がけており、この秋、その並びに『Revolver』(1966年)が加わった。

『Revolver』の新たなミックスにはAIが活用されている。といっても、ボタンひとつで自動で音質を改善してくれたわけではない。ミックスダウン前の素材に手を加え、さまざまな編集や調整を可能にするために、AIが使われたのだ。

The Beatlesは録音上の革新的な実験を繰り広げてきたが、必ずしも最先端のテクノロジーを駆使していたわけではない。その最たる例がマルチトラックレコーダーだ。トラックごとに独立して録音と再生が可能なこの機材は、複雑にサウンドを作り込むためのスプリングボードになり、1960年代以降の音楽のかたちを大きく変えることになる。

The Beatlesもマルチトラックレコーダーを活用した多重録音でユニークなサウンドをつくりだしていたが、『Revolver』で使われていたのは4トラックのレコーダー。同じ頃、アメリカではすでに8トラックのレコーダーが使用されはじめており、16トラックのレコーダーも実用化されていたにもかかわらず、だ。The Beatlesが8トラックを使いはじめるのは、『ホワイト・アルバム』の頃からだった。

トラック数が限られると、ひとつのトラックに複数の異なるパートをまとめざるをえなくなる。すると、あとから「ギターの音量を下げたいな」と思っても、一緒に同じトラックに入った楽器の音量も道連れにせざるをえない。編集の自由度が著しく下がるのだ。

The Beatlesのステレオミックスは左右が極端に分かれていて、なめらかなステレオの空間に慣れたいまの耳には違和感があるものが多い。かといって現代風にアップデートしたくても、そもそも素材をいじれない。

複数のレコーダーを駆使して制作された『サージェント・ペパーズ』の場合は制作過程の素材が豊富に残されていたことが功を奏したが、『Revolver』はそうもいかない。今回の新ミックスには、テープ上に固定されてしまった録音から、特定の種類の音だけを取り出す音源分離技術(デミックス技術)が絶対に必要だったのだ。

リリースに先駆けてシングルカットされた“Taxman”の2022年ミックスを聴くと、各パートの空間的な配置を大胆に変更しているのがわかる。

たとえば、演奏がはじまってすぐのギターのカッティング(0分6秒ごろ~)。旧ミックスではドラムやベースと一緒に左チャンネルに収まっていたのが、独立してやや右チャンネル寄りに配されている。1分12秒ごろからのギターソロも、元は右チャンネルに収まっていたものが中央にうつされている。

『ザ・ビートルズ全曲バイブル 公式録音全213曲完全ガイド』(大人のロック!編、日経BP社、2009年)に掲載されているマルチトラックの構成を見る限り、この変更はテープの素材そのままでは不可能だ。ミックスの良し悪しはともかくとして、驚くべき技術だ。

ジャイルズ・マーティンはこれまでにも音源分離技術を用いてThe Beatlesの録音をリミックスしたことがあった。その代表例が『Live at the Hollywood Bowl』の2016年の再リリースだ。

ただし、ここでは観客からの歓声に埋もれた演奏を際立たせる目的で使われただけ。2021年のローリング・ストーン誌でのインタビューでは、技術が『Rubber Soul』(1965年)や『Revolver』に新たなミックスを施すのに十分なレベルに進歩するのを待っていると語っていた(*1)。

そこに、2021年のドキュメンタリー映画『ゲット・バック』が意外な助け舟をわたすことになる。監督のピーター・ジャクソン率いる「WingNut Films」が、同作の制作にあたって高度な音源分離技術を開発。各楽器のサウンドやメンバーたちの話し声をAIに学習させ、任意の音を取り出すことができるようになった。

この技術は、ジャイルズ・マーティンの耳を納得させるだけのクオリティーを持っていた。そしてついに、新たな『Revolver』が誕生したわけだ。

『Revolver』のプロジェクトは、孤立したひとつの点ではない。むしろ、近年の大きな流れの一部だ。

現在、音源分離技術は急速な進歩を遂げている。米WIRED誌も「音響のプロはいかにしてヴィンテージなトラックを『アップミックス』し、新たな生を授けているか」という記事を掲載して、その歴史と現状を伝えている(*2)。この記事では、2000年代から、音源から個々のパートを分離し、モノラルの録音を擬似的にステレオ化させる「アップミックス」が行なわれてきたことが示されている。

しかし、WIREDの記事でも示唆されているように、音源分離技術のブレイクスルーをもたらしたのは、2010年代後半の機械学習を中心とするAIブームだった。『Revolver』のリミックスに応用された技術も、機械学習をベースにしている。

こうした技術は大規模なプロジェクトにばかり用いられているわけではない。2010年代末、AIブームの追い風を受け、次々にAIの応用を謳うプラグインが市場に参入した。そこで存在感を放ったのが音源分離技術だった。

たとえば、Audionamix XTRAX STEMS(2017年)、iZotope RX7(2018年)、Hit'n'Mix Infinity(2019年、現RipX DeepRemix & DeepAudio)等々。Audioshakeのように、ネット経由のオンデマンドなサービスも立ち上がったばかりだ。ほか、2019年にデジタルストリーミングプラットフォームのDeezerが公開したspleeterは、先に挙げたソフトウェアやサービスとは違ってオープンソースで公開され、誰でも無料で利用することができた。

Meta(旧Facebook)の研究チームが発表したDemucsも、その分離のクオリティーの高さで、注目を集めている。さらに、音源分離はDJソフトウェアや、カニエ・ウェストの「STEM PLAYER」(※)のような音楽プレイヤーにも搭載され、音楽制作以外の場にも広がりつつある。

もちろん、『Revolver』級のクオリティーに達するのは容易ではない。特定の素材を適切に分離できるよう、特別な学習データを用意し、アルゴリズムを洗練させ、出力されたデータを補正する。そこかしこで、ある種職人的なスキルが必要になるはずだ。魔法のような技術ではあるけれども、まだ完全な魔法とまでは至っていない。

それでも、この手軽さは驚異的だ。ステムが手に入れば、権利関係の問題はともあれ、その活用の方法はたくさん思い浮かぶ。パートごとの細部に着目した聴取・分析の可能性が開けるだろうし、「アップミックス」のみならず新たな楽曲制作にも活用できるだろう。

たとえば、伝説的なビートメイカー、J Dillaにこんな逸話がある。全編にボーカルが被さっているはずの楽曲から、細部の継ぎ接ぎによってまるで元からインストのようなループをつくりだしたのだ。

これは極端な例としても、サンプリングベースのビートメイカーはさまざまなスキルを駆使してサウンドを自分の理想のかたちにつくり変えてきた。音源分離技術はそんなビートメイカーたちにも重宝されるだろう。これまで使いづらくて敬遠されてきたような楽曲がサンプリングソースとして注目を浴びだす可能性もある。

また、十分な精度のステムが手に入れば、自分の手でダブワイズ――既存の楽曲をダブ化すること――だってできる。

レゲエのプロダクションから発展したダブは、スタジオテクニックとクリエイティビティーが交差した、20世紀でもっとも重要なジャンルであり技法だ。既存の楽曲のマルチトラックをミキシングコンソール上で大胆に操作し、サウンドの広がりや質感をコントロールすることで強烈なイリュージョンをつくりだす。

ダブは、意識するしないにかかわらず、現在のポップミュージックの基礎的な言語となっている。実際、これはやってみるとかなり楽しい。音をいじれるという素朴な楽しみだけではなく、音の聴き方に変化が出てくるのだ。前述した「STEM PLAYER」がもたらそうとしているのは、こうした考え方のよりカジュアルな実装だといえよう。

かように、音源分離技術は、制作当時の録音技術の限界や、あるいはマルチトラック素材の劣化・紛失といったトラブルを越えて、過去の録音物にあたらしいかたちを与える可能性を切り拓く。また、大きなスタジオだけではなくインディペンデントに活動する人々にもその恩恵はもたらされ、思いもよらない使用法が見出されるかもしれない。

と、さんざっぱらこの技術を称揚してきたものの、ひっかかるものはある。著作権やその隣接権等の問題や、機械学習の利用一般につきまとう倫理的な問題もさることながら、多重録音的な音楽制作の枠組みを特権化することの是非についてだ。

いまのところ、商業的に提供されている多くの音源分離ソフトはボーカル、ベース、パーカッション(ドラム)、そのほかという4つの分類に従って「ステム」と呼ばれる音声を生成する。オリジナルのマルチトラックほど細かくはないが、あとから操作するにはちょうどいい程度に各トラックがまとめられたものだ。これらの「ステム」の分類は、AIが判別しやすいなど技術的な条件によって定められているのだろう。

しかし、そこにレコーディングスタジオで構築されてきた制作フローの反映を読み取ることも容易い。まず重要なのはボーカルであり、ベースとドラムのリズム隊が基礎をつくり、メロディー楽器がそこにのる。いかに先鋭的な響きを持っていても、多くのポップソングはこうしたパートごとの役割分担に還元することができてしまう。ドラムキットがドラムマシンやサンプルに、ギターやエレキベースがシンセに変わったところで、その大きな枠組みに変化はない。

そして自分の耳も、そのような枠組みを前提としていないだろうか。いわば、耳が勝手にステムに分離してしまうのだ。技術的な知識があるかどうかを問わず、現代のポップミュージックに慣れ親しんだ耳はそのようなバイアスを持っているのではないか。

もちろん、こうした多重録音の枠組みは、多重録音の普及以前から存在した音楽の形式を踏襲したものであって、技術の問題だけに還元することはいささか乱暴ではある。

しかし、音源分離技術はまさしく歴史上の「以前」を多重録音以後の枠組みのなかにこともなげに、アナクロニックに参入させうる技術だ。技術に規定されたイマジネーションを過去の音楽へ遡及的に、あからさまに投影するばかりか、実際にそのようなイマジネーションのもとで操作することを可能にする。

そう考えれば考えるほどに、この技術や、この技術が暗に前提とする音楽のかたちに対していろんな問いがわきあがってくる。それは否定や拒絶というわけではなくて、音楽と技術の未来への好奇心を伴ってもいる。

枠組みの外側にふれること自体はたやすい。多重録音技術はあまりにも深く浸透したために、ジャンルで区切ることはもはや意味をなさないかもしれないが、たとえばクラシックや現代音楽、ある種のフィールドレコーディングはわかりやすい「外側」の例だ。そもそも、録音ではないライブな音楽こそ、その最大の「外側」だろう。

そんなことを考えていてふと思い浮かんだのは、なぜだかアーサー・ラッセルの『World Of Echo』(1986年)だったりする。

アーサー・ラッセルのボーカルとチェロとシンプルなエレクトロニクスが、人工的な残響のなかで歪み、溶け合うそのサウンドは、あきらかに20世紀後半に発展したスタジオ技術の産物だ。その一方で、上で言ったような「外側」を強く感じさせる作品でもある。

タイトルが示すとおりエコーが印象的な作品だけれど、深く遠くへと空間を拡張するダブ的な深いエコーよりも、つねに空間を二重写しにするかのような、スタティックなスラップバック・エコーのほうがより魅惑的に響く。構造上の簡素さもあいまって、リズムとメロディーとテクスチャーの境い目がたびたび不分明になり、声さえもエコーのなかに滲んでいく。

そのシンプルさとラディカルさ、また不思議と人懐こくもある響きを前にして、「これをデミックスしたらどうなるだろう?」と考えるのは、技術に対しても作品に対しても意地悪な気もするが、むしろ真剣に考えるべき課題のような気もする。

各パートを正確に分離することで得られるのは、あくまで「存在したほうが都合のよい、もう存在しない過去」の似姿にすぎない。そこからなにか新しいものが生まれるというよりはむしろ、多重録音とスタジオ技術の発展がもたらした歴史を振り返り、その可能性を再検討する機会ととらえるべきかもしれない。

ブライアン・イーノは、録音技術の進展とともに、マルチトラックレコーダーとミキシングコンソールを備えたスタジオ自体が音楽をつむぐ新しい楽器となったと考え、「楽器としてのスタジオ」というキャッチフレーズをつくりだした。イーノにならえば、スタジオという楽器の別の弾き方を喚起してはじめて、音源分離技術の「新しさ」は開けてくるだろうし、その「新しさ」はすでにそこかしこに潜在していたものであるだろう。