前回のOPPO「MariSilicon Y」の記事で、OPPOの提唱するパーソナライズ/空間オーディオ技術とは、声や楽器をAIが抽出して、仮想空間に再配置するものだと書いた。このように音楽から声や楽器のパートをAIで自動的に抽出するという技術が最近のトレンドになっている。
Apple Music Sing
例えば、最近アップルがApple Musicに「Apple Music Sing」というカラオケの機能を突然追加して話題となった。これも音源のヴォーカル部分だけを抽出し、音量調節ができることから、同様の技術を使用していると想像できる。また、Apple Music Singにおいては音節ごとに歌詞を正確に合わせる技術も使われている。これもやはりAI技術によるものだろう。
アップルは今年の2月に、イギリスのスタートアップであるAI Musicを買収している。AI Musicはリスナーの心臓の鼓動に音楽を同期させるソフトウェアも開発していた。
楽器パートの分離機能を持つSoundHi、Melissa、Octerv Veoicy
最近(12月19日に)、iOS上でハイレゾ音楽再生ができるアプリ「SoundHi」がVer2.0にアップデートした。AIを使用した演奏パートごとの音量調整は、その新機能のひとつだ。これはセパレーター(音源分離)という機能で、再生中の楽曲をヴォーカル・ドラム・ベース・その他の4つにリアルタイムで分け、それぞれの音量を調整できる。もちろんカラオケとしても使用ができるが、ユーザーが音楽を自分でリミックスするように楽しんだり、楽器の練習にも活用できたりもする。
Windows向けの音楽練習用プレーヤー「Melissa」も、12月20日に公開されたVer3.0において、AIで楽器別の音を分離する機能が追加された。Melissaは楽器練習用の機能を持つプレーヤーソフトだ。この音源分離機能は、AIによって音源からヴォーカル・ピアノ・ベース・ドラムス・その他の楽器の成分を抽出し、分離できる。例えば、ヴォーカルを消して楽器パートのみを残すことができる。
また最近公開された「Octerv Veoicy」というiOS用のアプリは、やはりAIでヴォーカル・ドラム・ベース・その他の演奏パートに音楽を分離することでやはりカラオケなどができるようになっている。
MetaのDemucs
音楽のパートごとの音量調整を行うという点ではカニエ・ウエストが独自に開発した「STEM PLAYER」も存在したが、これは音楽のパートごとのデータを保持したステム・データが必要であった。しかしこれらのソフトウエアではステム・データのない音楽からも自動的にAIで楽器パートを抽出できる。そして抽出するパートの機能や公開日時が類似している点にも気がつかれただろうか。
これは、Octerv Veoicyでは明記されているのだが、これらのソフトウェアでは共通してMeta(旧Facebook)が開発して9月に公開した「Demucs」というAIで音楽からヴォーカル・ドラム・ベース・その他に分離することができるオープンソースプロジェクトの成果を流用しているからだと考えられる。Demucsのようなソフトウェアライブラリーが公開されることで、多数の応用ソフトウェアやアプリケーションがAIの恩恵を得ることができるようになったわけだ。
オープンソースのAIの進化が新しい潮流を生む
最近話題になったAIによる画像生成において国内では有名な「Novel AI Diffusion」も中核では「Stable Diffusion」というソフトウェアを使用している。このようにやはり基本ソフトウエアがあって応用ソフトウエアが広まっていくという点では同じだ。
12月23日には、OpenAIが発表した「ChatGPT」に対して、グーグルが警戒心を抱き、いままでAIに関しては慎重だった同社の戦略を大きく転換させることになったという報道があった。グーグルは人道・倫理的な観点からAIの応用については慎重な会社だったのだが、高レベルの文章でユーザーの問いに答えてくれるChatGPTなどを看過すると、同社の検索ビジネスにも打撃があるとしてこの転換に踏み切ったと考えられる。
こうしたAI技術の戦いは来年はさらに活発に、そしてさまざまな意味で過激になっていくことだろう。
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります