週刊アスキー

  • Facebookアイコン
  • Xアイコン
  • RSSフィード

Suno級がローカルで? 音楽生成AI「ACE-Step 1.5」を本気で検証

2026年02月20日 09時00分更新

 2026年2月、オープンソースの音楽生成AI「ACE-Step 1.5」が公開された。SunoやUdioのようなクラウド型とは違い、モデルそのものを手元に置いてローカルで生成できる。公式READMEには品質が「Suno v4.5とv5の間」と記載されており、開発元自身がクラウド型の商用サービスを比較対象に据えている。今回はComfyUIの公式ワークフローを使って実力を検証してみよう。

ACE-Step 1.5とは何か

 ACE-Step 1.5は、StepFunとACE Studio(ACE Music AI)が共同開発したオープンソースの音楽生成モデルだ。曲のスタイルを指示するテキストと歌詞を入力すると、ボーカルと伴奏を含む完成形の楽曲が生成される。対応言語は50以上。最長10分まで対応し、フルサイズの制作も想定した設計になっている。

 内部はLM(言語モデル)とDiT(Diffusion Transformer)を組み合わせた構造をとる。LMが入力テキストからBPMや調性などの情報を推論し、楽曲構成を設計。その設計をもとにDiTがオーディオを生成する。圧縮技術と軽量化されたTransformerにより高速化を実現しており、NVIDIA A100では4分の曲を2秒未満、RTX 3090では10秒以内で生成できるとされる。筆者のRTX 4070(12GB)環境では、2分の楽曲が約30秒で生成された。

 動作にはNVIDIA製GPUが推奨され、VRAM 8GB以上が目安だが、公式情報では4GB未満でも動作可能とされる。ライセンスはMITで、モデルおよび生成物は商用利用できる。LoRAによる追加学習にも対応し、特定の作風を反映させることも可能だ。ローカルで扱える生成基盤としての位置づけが見えてくる。

この記事をシェアしよう

週刊アスキーの最新情報を購読しよう

本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事