NeurIPS2019のMachine Learning for Creativity and DesignというWorkshopにて,機械学習を用いてAudio Visualを作るモデルを提案する論文が発表されました.
音楽のメロディやリズムに合わせて映像が綺麗に切り替わっており,非常に興味深い映像です.
この研究は,オーディオのデータから特徴量を抽出(NSynthや周波数フィルターなどを用いる)し,その抽出した特徴量がタイムステップごとにどれくらい変化したかを計算し,その値に応じてStyleGANの潜在空間を探索します.
音楽そのものの曲の雰囲気を捉えることはできておらず,生成される画像は学習した画像からランダムに選択されてしまうものの,リズムやメロディの変化をうまく捉え,映像を変化させることができています.また,モデルのアーキテクチャの規模を考えると厳しいという観点から,リアルタイムで生成するのは厳しいのが現状と言えるでしょう.
今後は,生成された画像を音楽の性質と紐付けたり,リアルタイム生成可能なモデルの提案が重要となってきそうです.