LINK
18万曲近くのMIDIデータを集めた学習用データセット. オーディオデータと時系列をあわせてあるのがポイント. MIDIデータとオーディオを突き合わせて、さまざまな学習用途に使えそうです. iPython notebookで使い方のサンプルが公開されているのもわかりやすい.
The Lakh MIDI dataset is a collection of 176,581 unique MIDI files, 45,129 of which have been matched and aligned to entries in the Million Song Dataset. Its goal is to facilitate large-scale music information retrieval, both symbolic (using the MIDI files alone) and audio content-based (using information extracted from the MIDI files as annotations for the matched audio files).
MIDIデータ
オーディオファイル. MIDIデータと時間の情報を合わせてあるので、MIDIデータの小節の情報をもとにオーディオファイルを区切ったりといったことができる.