不懂乐理,也能扒谱,基于openvpi将mp3转换为midi乐谱(Python3.10)

所谓”扒谱”是指通过听歌或观看演奏等方式,逐步分析和还原音乐作品的曲谱或乐谱的过程。它是音乐学习和演奏的一种常见方法,通常由音乐爱好者、乐手或学生使用。

在扒谱的过程中,人们会仔细聆听音乐作品,辨别和记录出各个音符、和弦、节奏等元素,并通过试错和反复推敲来逐渐还原出准确的曲谱或乐谱。这对于那些没有正式乐谱或想学习特定曲目的人来说,是一种有效的方式。

扒谱的目的是为了更好地理解和演奏音乐作品,从中学习技巧、乐曲结构和艺术表达等方面。但不懂乐理的人很难听出音符和音准,本次我们通过openvpi的开源项目some来直接针对mp3文件进行扒谱,将mp3转换为midi文件。

项目配置

首先我们来克隆项目:

git clone https://github.com/openvpi/SOME.git

进入项目的目录some:

cd some

接着下载项目的预训练模型:

https://pan.baidu.com/s/1lVQcKP7ijTELslJNgoDqkQ?pwd=odsm

2stems模型放到项目的pretrained_models目录下。

ckpt模型放入项目的ckpt目录下。

如果没有ckpt和pretrained_models目录,请手动建立。

如下所示:

├───ckpt
│ config.yaml
│ model_ckpt_steps_104000_simplified.ckpt
├───pretrained_models
│ └───2stems
│ ._checkpoint
│ checkpoint
│ model.data-00000-of-00001
│ model.index
│ model.meta

如此,项目就配置好了。

背景音乐和人声分离

扒谱主要针对人声部分,所以需要spleeter的参与,关于spleeter,请参见:库Spleeter免费人声和背景音乐分离实践(Python3.10),囿于篇幅,这里不再赘述。

执行命令:

spleeter separate -p spleeter:2stems -o ./output ./test.mp3

这里使用2stems模型已经在上文中进行下载,并且放置在项目的pretrained_models目录。

如果没有output目录,请手动建立,test.mp3为需要扒谱的音乐

随后会将背景音乐accompaniment.wav和人声vocals.wav分别输出在项目的output目录:

├───output  
│   └───test  
│           accompaniment.wav  
│           vocals.wav

人声去噪

一般情况下,分离后的人声可能还存在混音等噪音,会影响转换的效果。

这里使用noisereduce来进行降噪:

pip install noisereduce

编写降噪代码:

from scipy. import wavfile  
import noisereduce as nr  
# load data  
rate, data = wavfile.read("./output/test/vocals.wav")  
# perform noise reduction  
reduced_noise = nr.reduce_noise(y=data, sr=rate)  
wavfile.write("./output/test/vocals.wav", rate, reduced_noise)

运行后会对vocals.wav人声文件进行降噪重写操作。

扒谱(wav转换midi)

接着运行命令进行转换:

 infer.py --model ./ckpt/model_ckpt_steps_104000_simplified.ckpt --wav ./output/test/vocals.wav

返回:

转换好的钢琴旋律midi文件存放在output目录下,直接双击播放即可,也可以通过代码进行播放:

''' pg_midi_sound101.py  
play midi music files (also mp3 files) using pygame  
tested with Python273/331 and pygame192 by vegaseat  
'''  
import pygame as pg  
def play_music(music_file):  
  '''  
  stream music with mixer.music module in blocking manner  
  this will stream the sound from disk  playing  
  '''  
  clock = pg.time.Clock()  
  try:  
    pg.mixer.music.load(music_file)  
    print("Music file {} loaded!".format(music_file))  
  except pygame.error:  
    print("File {} not found! {}".format(music_file, pg.get_error()))  
    return  
  pg.mixer.music.play()  
  # check  playback has finished  
  while pg.mixer.music.get_busy():  
    clock.tick(30)  
# pick a midi or MP3 music file you have in the working folder  
# or give full pathname  
music_file = r"D:\work\YiJianBaPu\output\test\vocals.mid"  
#music_file = "Drumtrack.mp3"  
freq = 44100  # audio CD quality  
bitsize = -16  # unsigned 16 bit  
channels = 2  # 1 is mono, 2 is stereo  
buffer = 2048  # number of samples (experiment to get right sound)  
pg.mixer.init(freq, bitsize, channels, buffer)  
# optional volume 0 to 1.0  
pg.mixer.music.set_volume(0.8)  
try:  
  play_music(music_file)  
except KeyboardInterrupt:  
  # if user hits Ctrl/C then exit  
  # (works only in  mode)  
  pg.mixer.music.fadeout(1000)  
  pg.mixer.music.stop()  
  raise SystemExit

结语

笔者在原项目的基础上进行了fork,添加了人声分离和降噪的功能,并且整合了预训练模型,与众乡亲同飨:

https://github.com/v3ucn/YiJianBaPu

给TA打赏
共{{data.count}}人
人已打赏
ai

linux配置miniconda、pytorch、torch_scatter以及cuda. - 叶辰

2023-11-18 14:19:52

ai

NLP文本生成全解析:从传统方法到预训练完整介绍

2023-11-18 14:19:54

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索