DeepFilterNet メモ
やったこと
- github から DeepFilterNet を clone
git clone https://github.com/Rikorose/DeepFilterNet.git
cd DeepFilterNet/DeepFilterNet
- README.md に従って必要な python library を install
pip install torch torchaudio -f https://download.pytorch.org/whl/cpu/torch_stabl
e.html
pip install h5py librosa soundfile
Rust で書かれた library があるので rustup update とかも必要だった
環境によっては他にも何かしないといけないかも
- 作業用 directory を用意
mkdir ~/myassets ~/mybase ~/myoutput
-
clean.wav, noise.wav : rate 48k s16 形式 を用意して ~/myassets に置く
-
~/myassets/dataset.cfg を用意: よくわからないので
cp assets/dataset.cfg ~/myassets
としてみた
- hdf5 形式のファイルを作る
python df/scripts/prepare_data.py --sr 48000 speech training_set.txt ~/myassets/clean.hdf5
python df/scripts/prepare_data.py --sr 48000 noise training_set.txt ~/myassets/noise.hdf5
- 学習
python df/train.py ~/myassets/dataset.cfg ~/myassets ~/mybase
- ノイズリダクション
python df/enhance.py --model-base-dir ~/mybase --output-dir ~/myoutput speech-sample-with-noise.wav
ノイズリダクション後の myoutput speech-sample-with-noise_mybase.wav が ~/myoutput に出来る
--model-base-dir ~/mybase
を指定しないと既定のモデルを使って _mybase のところが _DeepFilterNet3 になった .wav ファイルが出力される