お問い合わせはこちら
https://discord.com/invite/bmNezxjCq2
私が参加しているDiscordです。
はじめに
素人の私がAIの力を借りて作成しました。
知識がある方からしたら、滅茶苦茶な出来かもしれません。
不完全で正常に動作しない可能性もあります。
また、低品質・低負荷のモデルは実用性に欠けると判断したので非対応にしました。
その他不要と判断したファイルも削除しました。
インストール編
AI.zipをダウンロードして解凍します。
解答したら、中にあるstart.batを起動します。
インストールが始まります。
Pythonがインストールされていない場合は、ダウンロードしてPATHに追加するよう誘導されます。
インストールが完了したら、ランチャーが起動します。
今後ランチャーを起動する際も、start.batから起動します。
起動編(ゼロショット変換)
ランチャーを起動したら、喋り声変換・歌声変換・リアルタイム変換の中からやりたいことを選択します。
ここでモデル・設定ファイルを選択せず軌道を開始するとゼロショット変換モードで起動します。
初回起動時は色々ダウンロードするので時間がかかります。
URLが表示されたらcrtl+クリックすると、ブラウザで起動します。
起動編(任意のモデルを使用)
ランチャーを起動したら、喋り声変換・歌声変換・リアルタイム変換の中からやりたいことを選択します。
ここで学習させた任意のモデルを選択してください。
設定ファイルは、学習モデルと同じディレクトリにあるものを選択してください。
起動編(リアルタイム変換)
非リアルタイム変換と同様、学習をしていたとしても参照音声を入力する必要があります。
stepsが多いほど音質が良くなりますが、低遅延で動作しなくなります。
Blocktimeを上げると音声が安定しますが、遅延が大きくなります。
cfgrateは1.0にした方がリアルタイム・非リアルタイム問わず声が似ると私は感じました。
デバイスのタイプをMME以外にすると正常に動作しない場合があります。
もし動作するならWASAPIの方が遅延が少なくなります。
学習編
trainer_launcher.batを起動します。
喋り声変換モデル・歌声変換モデルのどちらかを選択してください。
歌声変換モデルはリアルタイム変換に対応していいないので注意して下さい。
データセットを選択をクリックして、音声が入っているフォルダを指定してください。
実行名は任意の名前に設定してください。
バッチサイズはデフォルトで2ですが、VRAMに余裕がない場合は1にしてください。
最大ステップは1000ですが、500でも問題ないです。学習はすぐ完了します。
最大エポックの数値はあまり考えなくていいです。最大ステップの方が先に到達します。
保存間隔の数値は最大ステップと同じでいいです。学習が終わるのが速いので途中で保存する必要はないです。
ワーカー数は0のままでいいです。
学習が完了したらモデルはrunsフォルダの中に自動で保存されます。