Задался я, значить, задачей создать с нуля
нейросеть-реставратор аудио. Поскольку сам за Питон не шарю, а "змееводы" и нейроинженеры на дороге не валяются, запросил помощи у Grok'а, который у меня лично хорошо зарекомендовал себя своим умением довольно доходчиво объяснять смысл кода на это раз уже на старых добрых C и M68k ASM, и даже выдавать на них вполне осмысленные строки - понадеялся я на то, что с Питоном он ладит хотя бы примерно так же.
Запрошенный мной скрипт
audio_autoencoder.py должен, вроде как, по логике вещей, обучать модель
AuRec на сравнении "нормального" звукового файла и его искусственно пошакаленной версии. В качестве "аттестата зрелости" для AuRec я выбрал
stage2.wav - рип одного из музыкальных треков игры
Gaia: The Last Choice of Earth (во многом, кстати, именно по этой причине я пошёл, получив глухую тишину в аналогичной теме на GcUp, спрашивать следом сюда), где вся музыка существует только в виде угрёбищнейших ADPCM-сэмплов с частотой дискретизации 6060,(60). И если бы
AuRec заставила бы его звучать прилично - это однозначно свидетельствовало бы, что она как нейрореставратор состоялась.
Однако, сколько бы материала для обучения я ей не подкидывал, при каждом применении скрипта
apply_audio_autoencoder.py файл
stage2_recover.wav всё так же один хрен мало того, что выдаёт какой-то шум, в котором исходник не узнаётся вообще, так ещё и короче последнего в несколько раз.
Так вот, самая суть вопроса - хоть
audio_autoencoder.py с
apply_audio_autoencoder.py и производят впечатление конвенционально рабочих инструментов, не нуждаются ли они в обширных правках уже человеческими руками, и не генерят ли они просто-напросто мусор вместо того, чтобы обучать модель и применять её?