Ну и прикурил я с этими нейросетями с непривычки

Опенсорсных моделей и правда очень много, но тех кто говорит на русском языке нашел всего три: XTTS, Bark, Fairseq. Если есть знающие, подскажите еще. Kokoro супер звучит, поигрался немного на английском и оставил для подтягивания английского на слух на будущее.
Краткий анализ вышеуказанных моделей:
XTTS — качественный звук, но долгая обработка;
Bark — более быстрый, но есть роботизированный металлический звук;
Fairseq — заточен под перевод на множество языков с минимальными затратами по времени и ресурсам, для меня звучит ужасно.
Остановился на
XTTS.
Неплохо копирует голос, бывает тупит с ударением и интонациями, но звучит достаточно естественно.
Обработка на CPU очень долгая, для использования настоятельно рекомендуется карточка NVIDIA хотя бы 30 серии и выше (у самого 3070).
Если есть знатоки Линуксоидов или хотя бы Питона, разобраться с документацией по использованию получится легко. Как гуманитарий намучался знатно, благо остаточные знания с уроков питона на информатике спасли, ну и гугл в помощь.
Для создания аудиокниг нашел замечательную разработку —
ebook2audiobookМожно сразу целую книгу скормить, выбрать каким голосом озвучить и оставить на ночь. Интерфейс интуитивный.
Для примера какой результат получается — вот озвучка предисловия к Покеру лжецов голосом BIGBAG и нейро-Бурунова.
Если надо что озвучить или помочь советом как установить к себе локально, рад буду помочь.