Форум Бингуру 2.0

 Главная | Опросы | Регистрация | Поиск | Статистика | 1.0 | Сайт
Болталка Форум Бингуру 2.0 / Болталка /  
 

Нейросети для создания аудиокниг

 
Автор JON
 Лосенок
#1 | Дата:  
Поскольку очень часто нахожусь в дороге и нет возможности читать, начал постоянно слушать статьи/интервью/книги в аудиоформате. Однако с этим возникли некоторые трудности — не каждая книга по трейдингу и статьи имеют аудиоформат или имеют ужасное качество допотопных времён. На выход пришёл как ни странно Яндекс.Браузер с нейрозвучкой озвучкой от Алисы и тема оказалась очень здоровской. Но есть недостатки критические:
1. работает только при подключённом интернете;
2. невозможно перемотать ни вперёд ни назад;
3. не запоминает место где остановился.

С учётом развития всех этих искусственных интеллектов и нейросетей возникла мысль самому каким-то образом озвучивать интересующую литературу для изучения и поэтому прошу поделиться опытом/советом или может есть более удобная альтернатива. А так собираюсь изучить в ближайшее время эту тему, напишу что получится.

Автор ndr
Персимон
#2 | Дата:  
У Гугла есть сервис https://notebooklm.google/ превращающий любой pdf в подкаст, но в данном случае думаю подойдет https://elevenreader.io/ от ElevenLabs, озвучивающий любой текстовый документ

Также если использовать их основную платформу https://elevenlabs.io/ аудио можно экспортировать локально

Автор JON
 Лосенок
#3 | Дата:  
ndr
Андрей, спасибо за решения из коробки. В сервисе Гугла запись получается отличной, однако только на английском языке (даже если кормишь его файлом на русском, он переводит и озвучивает на английском) Elevenlabs решил использовать только для статей из-за ограничений на количество символов в сутки.

Что удалось найти самому:

Технология называется Text-to-Speech (TTS) и существует уже давно. В сети много коммерческих проектов с оплатой по количеству символов или периодичностью. Проекты с ИИ предлагают клонировать твой голос и озвучивать видео, тексты (для контент-мейкеров). Другие продают голосовые модели неотличимые от человека для колл-центров. Для индивидуального бесплатного использования установлены ограничения от 500 до 3000 символов в сутки, что не подходит под озвучку статей и тем более книг.

Решение нашлось дешевое и сердитое: есть много open-source голосовых моделей, однако большая часть из них на английском языке. На русском есть тоже под разными архитектурами. Для их использования требуется объемное ПО и знание консольных команд в Linux. В итоге не стал сильно заморачиваться — есть программа-интерфейс Балаболка (https://www.cross-plus-a.com/ru/balabolka.html) и набор голосов TTS RHVoice (https://rhvoice.ru). Удобный интерфейс и быстрая обработка, из минусов роботизированный голос. Мне понравился голос Анна, можно поиграться немного с настройками и словарями для более правильного ударения, но в целом пойдет.
Если появятся более совершенные и благозвучные варианты, напишу.

Нейро-озвученные произведения собираюсь заливать к себе в облако для удобства, можем в этой теме сделать подобие библиотеки, если не будет проблем от этого.

Автор ndr
Персимон
#4 | Дата:  
Да это старые TTS, голос ужасен, дуб дерево. Новые озвучивают идеально, но из коробки стоят деняк

Оптимальное решение это взять опенсорсную модель и поставить локально/удаленно. Как пример:

Поиграться https://huggingface.co/spaces/hexgrad/Kokoro-TTS

Установить https://huggingface.co/hexgrad/Kokoro-82M

А дальше курить huggingface и выбрать которую нужна, там оч много моделей

Автор JON
 Лосенок
#5 | Дата:  
Согласен, ужасно деревянные. Грустно кусать локти, но пока не дается установка этих опен-соус моделей. За наводку спасибо!

Автор JON
 Лосенок
#6 | Дата:  
Ну и прикурил я с этими нейросетями с непривычки
Опенсорсных моделей и правда очень много, но тех кто говорит на русском языке нашел всего три: XTTS, Bark, Fairseq. Если есть знающие, подскажите еще. Kokoro супер звучит, поигрался немного на английском и оставил для подтягивания английского на слух на будущее.

Краткий анализ вышеуказанных моделей:
XTTS — качественный звук, но долгая обработка;
Bark — более быстрый, но есть роботизированный металлический звук;
Fairseq — заточен под перевод на множество языков с минимальными затратами по времени и ресурсам, для меня звучит ужасно.

Остановился на XTTS.
Неплохо копирует голос, бывает тупит с ударением и интонациями, но звучит достаточно естественно.
Обработка на CPU очень долгая, для использования настоятельно рекомендуется карточка NVIDIA хотя бы 30 серии и выше (у самого 3070).

Если есть знатоки Линуксоидов или хотя бы Питона, разобраться с документацией по использованию получится легко. Как гуманитарий намучался знатно, благо остаточные знания с уроков питона на информатике спасли, ну и гугл в помощь.

Для создания аудиокниг нашел замечательную разработку — ebook2audiobook

Можно сразу целую книгу скормить, выбрать каким голосом озвучить и оставить на ночь. Интерфейс интуитивный.

Для примера какой результат получается — вот озвучка предисловия к Покеру лжецов голосом BIGBAG и нейро-Бурунова.

Если надо что озвучить или помочь советом как установить к себе локально, рад буду помочь.

Автор JON
 Лосенок
#7 | Дата:  
К сожалению, ссылки не сумел вставить из-за имеющегося ограничения. Как снимется, добавлю.

[img=https://imgur.com/ywA1JT1]Интерфейс приложения[/img]

Болталка Форум Бингуру 2.0 / Болталка /
 Нейросети для создания аудиокниг

Ваш ответ Нажмите эту иконку для возврата на цитируемое сообщение

 

  ?
Только зарегистрированные пользователи могут отправлять сообщения. Авторизуйтесь для отправки сообщений, или зарегистрируйтесь сейчас.

 

Онлайн: Гостей - 5
Пользователей - 8 [ desmond, MrHorse, QUANT, denis623, GordonFreeman, Revenant, GrayFox777, Ansrew_Smith ]
Рекорд: 28 []
Гостей - 13 / Пользователей - 15
 


  ⇑