Выберите станцию

🔊

Выбрать

Готово

Нейросети для создания аудиокниг

	JON Лосенок	#1 \| Дата: 31 Мар 2025 09:54
		Поскольку очень часто нахожусь в дороге и нет возможности читать, начал постоянно слушать статьи/интервью/книги в аудиоформате. Однако с этим возникли некоторые трудности — не каждая книга по трейдингу и статьи имеют аудиоформат или имеют ужасное качество допотопных времён. На выход пришёл как ни странно Яндекс.Браузер с нейрозвучкой озвучкой от Алисы и тема оказалась очень здоровской. Но есть недостатки критические: 1. работает только при подключённом интернете; 2. невозможно перемотать ни вперёд ни назад; 3. не запоминает место где остановился. С учётом развития всех этих искусственных интеллектов и нейросетей возникла мысль самому каким-то образом озвучивать интересующую литературу для изучения и поэтому прошу поделиться опытом/советом или может есть более удобная альтернатива. А так собираюсь изучить в ближайшее время эту тему, напишу что получится.

	ndr Шиткоинолог	#2 \| Дата: 31 Мар 2025 10:57
		У Гугла есть сервис https://notebooklm.google/ превращающий любой pdf в подкаст, но в данном случае думаю подойдет https://elevenreader.io/ от ElevenLabs, озвучивающий любой текстовый документ Также если использовать их основную платформу https://elevenlabs.io/ аудио можно экспортировать локально

	JON Лосенок	#3 \| Дата: 3 Апр 2025 21:21
		ndr Андрей, спасибо за решения из коробки. В сервисе Гугла запись получается отличной, однако только на английском языке (даже если кормишь его файлом на русском, он переводит и озвучивает на английском) Elevenlabs решил использовать только для статей из-за ограничений на количество символов в сутки. Что удалось найти самому: Технология называется Text-to-Speech (TTS) и существует уже давно. В сети много коммерческих проектов с оплатой по количеству символов или периодичностью. Проекты с ИИ предлагают клонировать твой голос и озвучивать видео, тексты (для контент-мейкеров). Другие продают голосовые модели неотличимые от человека для колл-центров. Для индивидуального бесплатного использования установлены ограничения от 500 до 3000 символов в сутки, что не подходит под озвучку статей и тем более книг. Решение нашлось дешевое и сердитое: есть много open-source голосовых моделей, однако большая часть из них на английском языке. На русском есть тоже под разными архитектурами. Для их использования требуется объемное ПО и знание консольных команд в Linux. В итоге не стал сильно заморачиваться — есть программа-интерфейс Балаболка (https://www.cross-plus-a.com/ru/balabolka.html) и набор голосов TTS RHVoice (https://rhvoice.ru). Удобный интерфейс и быстрая обработка, из минусов роботизированный голос. Мне понравился голос Анна, можно поиграться немного с настройками и словарями для более правильного ударения, но в целом пойдет. Если появятся более совершенные и благозвучные варианты, напишу. Нейро-озвученные произведения собираюсь заливать к себе в облако для удобства, можем в этой теме сделать подобие библиотеки, если не будет проблем от этого.

	ndr Шиткоинолог	#4 \| Дата: 3 Апр 2025 21:25
		Да это старые TTS, голос ужасен, дуб дерево. Новые озвучивают идеально, но из коробки стоят деняк Оптимальное решение это взять опенсорсную модель и поставить локально/удаленно. Как пример: Поиграться https://huggingface.co/spaces/hexgrad/Kokoro-TTS Установить https://huggingface.co/hexgrad/Kokoro-82M А дальше курить huggingface и выбрать которую нужна, там оч много моделей

	JON Лосенок	#5 \| Дата: 3 Апр 2025 22:34
		Согласен, ужасно деревянные. Грустно кусать локти, но пока не дается установка этих опен-соус моделей. За наводку спасибо!

	JON Лосенок	#6 \| Дата: 7 Апр 2025 21:54
		Ну и прикурил я с этими нейросетями с непривычки Опенсорсных моделей и правда очень много, но тех кто говорит на русском языке нашел всего три: XTTS, Bark, Fairseq. Если есть знающие, подскажите еще. Kokoro супер звучит, поигрался немного на английском и оставил для подтягивания английского на слух на будущее. Краткий анализ вышеуказанных моделей: XTTS — качественный звук, но долгая обработка; Bark — более быстрый, но есть роботизированный металлический звук; Fairseq — заточен под перевод на множество языков с минимальными затратами по времени и ресурсам, для меня звучит ужасно. Остановился на XTTS. Неплохо копирует голос, бывает тупит с ударением и интонациями, но звучит достаточно естественно. Обработка на CPU очень долгая, для использования настоятельно рекомендуется карточка NVIDIA хотя бы 30 серии и выше (у самого 3070). Если есть знатоки Линуксоидов или хотя бы Питона, разобраться с документацией по использованию получится легко. Как гуманитарий намучался знатно, благо остаточные знания с уроков питона на информатике спасли, ну и гугл в помощь. Для создания аудиокниг нашел замечательную разработку — ebook2audiobook Можно сразу целую книгу скормить, выбрать каким голосом озвучить и оставить на ночь. Интерфейс интуитивный. Для примера какой результат получается — вот озвучка предисловия к Покеру лжецов голосом BIGBAG и нейро-Бурунова. Если надо что озвучить или помочь советом как установить к себе локально, рад буду помочь.

	JON Лосенок	#7 \| Дата: 7 Апр 2025 21:58
		К сожалению, ссылки не сумел вставить из-за имеющегося ограничения. Как снимется, добавлю. [img=https://imgur.com/ywA1JT1]Интерфейс приложения[/img]

хомяки 2 трейдят [ Erzhan, iLex, Dix ] сегодня 7 постовпик 178 10 Мар 2026 04:25

© 2026 Форум Бингуру. Уходи, тебя не звали