10 месяцев с подкастом на искусственном интеллекте: итоги и впечатления
Привет, друзья! Не верится, что уже прошло 10 месяцев с момента запуска моего подкаста, который создается с помощью искусственного интеллекта и нейросетей. За это время мы успели выпустить 90 эпизодов, используя различные инструменты текст-ту-спич и реал-войс-клонинг для озвучки ведущих. Сегодня я хотел бы подвести итоги этого увлекательного путешествия и поделиться с вами своими размышлениями.
Первые шаги и эксперименты
С момента запуска подкаста я перепробовал множество различных нейросетей, как платных, так и бесплатных, и так называемых больших языковых моделей. Каждые 10-20 новых выпусков были очередной итерацией, результатом экспериментов и техники проб и ошибок. Недавно, 30 октября, подкаст получил обновление — это уже третья или даже четвертая его итерация.
Спасибо вам, слушатели!
В первую очередь хочу выразить благодарность всем нашим слушателям. Ваше терпение и интерес к такому формату вдохновляют меня продолжать и совершенствоваться. Я знаю, что среди вас были и скептики, но то, что вы продолжаете слушать, показывает — мы на правильном пути.
Сам себе критик
Как программист и перфекционист, я, конечно, выступаю своим самым жестким критиком. Этот проект стал для меня возможностью глубже познакомиться с миром искусственного интеллекта и проверить его возможности. Поиск ответа на вопрос "может ли ИИ заменить людей?" был очень увлекательным. Подкаст оказался отличной базой для этих исследований.
Где нас слушают
Хотя я не тщательно отслеживаю статистику, знаю, что у нас есть слушатели на различных платформах, включая Telegram, Apple Podcasts, YouTube, ВКонтакте и Яндекс.Музыку. Моя цель — сделать подкаст доступным на всех популярных площадках, чтобы каждый мог выбрать удобный способ прослушивания.
Подкапотное обновление: как устроен мой подкаст на самодельном движке
Расскажу о том, как изменился мой подкаст и какие технологии стоят за его созданием. Если ранее я использовал готовые решения, то теперь подкаст полностью создается с помощью моего собственного движка, написанного на Python. Это позволяет мне контролировать весь процесс от начала до конца. Давайте разберемся, как это работает.
Новая основа: самодельный движок
Итак, основой моего подкаста теперь служит самодельный движок. Вместо готовых решений я пишу и настраиваю все сам, используя Python. Этот подход дает мне полную гибкость в управлении всем процессом.
Whisper и работа с данными
Для обработки данных я использую Whisper, который развернут у меня локально. Whisper помогает мне эффективно справляться с задачей обработки аудио, не прибегая к сторонним платным сервисам.
В начале года я писал статью о том, как я использовал Reddit для создания датасета. Однако, со временем я пришел к выводу, что работа с YouTube стала более удобной и актуальной. Крупные каналы, посвященные искусственному интеллекту, предоставляют более структурированную и актуальную информацию.
Изменение подхода: от Reddit к YouTube
К началу года мой основной интерес был сосредоточен на Reddit, этой "золотой шахте" для сбора больших данных. Однако информация с Reddit требует тщательной проверки и анализа, что требует много времени.
Теперь я сосредоточен на YouTube. Мониторю около ста каналов, которые привлекают мое внимание и соответствуют моим интересам в области искусственного интеллекта и не только. Это оптимизирует мой процесс, избавляя от необходимости более тщательной фильтрации.
Культура потребления контента
Для меня YouTube каналы стали отличным источником контента. Я доверяю определённым авторам и мониторю их деятельность, удаляя тех, кто перестает быть интересным или полезным. Этот процесс напоминает естественный отбор, ориентированный лишь на качество и актуальность.
Локальные решения: экономия и качество
Я стараюсь минимизировать использование сторонних платных сервисов, предпочитая локальные решения. Это помогает мне экономить ресурсы и поддерживать контроль над процессом. Подробно о моем подходе можно узнать из видео, которое я выкладывал на YouTube. Хоть оно уже немного устарело, там есть полезная информация о предыдущих этапах развития подкаста.
От Whisper к языковым моделям
На первом этапе я прогоняю загруженные ролики через Whisper для создания первоначального датасета. Это позволяет мне извлечь текстовую информацию, которую затем можно обработать различными инструментами. До 90-го выпуска я пользовался различными открытыми большими языковыми моделями как платными так и бесплатными. Однако с недавнего времени я изменил подход: теперь начальная обработка выполняется одной из открытых языковых моделей, а затем подключается GPT-4O mini от OpenAI для перевода текстов с английского на русский.
Трансформация текста в речь
Проработка TTS (text-to-speech) движков привела меня к использованию Edge TTS, которого можно найти на GitHub. Этот инструмент стал моим выбором после Coqui XTTS-v2. Подкастовый движок сейчас поддерживает интеграцию с 11 Labs, Google Cloud Voice и другими сервисами, но мой выбор пал на решение с минимальными затратами Edge TTS.
Real Voice Cloning и создание подкастовой речи
Для конечной части процесса я использую Real Voice Cloning (RVC-Project), чтобы создать более персонализированную речь. Мои модели обучены на двух голосах: моем собственном и моей жены. Это позволяет добавить индивидуальности к голосам ведущих — Думфэйс и Шахерезада.
Кроме того, вот моя статья о том, как это можно реализовать лично:
Проблема с русскоязычными моделями
Существует один значительный вызов: отсутствие качественных русскоязычных моделей, которые могли бы конкурировать с английскими аналогами. 11 Labs предлагает удивительное качество речи, но их услуги стоят около ~$200 в месяц по моим расчетам для моего подкаста 12 выпусков, каждый более 1 часа, что для меня является неприемлемым.
Есть F5-TTS сказочный TTS, подделывающий беглую и правдивую речь с помощью сопоставления потоков:
И хотя F5 TTS обещает многое, пока что ее поддержка живой русской речи отсутствует. Я жду момента, когда кто-то создаст доступную модель для русского языка с живым звучанием.
Что дальше?
В будущем я надеюсь на доступность бесплатных или малозатратных решений для создания подкастов с живыми русскими голосами. Это станет огромным шагом вперед и придаст подкасту качество, которое будет сложно отличить от живого общения. Если вы знаете о таких разработки или работаете над чем-то подобным, дайте знать!
Вы можете послушать подкаст лично в одном из ваших любимых мест:
Telegram: https://t.me/d00m4ace_blog
YouTube: https://www.youtube.com/c/@d00m4ace
Soundcloud: https://soundcloud.com/d00m4ace
Apple Podcast: https://podcasts.apple.com/podcast/id1723142484
Яндекс Музыка: https://music.yandex.ru/album/28798077
VK Podcast: https://vk.com/podcasts-224167280
Дзен: https://dzen.ru/d00m4ace
RSS1 feed: https://podster.fm/rss.xml?pid=89212
RSS2 feed: https://media.rss.com/d00m4ace/feed.xml
Что еще? Небольшой бонус!
В данный момент я посвящаю все свое время разработке своих ИИ-ботов в Telegram.
В условиях множества блокировок доступ к современным технологиям и информации становится все сложнее, особенно для обычных пользователей, не связанных с IT. Далее в этой статье я расскажу о своей работе над созданием Telegram ботов с искусственным интеллектом, чтобы помочь обойти эти ограничения и дать людям доступ к передовым возможностям.
Блокировки и их влияние
К сожалению, в последние годы блокировки становятся все более серьезной проблемой как внутри Российской Федерации, так и в отношениях с зарубежными партнерами. Это ограничивает доступ простых пользователей к информации и новейшим достижениям в области технологий. Особенно печально осознавать, что многие люди, включая ваших близких, возможно, даже не знают о существовании таких мощных инструментов, как ChatGPT.
Для нормального развития общества доступ к информации крайне важен. Правильное информирование граждан способствует экономическому росту и благосостоянию каждой страны. Однако нынешние ограничения значительно препятствуют этому процессу, создавая угрозу технологического отставания.
Telegram боты на базе ИИ
Для решения этой проблемы я создал Telegram бота, который предоставляет доступ к самым современным инструментам искусственного интеллекта. Особое внимание уделено нейросетям, таким как:
- OpenAI и GPT-4o: последние достижения в области генеративных моделей текста.
- Генерация изображений: работа с моделями DALL-E 3 и Flux, которые предлагают уникальные возможности в создании визуального контента.
Инновации в области генерации изображений
Модель Flux, разработанная бывшими сотрудниками Stability AI, которые ранее работали над известной Stable Diffusion, предлагает новые возможности для генерации изображений. Эта команда создала новую компанию Black Forest, и их новая модель уже показывает отличные результаты. Stable Diffusion 3.5, также недавно вышедшая, добавляет еще больше возможностей пользователям, но даже она не потеснила Flux!
Возможности Telegram ИИ бота
ChatGPT d00m4ace bot: https://t.me/d00m4ace_a3f9b7_bot
Мой Telegram ИИ бот позволяет работать как с текстовыми, так и с графическими данными. Благодаря поддержке контекстного окна в 128к токенов, пользователи могут отправлять большие текстовые файлы и работать с ними в интерактивном режиме. Это открывает новые горизонты для использования ИИ, будь то для изучения, творчества или работы.
Практическое применение Telegram ИИ бота:
- Мозговой штурм и анализ
- Критическая оценка идей и проектов
- Получение быстрой обратной связи
- Анализ текстов и их генерация по запросам
- Работа с контентом
- Создание маркетинговых материалов
- Помощь в написании текстов для продаж
- Генерация контента для соцсетей
- Работа с данными Бот поддерживает обработку текстовых файлов до 200 КБ, что позволяет работать с (команда /text):
- Описанием рабочих процессов
- Техническими заданиями
- Игровым дизайном (квесты, механики)
- Документацией
- Техническая поддержка
- Помощь в написании кода (Python и другие языки)
- Работа с базами данных - составление сложных SQL запросов и тп.
- Анализ технической документации
- Анализ визуального контента, скриншоты и картинки (команда /scan):
- Разбор скриншотов презентаций
- Анализ изображений схем и диаграмм
- Оценка изображений интерфейсов
- Конвертация изображений в текст (команды /scantxt, /scanmd)
Важные технические особенности:
- Контекстное окно современных моделей:
- Google AI: 2 млн токеновAnthropic: 200 тыс. токеновOpenAI: 128 тыс. токенов
- Для OpenAI GPT-4o это примерно равно 50 страницам обычного текста
Практические советы:
- Создавайте тематические файлы с данными вашей области
- Используйте бота для быстрой обратной связи
- Экспериментируйте с анализом визуального контента
- Регулярно лично практикуйтесь в работе с ИИ для повышения эффективности
Помните, что технологии ИИ постоянно развиваются, и важно регулярно обновлять свои навыки работы с ними. Бот предоставляет отличную возможность для практики и совершенствования в использовании искусственного интеллекта в повседневной работе и он доступен для оплаты из РФ!
Искусственный интеллект: перестаньте смотреть, начните делать!
В наше время искусственный интеллект (ИИ) обещает множество возможностей как в профессиональной, так и в личной жизни. Однако, как часто бывает с новыми технологиями, многие из нас просто читают и слушают о них, но никогда не пробуют на практике. Настало время изменить это!
Путь от теории к практике
Процесс изучения чего-либо нового требует не только пассивного восприятия информации, но и активного участия. Без практического опыта ИИ может остаться для вас таинственной магией, в то время как ваши коллеги и конкуренты используют его для достижения новых высот.
Конкуренция на рынке труда
Рынок труда сегодня насыщен и конкурентен. Те, кто научились эффективно использовать ИИ, получают неоспоримое преимущество. Этот "буст" может существенно повысить вашу ценность как специалиста и обеспечить успех в карьере.
Попробуйте мой Telegram бот с ИИ
Для тех, кто готов сделать первый шаг, я предлагаю воспользоваться моим Telegram ботом с искусственным интеллектом. Сейчас количество учетных записей, которые могут им пользоваться, ограничено, поскольку он работает на реальном оборудовании, которое я разворачиваю самостоятельно. Именно поэтому я пока не занимаюсь его активным продвижением.
ChatGPT d00m4ace bot: https://t.me/d00m4ace_a3f9b7_bot
Вы можете попробовать бота бесплатно, прежде чем решите купить дополнительные ИИ кредиты или нет. Минимальный платеж составляет 50 рублей за 5 ИИ кредитов. Кроме того в боте есть выбор из нескольких ИИ, создающих картинки! Например, одна ИИ модели flux/schnell обойдется вам не более чем в 4 рубля за одну картинку!
Локальное решение для компании и частных лиц
Моя цель — создать возможность разворачивания Telegram бота на локальных устройствах, чтобы каждый мог настраивать его под свои нужды. Вы сможете интегрировать его с вашими языковыми моделями, запущенными на ваших компьютерах, или использовать API от OpenAI, Google AI и Anthropic. Это решение будет доступно на условиях одноразовой оплаты, не требующей подписки. Более подробная информация о локальных решениях будет доступна в моем Telegram-канале блоге: https://t.me/d00m4ace_blog
Заключение
Не упустите возможность стать частью современного технологического мира. Попробуйте ИИ на практике и почувствуйте преимущества, которые он может принести в вашу жизнь и карьеру. Контактируйте с технологиями, экспериментируйте и растите разом с ними. Спасибо за внимание и до новых встреч!
а я сначала подумала, что это первый подкаст, который записан искусственным интеллектом, а не людьми...походу не так поняла
Комментарий недоступен