Как создать голос ИИ в 2023 году (Учебник)
Опубликовано: 2023-09-08С тех пор, как ChatGPT появился на сцене в конце 2022 года, повсюду стали появляться новые программы генеративного ИИ (искусственного интеллекта). Одним из наиболее уникальных типов искусственного интеллекта является голос ИИ, который позволяет использовать текстовые подсказки для создания голосовых клипов для маркетинга, обучения сотрудников и многого другого. В этом посте мы покажем вам, как создать голос ИИ с помощью популярной программы PlayHT. Давайте погрузимся.
- 1 Что такое ИИ?
- 2 Что такое генерация голоса ИИ?
- 2.1 Как работают генераторы голоса ИИ?
- 3. Как создать голос ИИ
- 3.1 Шаг 1: Создание учетной записи
- 3.2 Шаг 2. Исследование интерфейса
- 3.3 Шаг 3. Создание вашего первого голоса искусственного интеллекта
- 3.4 Шаг 4: Клонирование голоса
- 3.5 Шаг 5: Экспорт проекта
- 4 лучших практики для генераторов голоса AI
- 5 заключительных мыслей о создании голоса AI
Что такое ИИ?
Искусственный интеллект — это обширная технология, которая позволяет компьютерам выполнять обширные задачи, которые обычно выполняют люди. Однако с системами искусственного интеллекта эти задачи занимают гораздо меньше времени. Существует несколько типов ИИ, наиболее распространенным из которых является узкий ИИ. Этот тип ИИ используется для создания изображений, голоса, музыки и текста из простой текстовой подсказки.
Что такое генерация голоса ИИ?
Голоса искусственного интеллекта — это голоса, генерируемые компьютером, которые имитируют звуки, особенности и тоны человеческих голосов. Они либо начинаются с текста, либо с записи вашего собственного голоса, чтобы создать уникальный человеческий голос. Благодаря возможностям технологии преобразования текста в речь ИИ создатели могут создавать голоса для подкастов, закадрового голоса или служить вспомогательными инструментами для людей с нарушениями зрения.
Как работают генераторы голоса AI?
Для работы генераторам голоса искусственного интеллекта требуется текстовый препроцессор, фонетическая транскрипция и синтез голоса. Первый шаг — предварительная обработка текста — берет необработанный текст и делает его аккуратным и организованным. Он разбивает слова на более мелкие части, называемые токенами, исправляет странные артефакты, такие как сокращения или специальные символы, и превращает числа в настоящие слова.
Затем, на втором этапе, эти токены анализируются и им присваиваются теги, такие как глаголы, существительные или прилагательные. Это помогает системе понять, как следует использовать каждое слово и что оно означает в контексте.
Вот где происходит волшебство. Текст проходит фонетический анализ, то есть преобразуется в особый вид письма, фиксирующий, как слова должны звучать при произнесении. Сюда входят ударение, тон и ритм, чтобы речь звучала естественно.
Наконец, на последнем этапе вся эта тяжелая работа окупается. Фонетические транскрипции превращаются в реальную речь с помощью звуковых волн. Благодаря современным алгоритмам искусственного интеллекта генерируемая сегодня речь звучит более естественно и по-человечески, чем системы преобразования текста в речь прошлого.
Как сделать голос ИИ
Генераторы голоса прошли долгий путь с тех пор, как IBM выпустила Shoebox в 1962 году. Современные системы, такие как PlayHT, имеют множество синтетических голосов с разными тонами, что позволяет создавать наиболее реалистичные голоса. Другие инструменты, такие как MurfAI, позволят вам регулировать высоту, тон и скорость. В этом уроке мы будем использовать PlayHT для создания голоса ИИ.
Шаг 1: Создание учетной записи
Первым шагом в этом процессе является создание бесплатной учетной записи PlayHT. Начните с перехода на домашнюю страницу, затем нажмите кнопку «Попробовать бесплатно» в правом верхнем углу экрана.
Вы можете зарегистрироваться, используя учетную запись Google или ввести свое имя и адрес электронной почты. Используйте выбранный вами метод, затем нажмите «Зарегистрироваться» , чтобы продолжить.
На следующем шаге выберите, планируете ли вы использовать PlayHT индивидуально или в компании.
PlayHT задаст вопросы о том, как вы будете использовать программное обеспечение, на следующих нескольких экранах.
После того, как ваш выбор сделан и ваша учетная запись создана, вы можете приступить к изучению интерфейса.
Шаг 2. Исследование интерфейса
Давайте познакомимся с интерфейсом, прежде чем сгенерировать наш первый голос:
- Создать новый файл: здесь вы создадите свой первый проект.
- Недавние файлы: список ваших последних проектов.
- Файлы: место, где расположены все ваши файлы.
- Клонирование голоса: вы можете загрузить аудиозапись голоса, а затем клонировать его для использования в программном обеспечении.
- Доступ к API: для интеграции PlayHT в другие приложения.
- Биллинг: Управляйте своей учетной записью.
- Выбор языка: английский — единственный вариант на данный момент, но другие языки находятся в разработке.
- Количество слов: позволяет увидеть, сколько осталось слов.
- Создать все абзацы: используется для создания голоса AI.
- Импортировать видео: добавьте озвучку к загруженному видео.
- Текстовая подсказка: ввод текста для генерации голоса ИИ.
- Элементы управления звуком: настраивайте временную шкалу своего голоса и меняйте местами клипы.
- Экспорт проекта: сохраните проект по абзацам или в виде одного WAV-файла.
Шаг 3. Создание вашего первого голоса искусственного интеллекта
Создать голос искусственного интеллекта с помощью PlayHT очень просто. Вы можете создать свой собственный сценарий или использовать чат-бота с искусственным интеллектом, чтобы помочь вам. В этом уроке мы будем использовать ChatGPT для генерации текста для нашего голоса. Начните с нажатия кнопки «Создать новый файл» , чтобы создать новый проект для нашего голоса.
Далее мы выберем синтетический голос для проекта. Для этого нажмите голосовой значок прямо над текстовой подсказкой.
Появится новое всплывающее окно, позволяющее вам прослушать один из более чем 130 голосов ИИ. Чтобы выбрать один, просто нажмите на него (1), выберите скорость воспроизведения (2), выберите применение голоса ко всем абзацам вашего проекта (3), затем подтвердите изменения (4).
Мы выберем Хадсона , потому что он звучит наиболее реалистично и у него хороший повествовательный голос для нашего сценария.
Используйте ChatGPT для создания видеоскрипта
Теперь, когда у нас выбран голос, нам нужно сгенерировать текст. Мы попросим ChatGPT создать короткий видеоролик, рассказывающий интересные факты о собаках. Мы использовали следующую подсказку: Предоставьте краткий сценарий видео, чтобы продемонстрировать 5 неизвестных фактов о собаках .
После создания сценария нам нужно будет ввести текст для нашего проекта. Начнем с вставки вступления нашего скрипта в PlayHT: Привет, любители собак! Сегодня мы раскроем пять увлекательных и малоизвестных фактов о лучших друзьях человека — собаках! Итак, хватайте угощение, садитесь поудобнее и приступаем!
Чтобы сгенерировать голос, щелкните значок воспроизведения слева от текстовой подсказки.
PlayHT сгенерирует текст, используя голос Хадсона. В зависимости от объема используемого текста процесс генерации может занять до нескольких минут. После завершения вы сможете предварительно просмотреть голос, нажав кнопку воспроизведения (1) в правой части экрана. Если вас не устраивает результат, вы можете нажать кнопку «Обновить» (2), чтобы повторить попытку.
Вот как звучит первый абзац:
Хотя это звучит довольно хорошо, его можно было бы немного подкорректировать. Перерывы в голосе звучат не совсем правильно, поэтому внесем пару корректировок.
Регенерация выхода
PlayHT позволяет вносить изменения в вводимый текст, а затем восстанавливать его. Это полезно, когда результат не соответствует вашим стандартам. Хороший совет — добавлять тире между предложениями, чтобы создать естественную паузу. Генераторы голоса с искусственным интеллектом имеют тенденцию торопить текст, создавая неестественные длинные предложения. Чтобы исправить это, мы изменим исходное приглашение на: Привет, любители собак! – Сегодня мы раскроем пять увлекательных и малоизвестных фактов о лучших друзьях человека – собаках! – Итак, хватай вкусняшку, садись поудобнее и давай нырять!
Вот результаты:
Шаг 4: Клонирование голоса
Еще одна интересная особенность PlayHT — возможность создавать собственные голоса ИИ. Он работает путем загрузки 30-секундного клипа, а затем преобразования его в пригодный для использования в ваших проектах голос искусственного интеллекта. Для начала перейдите на вкладку клонирования голоса в интерфейсе PlayHT.
Затем нажмите кнопку «Создать новый клон» .
Поскольку мы используем бесплатную лицензию, наш единственный вариант — выбрать мгновенную опцию , которая создает голос ИИ из 30-секундного звукового клипа.
Далее дайте своему голосу имя (1), выберите пол (2), загрузите аудиофайл (3), подтвердите, что у вас есть права на использование клипа (4), и нажмите « Создать» (5).
Как только клон будет создан, он появится под кнопкой «Создать новый клон» (1). Отсюда вы можете использовать его (2), поделиться им (3) или удалить (4).
Чтобы увидеть, как это звучит, добавьте текстовую подсказку для предварительного просмотра. Честно говоря, мы были очень впечатлены результатами:
Шаг 5: Экспорт проекта
Последний шаг в процессе создания — экспорт звуковых файлов. Вы можете сделать это одним из двух способов: экспортировать по одному абзацу или все абзацы в один файл. Для большинства авторов имеет смысл экспортировать файлы отдельно. Таким образом, вы можете добавлять кат-сцены и другие эффекты между каждым из них. Чтобы экспортировать файлы, нажмите кнопку экспорта в левом верхнем углу экрана.
Появится выпадающее меню с двумя вариантами: каждый абзац отдельно и как отдельный аудиофайл .
Все файлы экспортируются в формате WAV-аудиофайлов, которые можно импортировать с помощью любого аудио-программного обеспечения.
Лучшие практики для генераторов голоса AI
Важно понять несколько рекомендаций по созданию клипов, чтобы максимально эффективно использовать генераторы голоса ИИ. Сначала разделите предложения, добавив тире (-). Это позволяет алгоритму узнать, что должна быть пауза, и обычно исключает продолжающиеся предложения. Аналогично, запятые и точки с запятой могут добавить естественную паузу между словами. С другой стороны, избегайте дефисов между словами в предложении. Например, вы можете использовать «landlocked» , а не «land-locked» .
Вам также следует добавлять пробелы между аббревиатурами, чтобы помочь ИИ понять, что речь должна идти об отдельных буквах, а не о словах. Например, вместо использования AI используйте AI . Вы также можете добавить точку между буквами в аббревиатурах. Чтобы избежать повторения слов, перефразируйте текст, включив в него знаки препинания, например запятые, точки с запятой или дефисы. Еще один способ избавиться от повторения — разбить предложения на более мелкие. Это не дает ИИ запутаться, что обычно заканчивается нежелательными результатами.
Заключительные мысли о создании голоса ИИ
Генераторы голоса с искусственным интеллектом меняют способ создания аудио. С помощью программного обеспечения искусственного интеллекта, такого как PlayHT, вы можете создавать голоса для подкастов, видеороликов на YouTube, маркетинговых видеороликов, учебных материалов и многого другого. По мере развития технологий искусственного интеллекта будущее генерации голоса имеет огромный потенциал, открывая двери для более захватывающего опыта.
Для тех, кто заинтересован в изучении других приложений искусственного интеллекта, в нашем блоге есть множество публикаций, которые помогут вам в кратчайшие сроки стать суперзвездой искусственного интеллекта.
- Как создавать искусственный интеллект в 2023 году (подробное руководство)
- 31 способ использования ИИ сегодня (руководство на 2023 год)
- Как использовать генеративную заливку Photoshop AI в 2023 году (подробное руководство)
- Как использовать Midjourney для создания искусств искусственного интеллекта в 2023 году (подробное руководство)
Рекомендованное изображение через Pro_Vector / Shutterstock.com