Jak zrobić głos AI w 2023 r. (samouczek)
Opublikowany: 2023-09-08Odkąd ChatGPT pojawił się na scenie pod koniec 2022 r., wszędzie pojawiają się nowe programy generatywnej sztucznej inteligencji (sztucznej inteligencji). Jednym z bardziej unikalnych rodzajów sztucznej inteligencji jest głos AI, który umożliwia używanie podpowiedzi tekstowych do tworzenia klipów głosowych na potrzeby marketingu, szkolenia pracowników i nie tylko. W tym poście pokażemy, jak stworzyć głos AI za pomocą popularnego programu PlayHT. Zanurzmy się.
- 1 Czym jest sztuczna inteligencja?
- 2 Co to jest generowanie głosu AI?
- 2.1 Jak działają generatory głosu AI?
- 3 Jak zrobić głos AI
- 3.1 Krok 1: Tworzenie konta
- 3.2 Krok 2: Poznawanie interfejsu
- 3.3 Krok 3: Generowanie pierwszego głosu AI
- 3.4 Krok 4: Klonowanie głosu
- 3.5 Krok 5: Eksportowanie projektu
- 4 najlepsze praktyki dotyczące generatorów głosu AI
- 5 końcowych przemyśleń na temat tworzenia głosu AI
Czym jest sztuczna inteligencja?
Sztuczna inteligencja to ekspansywna technologia, która umożliwia komputerom wykonywanie rozległych zadań, które normalnie wykonywaliby ludzie. Jednak w przypadku systemów AI zadania te zajmują ułamek czasu. Istnieje kilka rodzajów sztucznej inteligencji, z których najczęstszą jest wąska sztuczna inteligencja. Ten typ sztucznej inteligencji służy do tworzenia obrazów, głosu, muzyki i tekstu za pomocą prostego komunikatu tekstowego.
Co to jest generowanie głosu AI?
Głosy AI to głosy generowane komputerowo, które naśladują dźwięki, cechy i tony ludzkiego głosu. Zaczynają się od tekstu lub nagrywają własny głos, aby stworzyć niepowtarzalny głos o ludzkim brzmieniu. Dzięki mocy technologii zamiany tekstu na mowę sztucznej inteligencji twórcy mogą opracowywać głosy do podcastów, narracji lub służyć jako narzędzia wspomagające dla osób niedowidzących.
Jak działają generatory głosu AI?
Generatory głosu AI wymagają do działania preprocesora tekstu, transkrypcji fonetycznej i syntezy głosu. Pierwszy krok, wstępne przetwarzanie tekstu, polega na tym, że surowy tekst jest uporządkowany i uporządkowany. Dzieli słowa na mniejsze części zwane tokenami, naprawia dziwne artefakty, takie jak skurcze lub znaki specjalne, i zamienia liczby w rzeczywiste słowa.
Następnie w drugim kroku te tokeny są analizowane i otrzymują znaczniki, takie jak czasowniki, rzeczowniki lub przymiotniki. Pomaga to systemowi zrozumieć, jak należy używać każdego słowa i co ono oznacza w kontekście.
Tutaj dzieje się magia. Tekst przechodzi analizę fonetyczną, co oznacza, że jest przekształcany w specjalny rodzaj pisma, który rejestruje, jak słowa powinny brzmieć podczas wypowiadania. Obejmuje to stres, ton i rytm, aby mowa brzmiała naturalnie.
Wreszcie, w ostatnim kroku, cała ta ciężka praca się opłaciła. Transkrypcje fonetyczne przekształcane są w prawdziwą mowę za pomocą fal dźwiękowych. Dzięki nowoczesnym algorytmom sztucznej inteligencji generowana obecnie mowa brzmi o wiele bardziej naturalnie i ludzki niż w przypadku silników zamiany tekstu na mowę z przeszłości.
Jak zrobić głos AI
Generatory głosu przeszły długą drogę od czasu wypuszczenia przez IBM Shoebox w 1962 roku. Nowoczesne systemy, takie jak PlayHT, oferują różnorodne syntetyczne głosy o różnych tonach, dzięki czemu możliwe jest tworzenie najbardziej realistycznych głosów. Inne narzędzia, takie jak MurfAI, pozwolą Ci dostosować wysokość, ton i prędkość. W tym samouczku użyjemy PlayHT do stworzenia głosu AI.
Krok 1: Tworzenie konta
Pierwszym krokiem w tym procesie jest utworzenie bezpłatnego konta PlayHT. Zacznij od przejścia do strony głównej, a następnie kliknij przycisk wypróbuj bezpłatnie w prawym górnym rogu ekranu.
Możesz zarejestrować się za pomocą konta Google lub wpisać swoje imię i nazwisko oraz adres e-mail. Użyj wybranej metody, a następnie kliknij zarejestruj się , aby kontynuować.
W następnym kroku wybierz, czy planujesz korzystać z PlayHT indywidualnie, czy w firmie.
Na kilku kolejnych ekranach PlayHT zada pytania dotyczące sposobu korzystania z oprogramowania.
Po dokonaniu wyboru i utworzeniu konta możesz rozpocząć eksplorację interfejsu.
Krok 2: Poznawanie interfejsu
Zanim wygenerujemy nasz pierwszy głos, zapoznajmy się z interfejsem:
- Utwórz nowy plik: tutaj utworzysz swój pierwszy projekt.
- Ostatnie pliki: lista Twoich najnowszych projektów.
- Pliki: miejsce, w którym znajdują się wszystkie Twoje pliki.
- Klonowanie głosu: możesz przesłać dźwięk głosu, a następnie sklonować go do wykorzystania w oprogramowaniu.
- Dostęp API: do integracji PlayHT z innymi aplikacjami
- Rozliczenia: zarządzaj swoim kontem.
- Wybór języka: obecnie jedyną opcją jest język angielski, ale trwają prace nad innymi językami.
- Liczba słów: pozwala sprawdzić, ile pozostałych słów jest dostępnych.
- Wygeneruj wszystkie akapity: służy do generowania głosu AI.
- Importuj wideo: dodaj narrację do przesłanego filmu.
- Podpowiedź tekstowa: wprowadzanie tekstu w celu generowania głosu AI.
- Sterowanie dźwiękiem: Dostosuj oś czasu swojego głosu i zmień kolejność klipów.
- Eksportuj projekt: Zapisz swój projekt w akapitach lub jako jeden plik WAV.
Krok 3: Generowanie pierwszego głosu AI
Generowanie głosu AI za pomocą PlayHT jest proste. Możesz stworzyć własny skrypt lub skorzystać z chatbota AI, który Ci pomoże. W tym samouczku użyjemy ChatGPT do wygenerowania tekstu dla naszego głosu. Zacznij od kliknięcia przycisku utwórz nowy plik , aby utworzyć nowy projekt dla naszego głosu.
Następnie wybierzemy do projektu głos syntetyczny. Aby to zrobić, kliknij ikonę głosu bezpośrednio nad komunikatem tekstowym.
Pojawi się nowe wyskakujące okienko, w którym możesz wypróbować jeden z ponad 130 głosów AI. Aby wybrać jeden, po prostu na niego kliknij (1), wybierz prędkość odtwarzania (2), wybierz opcję zastosowania głosu do wszystkich akapitów w projekcie (3), a następnie potwierdź zmiany (4).
Wybierzemy Hudsona , ponieważ brzmi najbardziej realistycznie i ma dobry głos narracyjny dla naszego scenariusza.
Użyj ChatGPT, aby wygenerować skrypt wideo
Teraz, gdy mamy już wybrany głos, musimy wygenerować tekst. Poprosimy ChatGPT o stworzenie krótkiego skryptu wideo zawierającego ciekawe fakty na temat psów. Zastosowaliśmy następującą zachętę: Przygotuj krótki scenariusz wideo przedstawiający 5 nieznanych faktów na temat psów .
Po wygenerowaniu skryptu będziemy musieli wprowadzić tekst do naszego projektu. Zaczniemy od wklejenia intro naszego skryptu do PlayHT: Witajcie, miłośnicy psów! Dziś odkryjemy pięć fascynujących i mniej znanych faktów na temat najlepszego przyjaciela człowieka, psów! Zatem złap przekąskę, usiądź wygodnie i zanurzmy się!
Aby wygenerować głos, kliknij ikonę odtwarzania po lewej stronie podpowiedzi tekstowej.
PlayHT wygeneruje tekst przy użyciu głosu Hudsona. W zależności od ilości użytego tekstu proces generowania może zająć do kilku minut. Po zakończeniu będziesz mógł wyświetlić podgląd głosu, klikając przycisk odtwarzania (1) po prawej stronie ekranu. Jeśli nie jesteś zadowolony z wyniku, możesz kliknąć przycisk Regeneruj (2), aby spróbować ponownie.
Oto jak brzmi pierwszy akapit:
Chociaż brzmi to całkiem nieźle, przydałoby się trochę regulacji. Przerwy w głosie nie brzmią całkiem dobrze, więc dokonamy kilku poprawek.
Regeneracja mocy wyjściowej
PlayHT umożliwia wprowadzenie zmian we wprowadzanym tekście, a następnie jego ponowne wygenerowanie. Jest to przydatne, gdy wynik nie odpowiada Twoim standardom. Dobrą wskazówką jest dodanie myślników między zdaniami, aby stworzyć naturalną pauzę. W przypadku generatorów głosu AI istnieje tendencja do pośpiechu w pisaniu tekstu, tworząc nienaturalne, powtarzające się zdania. Aby to naprawić, zmienimy nasz pierwotny monit na: Witajcie miłośnicy psów! – Dziś odkryjemy pięć fascynujących i mniej znanych faktów na temat najlepszego przyjaciela człowieka – psów! – Więc weź przekąskę, usiądź wygodnie i zanurzmy się!
Oto wyniki:
Krok 4: Klonowanie głosu
Kolejną fajną funkcją PlayHT jest możliwość tworzenia własnych głosów AI. Działa poprzez przesłanie 30-sekundowego klipu, a następnie przekształcenie go w głos AI nadający się do wykorzystania w Twoich projektach. Aby rozpocząć, kliknij zakładkę klonowania głosu w interfejsie PlayHT.
Następnie kliknij przycisk Utwórz nowy klon .
Ponieważ korzystamy z darmowej licencji, naszą jedyną opcją jest wybranie opcji natychmiastowej , która tworzy głos AI z 30-sekundowego klipu dźwiękowego.
Następnie nadaj swojemu głosowi imię (1), wybierz płeć (2), prześlij plik audio (3), potwierdź, że masz prawa do wykorzystania klipu (4) i kliknij Utwórz (5).
Po utworzeniu klonu pojawi się on pod przyciskiem Utwórz nowy klon (1). Stamtąd możesz go użyć (2), udostępnić (3) lub usunąć (4).
Aby zobaczyć, jak to brzmi, dodaj monit tekstowy, aby wyświetlić jego podgląd. Szczerze mówiąc, byliśmy pod wrażeniem wyników:
Krok 5: Eksportowanie projektu
Ostatnim krokiem w procesie tworzenia jest eksport plików dźwiękowych. Można to zrobić na dwa sposoby: eksportując pojedynczy akapit lub wszystkie akapity w jednym pliku. W przypadku większości twórców sensowne jest eksportowanie plików osobno. W ten sposób możesz dodawać przerywniki filmowe i inne efekty pomiędzy nimi. Aby wyeksportować pliki, kliknij przycisk eksportu w lewym górnym rogu ekranu.
Pojawi się menu rozwijane z dwiema opcjami: każdy akapit osobno i jako pojedynczy plik audio .
Wszystkie pliki są eksportowane jako pliki audio wav, które można zaimportować za pomocą dowolnego oprogramowania audio.
Najlepsze praktyki dotyczące generatorów głosu AI
Aby w pełni wykorzystać generatory głosu AI, ważne jest zrozumienie kilku najlepszych praktyk podczas tworzenia klipów. Najpierw oddziel zdania, dodając myślnik (-). Dzięki temu algorytm wie, że powinna nastąpić przerwa i zazwyczaj eliminuje powtarzające się zdania. Podobnie przecinki i średniki mogą dodawać naturalną pauzę między słowami. Z drugiej strony unikaj łączników między słowami w zdaniu. Na przykład użyjesz nazwy śródlądowej zamiast śródlądowej .
Powinieneś także dodać spacje między akronimami, aby pomóc AI zrozumieć, że powinny to być pojedyncze wymawiane litery, a nie słowa. Na przykład zamiast używać AI , użyj AI . Można także dodać kropkę pomiędzy literami w akronimach. Aby uniknąć powtórzeń słów, zmień sformułowanie tekstu, dodając znaki interpunkcyjne, takie jak przecinki, średniki lub łączniki. Innym sposobem zaradzenia powtórzeniom jest podzielenie zdań na mniejsze. Zapobiega to pomieszaniu sztucznej inteligencji, co zwykle kończy się niepożądanymi rezultatami.
Ostatnie przemyślenia na temat tworzenia głosu AI
Generatory głosu AI zmieniają sposób, w jaki twórcy tworzą dźwięk. Za pomocą oprogramowania opartego na sztucznej inteligencji, takiego jak PlayHT, możesz tworzyć głosy do podcastów, filmów na YouTube, filmów marketingowych, materiałów szkoleniowych i nie tylko. Wraz z postępem technologii sztucznej inteligencji przyszłość generowania głosu kryje w sobie ogromny potencjał, otwierając drzwi do bardziej wciągających doświadczeń.
Dla osób zainteresowanych odkrywaniem innych zastosowań sztucznej inteligencji na naszym blogu znajduje się wiele postów, które pomogą Ci szybko stać się supergwiazdą sztucznej inteligencji.
- Jak stworzyć sztukę AI w 2023 r. (Szczegółowy samouczek)
- 31 sposobów, w jakie możesz dziś wykorzystać sztuczną inteligencję (przewodnik 2023)
- Jak korzystać z wypełnienia generatywnego AI w Photoshopie w 2023 r. (szczegółowy samouczek)
- Jak wykorzystać podróż do tworzenia grafiki AI w 2023 r. (szczegółowy samouczek)
Wyróżnione zdjęcie za pośrednictwem Pro_Vector / Shutterstock.com