Come creare una voce AI nel 2023 (tutorial)
Pubblicato: 2023-09-08Da quando ChatGPT è entrato in scena alla fine del 2022, nuovi programmi di intelligenza artificiale (intelligenza artificiale) generativa sono comparsi ovunque. Uno dei tipi più esclusivi di intelligenza artificiale è la voce AI, che consente di utilizzare istruzioni di testo per creare clip vocali per marketing, formazione dei dipendenti e altro ancora. In questo post ti mostreremo come creare una voce AI utilizzando un programma popolare, PlayHT. Immergiamoci.
- 1 Cos’è l’IA?
- 2 Che cos'è la generazione vocale AI?
- 2.1 Come funzionano i generatori vocali AI?
- 3 Come creare una voce AI
- 3.1 Passaggio 1: creazione di un account
- 3.2 Passo 2: Esplorazione dell'interfaccia
- 3.3 Passaggio 3: generazione della prima voce AI
- 3.4 Passaggio 4: clonazione della voce
- 3.5 Passo 5: Esportazione di un progetto
- 4 migliori pratiche per i generatori vocali AI
- 5 considerazioni finali sulla creazione di una voce AI
Cos'è l'intelligenza artificiale?
L’intelligenza artificiale è una tecnologia espansiva che consente ai computer di eseguire compiti estesi che gli esseri umani normalmente svolgerebbero. Tuttavia, tali attività richiedono una frazione del tempo con i sistemi di intelligenza artificiale. Esistono diversi tipi di IA, la più comune è l'IA ristretta. Questo tipo di intelligenza artificiale viene utilizzato per creare immagini, voce, musica e testo da un semplice messaggio di testo.
Cos'è la generazione vocale AI?
Le voci AI sono voci generate dal computer che imitano i suoni, le caratteristiche e i toni delle voci umane. Iniziano come testo o registrando la tua voce per creare una voce unica dal suono umano. Grazie alla potenza della tecnologia di sintesi vocale dell'intelligenza artificiale, i creatori possono sviluppare voci per podcast, voci fuori campo o fungere da strumenti di assistenza per i non vedenti.
Come funzionano i generatori vocali AI?
I generatori vocali AI richiedono un preprocessore di testo, una trascrizione fonetica e una sintesi vocale per funzionare. Il primo passaggio, la preelaborazione del testo, prende il testo grezzo e lo rende tutto ordinato e organizzato. Suddivide le parole in parti più piccole chiamate token, corregge strani artefatti come contrazioni o caratteri speciali e trasforma i numeri in parole reali.
Quindi, nella seconda fase, questi token vengono analizzati e vengono loro assegnati tag come verbi, sostantivi o aggettivi. Questo aiuta il sistema a capire come dovrebbe essere usata ogni parola e cosa significa nel contesto.
Ora, è qui che avviene la magia. Il testo viene sottoposto ad analisi fonetica, il che significa che viene convertito in un tipo speciale di scrittura che cattura il modo in cui dovrebbero suonare le parole quando vengono pronunciate. Ciò include l'accento, il tono e il ritmo per rendere il discorso naturale.
Infine, nell’ultimo passaggio, tutto quel duro lavoro viene ripagato. Le trascrizioni fonetiche vengono trasformate in parlato reale utilizzando le onde sonore. Grazie ai moderni algoritmi di intelligenza artificiale, il parlato generato oggigiorno suona molto più naturale e umano rispetto ai motori di sintesi vocale del passato.
Come creare una voce AI
I generatori di voce hanno fatto molta strada da quando IBM ha lanciato Shoebox nel 1962. I sistemi moderni, come PlayHT, hanno una varietà di voci sintetiche con toni diversi, rendendo possibile la creazione delle voci più realistiche. Altri strumenti, come MurfAI, ti permetteranno di regolare il tono, il tono e la velocità. In questo tutorial utilizzeremo PlayHT per creare una voce AI.
Passaggio 1: creazione di un account
Il primo passo nel processo è creare un account PlayHT gratuito. Inizia accedendo alla home page, quindi fai clic sul pulsante Prova gratuitamente in alto a destra sullo schermo.
Puoi registrarti utilizzando un account Google o inserendo il tuo nome e la tua email. Utilizza il metodo scelto, quindi fai clic su Iscriviti per continuare.
Nel passaggio successivo, scegli se intendi utilizzare PlayHT come individuo o in ambito aziendale.
PlayHT ti farà domande su come utilizzerai il software nelle prossime schermate.
Una volta effettuate le selezioni e creato il tuo account, puoi iniziare a esplorare l'interfaccia.
Passaggio 2: esplorazione dell'interfaccia
Acquisiamo familiarità con l'interfaccia prima di generare la nostra prima voce:
- Crea nuovo file: qui creerai il tuo primo progetto.
- File recenti: un elenco dei tuoi progetti più recenti.
- File: dove si trovano tutti i tuoi file.
- Clonazione vocale: è possibile caricare l'audio di una voce, quindi clonarlo per utilizzarlo nel software.
- Accesso API: per integrare PlayHT in altre applicazioni
- Fatturazione: gestisci il tuo account.
- Selettore della lingua: l'inglese è l'unica opzione al momento, ma altre lingue sono in lavorazione.
- Conteggio parole: consente di vedere quante parole rimanenti sono disponibili.
- Genera tutti i paragrafi: utilizzato per generare una voce AI.
- Importa video: aggiungi voci fuori campo a un video caricato.
- Prompt di testo: input di testo per la generazione vocale AI.
- Controlli audio: regola la sequenza temporale della tua voce e riorganizza le clip.
- Esporta progetto: salva il tuo progetto per paragrafo o come file wav.
Passaggio 3: generazione della tua prima voce AI
Generare una voce AI con PlayHT è semplice. Puoi creare il tuo script o utilizzare un chatbot AI per assisterti. In questo tutorial utilizzeremo ChatGPT per generare il testo per la nostra voce. Inizia facendo clic sul pulsante Crea nuovo file per creare un nuovo progetto per la nostra voce.
Successivamente, sceglieremo una voce sintetica per il progetto. Per fare ciò, fai clic sull'icona vocale direttamente sopra il messaggio di testo.
Apparirà una nuova finestra popup che ti consentirà di campionare una delle oltre 130 voci AI. Per sceglierne uno, fai semplicemente clic su di esso (1), seleziona la velocità di riproduzione (2), scegli di applicare la voce a tutti i paragrafi del tuo progetto (3), quindi conferma le modifiche (4).
Sceglieremo Hudson perché sembra il più realistico e ha una buona voce narrativa per la nostra sceneggiatura.
Utilizza ChatGPT per generare uno script video
Ora che abbiamo selezionato la nostra voce, dovremo generare del testo. Chiederemo a ChatGPT di creare un breve script video che fornisca fatti interessanti sui cani. Abbiamo utilizzato il seguente suggerimento: Fornisci un breve script video per mostrare 5 fatti sconosciuti sui cani .
Una volta generato lo script, dovremo inserire del testo per il nostro progetto. Inizieremo incollando l'introduzione del nostro script in PlayHT: Ciao amanti dei cani! Oggi scopriremo cinque fatti affascinanti e meno conosciuti sui migliori amici dell'uomo, i cani! Quindi, prendi un dolcetto, siediti e tuffiamoci!
Per generare la voce, fare clic sull'icona di riproduzione a sinistra del messaggio di testo.
PlayHT genererà il testo utilizzando la voce di Hudson. A seconda della quantità di testo utilizzata, il processo di generazione potrebbe richiedere alcuni minuti. Una volta completato, potrai visualizzare l'anteprima della voce facendo clic sul pulsante di riproduzione (1) a destra dello schermo. Se non sei soddisfatto del risultato, puoi fare clic sul pulsante Rigenera (2) per riprovare.
Ecco come suona il primo paragrafo:
Anche se suona abbastanza bene, potrebbe essere necessario un po' di aggiustamento. Le interruzioni nella voce non suonano del tutto corrette, quindi apporteremo un paio di modifiche.
Uscita rigenerante
PlayHT ti consente di apportare modifiche all'input di testo, quindi rigenerarlo. Ciò è utile quando l'output non è conforme ai tuoi standard. Un buon consiglio è quello di aggiungere dei trattini tra le frasi per creare una pausa naturale. Con i generatori vocali AI, c'è la tendenza a affrettare il testo, creando frasi innaturali e ripetitive. Quindi, per correggere questo problema, cambieremo il nostro messaggio originale in: Ciao amanti dei cani! – Oggi scopriremo cinque fatti affascinanti e meno conosciuti sui migliori amici dell'uomo: i cani! – Allora prenditi un dolcetto, siediti e tuffiamoci!
Ecco i risultati:
Passaggio 4: clonazione della voce
Un'altra caratteristica interessante di PlayHT è la possibilità di creare le tue voci AI. Funziona caricando una clip di 30 secondi, quindi trasformandola in una voce AI utilizzabile per i tuoi progetti. Per iniziare, fai clic sulla scheda di clonazione vocale nell'interfaccia PlayHT.
Successivamente, fai clic sul pulsante Crea un nuovo clone .
Poiché utilizziamo la licenza gratuita, la nostra unica opzione è scegliere l' opzione istantanea , che crea una voce AI da una clip audio di 30 secondi.
Successivamente, dai un nome alla tua voce (1), scegli un genere (2), carica un file audio (3), conferma di avere i diritti per utilizzare la clip (4) e fai clic su Crea (5).
Una volta creato il clone, verrà visualizzato sotto il pulsante Crea un nuovo clone (1). Da lì puoi usarlo (2), condividerlo (3) o eliminarlo (4).
Per vedere come suona, aggiungi un messaggio di testo per visualizzarne l'anteprima. Ad essere onesti, siamo rimasti piuttosto colpiti dai risultati:
Passaggio 5: esportazione di un progetto
L'ultimo passaggio nel processo di creazione è l'esportazione dei file audio. Puoi farlo in due modi: esportando un paragrafo alla volta o tutti i paragrafi in un unico file. Per la maggior parte dei creatori ha senso esportare i file separatamente. In questo modo, puoi aggiungere scene tagliate e altri effetti tra ciascuno di essi. Per esportare i tuoi file, fai clic sul pulsante Esporta nella parte superiore sinistra dello schermo.
Apparirà un menu a discesa con due opzioni: ogni paragrafo separatamente e come singolo file audio .
Tutti i file vengono esportati come file audio wav, che possono essere importati utilizzando qualsiasi software audio.
Migliori pratiche per i generatori vocali AI
È importante comprendere alcune best practice durante la creazione di clip per ottenere il massimo dai generatori vocali AI. Per prima cosa separa le frasi aggiungendo un trattino (-). Ciò consente all'algoritmo di sapere che dovrebbe esserci una pausa e in genere eliminerà le frasi ripetute. Allo stesso modo, virgole e punti e virgola possono aggiungere una pausa naturale tra le parole. D'altra parte, evita i trattini tra le parole di una frase. Ad esempio, potresti utilizzare landlocked anziché land-locked .
Dovresti anche aggiungere spazi tra gli acronimi per aiutare l'IA a capire che dovrebbero esserci singole lettere pronunciate anziché parole. Ad esempio, invece di usare AI , usa AI . Puoi anche aggiungere un punto tra le lettere negli acronimi. Per evitare ripetizioni di parole, riformula il testo includendo la punteggiatura, come virgole, punto e virgola o trattini. Un altro modo per rimediare alla ripetizione è suddividere le frasi in frasi più piccole. Ciò impedisce all'IA di confondersi, il che di solito finisce con risultati indesiderati.
Considerazioni finali sulla creazione di una voce AI
I generatori vocali AI stanno cambiando il modo in cui i creatori creano audio. Attraverso software di intelligenza artificiale come PlayHT, puoi creare voci per podcast, video di YouTube, video di marketing, materiali di formazione e altro ancora. Con l’avanzare della tecnologia AI, il futuro della generazione vocale racchiude un enorme potenziale, aprendo le porte a esperienze più coinvolgenti.
Per coloro che sono interessati a esplorare altre applicazioni dell'intelligenza artificiale, il nostro blog è ricco di post che ti aiuteranno a diventare una superstar dell'intelligenza artificiale in pochissimo tempo.
- Come realizzare arte AI nel 2023 (tutorial dettagliato)
- 31 modi in cui puoi utilizzare l'intelligenza artificiale oggi (guida 2023)
- Come utilizzare Photoshop AI Generative Fill in 2023 (tutorial dettagliato)
- Come utilizzare Midjourney per creare opere d'arte con intelligenza artificiale nel 2023 (tutorial dettagliato)
Immagine in primo piano tramite Pro_Vector / Shutterstock.com