AI Pronunciation Trainer
In questo articolo presento progetto a cui sto lavorando attualmente: AI Pronunciation Trainer (online qui), uno strumento progettato per aiutarvi a migliorare la vostra pronuncia utilizzando la potenza dell'intelligenza artificiale. Questo progetto è un refactor dell'originale AI Pronunciation Trainer di Thiagohgl a cui ho fatto diversi miglioramenti per rendere lo strumento più efficace e facile da usare.
Cos'è e cosa fa
AI Pronunciation Trainer è uno strumento che utilizza l'intelligenza artificiale per valutare la vostra pronuncia e fornire feedback, aiutandovi a migliorare e a essere compresi più chiaramente. Utilizza i modelli Silero STT / TTS per le funzionalità di speech-to-text e text-to-speech, garantendo una valutazione della pronuncia accurata e affidabile.
Refactor: aggiornamento delle Librerie Frontend e Backend
Ho aggiornato le librerie di backend portando PyTorch, in particolare, alla versione 2.5.x. Ho inoltre cambiato versione del modello Speech-to-Text tedesco per risolvere un bug che impediva l'utilizzo di PyTorch successivo alla versione 1.13.x. Inoltre:, per quanto riguarda il frontend:
- Aggiornate le librerie javascript utilizzando le versioni più recenti di jQuery (3.7.1) e Bootstrap (5.3.3)
- Nuovo frontend basato su Gradio 5.x
- Aggiunti test E2E con Playwright
- Aggiunta la possibilità di scrivere, leggere ed ovviamente valutare una frase a scelta libera
- Tour guidato per i nuovi utenti con driver.js ed css/javascript custom dentro ai Gradio blocks
- Riproduzione delle singole parole nella registrazione seguite dalla pronuncia 'ideale' della stessa parola letta dal motore Text-to-Speech
- Aggiunto anche una funzionalità di Text-to-Speech in-browser (su Windows 11 funziona solo nel caso siano installati i pacchetti linguistici inglesi e tedesco)
Versione online: la demo nello spazio HuggingFace
Potete provare online il mio progetto sul mio HuggingFace Space. Questa demo online vi permette di sperimentare le capacità dello strumento senza alcuna installazione o configurazione. Lo spazio HuggingFace fornisce un modo conveniente e accessibile per testare AI Pronunciation Trainer e vedere come può aiutarvi a migliorare la vostra pronuncia. Si prega di essere pazienti, a volte è un po' lento oppure in sleeping nel caso non sia utilizzato da nessuno da un po' (localmente è molto più veloce, soprattutto se avete un computer potente). Ecco una versione embedded dello spazio HuggingFace:
Lavori Futuri
Pur funzionando piuttosto bene, ci sono ovviamente margini di miglioramento. Ecco alcuni dei miglioramenti futuri che intendo implementare:
- Ricevere feedback dall'autore del lavoro originale sulla mia documentazione e sulle modifiche
- Chiedere all'autore del lavoro originale alcune spiegazioni sulle scelte architetturali e funzionali che ha fatto
- Valutare il passaggio da PyTorch ad ONNX Runtime
- Aggiungere più test E2E con Playwright
Conclusione
AI Pronunciation Trainer è uno strumento utile per chiunque desideri migliorare in autonomia la propria pronuncia. Con la potenza dell'IA ed i miglioramenti apportati durante il refactor, questo strumento fornisce feedback accurati e affidabili per aiutarvi a parlare in modo più chiaro e sicuro. Vi invito a provare la demo HuggingFace Space e capire come questo progetto possa aiutarvi nel vostro percorso verso una migliore pronuncia.