I ricercatori di Amazon hanno annunciato un nuovo modello di sintesi vocale text-to-speech, chiamato BASE TTS. Grazie alle sue dimensioni – 100.000 ore di registrazioni audio per addestrare la versione più grande da 980 milioni di parametri – il modello del colosso dell’e-commerce mostrerebbe delle “abilità emergenti”, ossia capacità che vanno al di là di ciò per cui è stato addestrato.
Il modello sarebbe in grado di gestire testi complessi in modo naturale, pronunciare in modo credibile frasi e parole lunghe e complicate, applicare la giusta enfasi emotiva e interpretare la punteggiatura.