Pandrator sjednocuje nástroje pro převod textu na řeč (TTS), generování titulků a automatický dabing videí do jednoho grafického rozhraní. Systém postavený na jazyce Python integruje několik lokálních TTS backendů (XTTS v2, Silero, Voxtral) a umožňuje hlasové klonování z krátkých zvukových vzorků. Architektura podporuje zpracování dokumentů ve formátech PDF, EPUB a textových souborů, které automaticky segmentuje pro dosažení přirozené intonace mluveného slova.
Součástí funkční výbavy je integrace modelu WhisperX pro přesný přepis videa, podpora pro pre-processing pomocí LLM (oprava chyb v textu) a post-processing pomocí RVC (Retrieval Based Voice Conversion) pro zvýšení kvality syntetizovaného hlasu. Systém dále obsahuje nástroje pro synchronizaci řeči s obrazem, automatické překlady titulků přes externí API a validaci kvality generovaného zvuku pomocí metriky NISQA. Veškeré výpočetně náročné úlohy mohou probíhat lokálně s využitím GPU akcelerace přes CUDA.
Pro hodnocení programu se prosím nejprve přihlaste