SpeechTech Archiv je systém pro vytváření a prohledávání audiovizuálních archívů na základě technologie automatického přepisu mluvené řeči.
Účelem tohoto systému je poskytnout uživatelům možnost rychlého nalezení událostí (výskytů slov nebo frází) ve velmi rozsáhlých archivech video nebo audio nahrávek.
SpeechTech Archiv umožňuje vyhledávat nejen předem známá slova, ale i slova, která systém automatického rozpoznávání řeči neměl v okamžiku indexace ve slovníku. Díky tomu lze nalézt i různé místopisné názvy, případně jména osob či produktů. Databázový index je prohledáván velmi rychle a výsledek dotazu je dostupný zpravidla v řádech vteřin od jeho zadání.
Audio stopa archívu je nejprve zpracována pomocí metod automatického rozpoznávání řeči, přičemž v jednom čase je do databázového indexu uloženo i několik různých hypotéz o obsahu každé promluvy. Všechny výsledky (slova) jsou zaindexovány a uloženy do databáze. Následně ve fázi vyhledávání archívu jsou tyto hypotézy vyhodnoceny a zobrazeny jako nalezené výsledky s odkazem na příslušná místa audio archívu, která je možno si bezprostředně poté poslechnout či prohlédnout.
- vyhledávání na úrovni slov i na úrovni hlásek
- u známých slov volitelně i vyhledávání jiných slovních tvarů téhož slova
- možnost indexování jak audio záznamů, tak i audiovizuálních záznamů
- velmi rychlé prohledání archívu (např. 1000 hodin v řádech jednotek vteřin).
- multiplatformní modulární architektura, možnost zákaznických modifikací
- možnost nasazení na Vašem clusteru pro indexaci a prohledávání velmi rozsáhlých archívů
- architektura klient-server
- přístup přes webové i programové rozhraní