Za Speech-to-text:
Hrubú silu + veľa pamäte na ktorej to bude bežať + veľmi veľa zozbieraných dát (audio + textový prepis) na ktorých vytrénuješ ten jazykový model + každý rok vychádzajú vylepšené software ktoré vedia lepšie používať a rozoznávať jazyky.
90+ % už existuje, má ho google, pokiaľ viem má teraz 94% pre dobre pokrytý jazyk akým je angličtina.
Ale vždy môže prísť niekto kto rozpráva nárečím alebo slangom na ktoré tie modely natrénované nie sú, a program mu nebude rozumieť, tak ako by mu nerozumel ani bežný človek, a porozumie až sa to naučí.