deepspeech-sk :: Remember, remember, the velvet November


node:	deepspeech-sk
template:	4
parent:	Automatic Speech Recognition
owner:	Prospero
viewed by:
created:	20.10.2022 - 11:55:38
updated:	20.10.2022 - 21:03:47

cwbe coordinatez:
101
63533
8446046
9011786

ABSOLUT
KYBERIA

permissions
you:	r,
system:	public
net:	yes

Atanaguat

Minulý týždeň som vrámci súťaže "our voices" od Mozilla Foundation jemne pretrénoval už existujúci deepspeech-cs model na slovenské common voice dáta.

Výsledok je tu: https://github.com/hromi/our-voices-model-competition/tree/main/submit/Variant_Accent_Dialect/SlovakoCzech-band-C

nieje to perfektné - a ani nikdy nebude - ale pokiaľ Tvojou ambíciou nieje mať dokonalý rozpoznávač reči ktorý funguje pre všetkých, vo všetkých prostrediach a pre všetky výrazy- ale skôr niečo čo funguje dostatočne dobre pre Teba a Tvojich najbližších, a beží rýchlo aj na RaspberryPi, tak je to istotne užitočný odrazový mostík

(v release sú aj checkpoint súbory takže kludne môžeš model fine-tuniť na svoj vlastný hlas)

njoy

edit: ak si na githube a zadelíš mi hviezdičko alebo vidličko a ak náhodou v tej súťaži vyhrám platím Ti nejaké to IPA pivečko

0000010100063533084460460901178609024921

Ahoj Hromi, robil si k tomu aj nejaký quickstart alebo demo? Chceme to tweaknuť na robocalling4good pri obvolávaní seniorov, aby prišli na vzdelávanie do miestnej knižnice.

000001010006353308446046090117860902492109025192

Ahoj,

tu si stiahnes natrenovanu neuronku (tzv. akusticky model): https://github.com/hromi/our-voices-model-competition/releases/download/v0.0.1/sk-focused-model.tgz

V zavislosti od toho ako ten rozpoznavac chces pouzit si stiahnes alebo vytvoris tzv. "jazykovy model", nazyvany aj scorer. Ak chces vseobecny prepisovac do textu, mozes si stiahnut tento scorer https://github.com/hromi/our-voices-model-competition/releases/download/v0.0.1/sk-all.scorer

ale ak to cele chces pouzit na nieco jednoduchsie, napr. v kontexte kde vies ake odpovede od klientov dostanes, odporucam vytvorit si vlastny mini-scorer, dost tym zvysis presnost celej veci.

Ak chces nasledne bezaz celu vec na stroji kde mozes instalovat python kniznice, pouzi coqui https://stt.readthedocs.io/en/latest/ alebo nieco podobne

abych Ti mohol poradit viac tak by som potreboval vediet presny use case

0000010100063533084460460901178609012010

Co je potrebne, aby tieto tooly vedeli proste trafit 90+ % slov a fungovat ako presny-ish translator jazykov - aj takych komplikovanejsich? Je to iba o hrubej vypocetnej sile?

000001010006353308446046090117860901201009015001

Za Speech-to-text:
Hrubú silu + veľa pamäte na ktorej to bude bežať + veľmi veľa zozbieraných dát (audio + textový prepis) na ktorých vytrénuješ ten jazykový model + každý rok vychádzajú vylepšené software ktoré vedia lepšie používať a rozoznávať jazyky.

90+ % už existuje, má ho google, pokiaľ viem má teraz 94% pre dobre pokrytý jazyk akým je angličtina.

Ale vždy môže prísť niekto kto rozpráva nárečím alebo slangom na ktoré tie modely natrénované nie sú, a program mu nebude rozumieť, tak ako by mu nerozumel ani bežný človek, a porozumie až sa to naučí.

00000101000635330844604609011786090120100901500109015796

mňa by zaujímalo, ako si takéto modely vedia poradiť napr. s prízvukmi v rámci angličtiny, aj tých bežne používaných je viac

×÷ßßß$ˇ~[☼◙ş→☻ü84ó♀ÇüŮń§►♫☺♀♂ć☺<\ˇ

0000010100063533084460460901178609012010090150010901579609015887

No je to zasa tak isto. Ak ich trénuješ na tých prízvukoch, tak sú v tom lepšie. Ale tých dát na trénovanie je málo, lebo nie sú také bežné.
Takže úspešnosť rozoznania slov s prízvukom je trochu nižšia.

Ale keďže google má veľa peňazí, veľa dát atď. takže je dosť pravdepodobné že zahrnul nahrávky s prízvukmi do svojej testovacej sady a rozozná ich celkom dobre.

000001010006353308446046090117860901201009012167

pokial vies ake slova mozes ocakavat tak mozes dosiahnut velmi velmi dobre vysledky za pouzitia specifickeho tzv. language modelu (nazyva sa aj "scorer") ktory pokryva danu slovnu zasobu

pokial nevies ake slova ocakavat tak je to trochu tazsie, tam potrebujes co najviac co najrozmanitejsich dat + nejaky ten vypocetny vykon na vytrenovanie modelu

ale toho vykonu nemusi byt ani vela ked vychadzas z modelov ktore uz existuju a robis tzv. "fine-tuning"

0000010100063533084460460901178609011820

Super, tiez som rozmyslal ze sa tam zapojim so Slovencinou, ale nebol cas.