Automatic Speech Recognition :: Remember, remember, the velvet November


node:	Automatic Speech Recognition
template:	13
parent:	Veda a technologie
owner:	Prospero
viewed by:
created:	19.01.2018 - 12:44:35
updated:	19.01.2018 - 13:15:44

cwbe coordinatez:
101
63533
8446046

ABSOLUT
KYBERIA

permissions
you:	r,
system:	public
net:	yes

bloody	0
rucho	0
Burning A	0
CARBON IN DI...	0
mateno	0
tp	0
kiwo	0
mirex	0
kyberbubus	0
maniac	0
Prospero	0
RataFuck von...	0
Indalam	0
superpussy	0
huno	0
risko	0
čo	2
mwt	2
L4ky	2
Lester	5
asety	5
ewenka	5
tulenya	7
Thanatos	7
september	7
cocacoala	10
ode	10
paskudnyk	11
darkforce	11
grzegorz brz...	11
kredenc	11

Forum o strojovom rozpoznavani reci.

Ak mate skusenosti s platformami ako Sphinx, Julius alebo Kaldi, tak sem s nimi.

Dominantne ASR systemy:
http://kaldi-asr.org/
https://github.com/julius-speech/julius
https://cmusphinx.github.io/

Hotword detection:
https://snowboy.kitt.ai/ (Snowboy Vam pobezi an Raspberry PI, bohuzial Vam vsak neumoznuje vytrenovat si vlastne modely a nuti Vas - podobne ako Apple ci Google - outsourcovat Vase hlasove data korporacii)

Datasety:
http://www.voxforge.org/

Ciel fora :: Vytvorenie vlastnych akustickych a jazykovych modelov.

00000101000635330844604609176136

(je možno na to lepšie fórum, ale skúsim začať tu)

mám asi 14 hodín záznamu z rokovaní, ktoré by som potreboval previesť na text
jazyk je čeština a občas slovenčina, speakerov je tam asi 5 dokopy a kvalita je taká, ako z diktafónu na stole

snažil som sa kúsok z toho rozoznať cez google speech to text api, ale nedarí sa mi dôjsť k výsledku. je tu niekto, kto s tým má nejakú skúsenosť, venuje sa tomu profesionálne a vedel by mi prípadne poradiť/pomôcť?

alternatívou je najať pár ľudí na pár hodín (jedného človeka na 20 hodín alebo 20 ľudí na hodinu:), aby to prepísali, ale po úspechoch s ChatGPT chcem dať šancu zarobiť aj našim budúcim robotickým overlordom

00000101000635330844604609043530

First major article more closely describing the concept of "human-machine peer learning" in practical Artificial Intelligence in Education scenario has just been published in a Curriculum & Pedagogy section of peer-reviewed journal Frontiers in Education.

Carrying a title "Proof-of-concept of feasibility of human–machine peer learning for German noun vocabulary acquisition", the article provides first empiric evidence of feasibility of educational scenarios where humans and machines learn with - and from - each other. In a particular case more closely described in the article, human H learns foreign language vocabulary while the machine m increases its ability to accurately process H's voice.

Open access available at https://www.frontiersin.org/articles/10.3389/feduc.2023.1063337/full .

Za pripadne paciky ci repost tu velka vdaka: https://www.linkedin.com/posts/dhromada_proof-of-concept-of-feasibility-of-humanmachine-activity-7033802062341513217-xXzK

00000101000635330844604609023876

https://kinit.sk/diacritics-restorer-automatic-diacritics-restoration-for-your-online-documents-in-slovak/ (hrdia sa 99% uspesnostou)
https://diakritikovac.kinit.sk/

0000010100063533084460460902387609023997

len som to prebehol, ale rychla otazka: Jazykovedny ustav Ludovita Stura na SAV ma lepsi engine ako tento uz niekolkorocny startup?

000001010006353308446046090238760902399709024095

Podľa čísel sa zdá že áno, asi trénovali na lepších/viac dátach.

00000101000635330844604609011786

Minulý týždeň som vrámci súťaže "our voices" od Mozilla Foundation jemne pretrénoval už existujúci deepspeech-cs model na slovenské common voice dáta.

Výsledok je tu: https://github.com/hromi/our-voices-model-competition/tree/main/submit/Variant_Accent_Dialect/SlovakoCzech-band-C

nieje to perfektné - a ani nikdy nebude - ale pokiaľ Tvojou ambíciou nieje mať dokonalý rozpoznávač reči ktorý funguje pre všetkých, vo všetkých prostrediach a pre všetky výrazy- ale skôr niečo čo funguje dostatočne dobre pre Teba a Tvojich najbližších, a beží rýchlo aj na RaspberryPi, tak je to istotne užitočný odrazový mostík

(v release sú aj checkpoint súbory takže kludne môžeš model fine-tuniť na svoj vlastný hlas)

njoy

edit: ak si na githube a zadelíš mi hviezdičko alebo vidličko a ak náhodou v tej súťaži vyhrám platím Ti nejaké to IPA pivečko

0000010100063533084460460901178609024921

Ahoj Hromi, robil si k tomu aj nejaký quickstart alebo demo? Chceme to tweaknuť na robocalling4good pri obvolávaní seniorov, aby prišli na vzdelávanie do miestnej knižnice.

000001010006353308446046090117860902492109025192

Ahoj,

tu si stiahnes natrenovanu neuronku (tzv. akusticky model): https://github.com/hromi/our-voices-model-competition/releases/download/v0.0.1/sk-focused-model.tgz

V zavislosti od toho ako ten rozpoznavac chces pouzit si stiahnes alebo vytvoris tzv. "jazykovy model", nazyvany aj scorer. Ak chces vseobecny prepisovac do textu, mozes si stiahnut tento scorer https://github.com/hromi/our-voices-model-competition/releases/download/v0.0.1/sk-all.scorer

ale ak to cele chces pouzit na nieco jednoduchsie, napr. v kontexte kde vies ake odpovede od klientov dostanes, odporucam vytvorit si vlastny mini-scorer, dost tym zvysis presnost celej veci.

Ak chces nasledne bezaz celu vec na stroji kde mozes instalovat python kniznice, pouzi coqui https://stt.readthedocs.io/en/latest/ alebo nieco podobne

abych Ti mohol poradit viac tak by som potreboval vediet presny use case

0000010100063533084460460901178609012010

Co je potrebne, aby tieto tooly vedeli proste trafit 90+ % slov a fungovat ako presny-ish translator jazykov - aj takych komplikovanejsich? Je to iba o hrubej vypocetnej sile?

000001010006353308446046090117860901201009015001

Za Speech-to-text:
Hrubú silu + veľa pamäte na ktorej to bude bežať + veľmi veľa zozbieraných dát (audio + textový prepis) na ktorých vytrénuješ ten jazykový model + každý rok vychádzajú vylepšené software ktoré vedia lepšie používať a rozoznávať jazyky.

90+ % už existuje, má ho google, pokiaľ viem má teraz 94% pre dobre pokrytý jazyk akým je angličtina.

Ale vždy môže prísť niekto kto rozpráva nárečím alebo slangom na ktoré tie modely natrénované nie sú, a program mu nebude rozumieť, tak ako by mu nerozumel ani bežný človek, a porozumie až sa to naučí.

00000101000635330844604609011786090120100901500109015796

mňa by zaujímalo, ako si takéto modely vedia poradiť napr. s prízvukmi v rámci angličtiny, aj tých bežne používaných je viac

×÷ßßß$ˇ~[☼◙ş→☻ü84ó♀ÇüŮń§►♫☺♀♂ć☺<\ˇ

0000010100063533084460460901178609012010090150010901579609015887

No je to zasa tak isto. Ak ich trénuješ na tých prízvukoch, tak sú v tom lepšie. Ale tých dát na trénovanie je málo, lebo nie sú také bežné.
Takže úspešnosť rozoznania slov s prízvukom je trochu nižšia.

Ale keďže google má veľa peňazí, veľa dát atď. takže je dosť pravdepodobné že zahrnul nahrávky s prízvukmi do svojej testovacej sady a rozozná ich celkom dobre.

000001010006353308446046090117860901201009012167

pokial vies ake slova mozes ocakavat tak mozes dosiahnut velmi velmi dobre vysledky za pouzitia specifickeho tzv. language modelu (nazyva sa aj "scorer") ktory pokryva danu slovnu zasobu

pokial nevies ake slova ocakavat tak je to trochu tazsie, tam potrebujes co najviac co najrozmanitejsich dat + nejaky ten vypocetny vykon na vytrenovanie modelu

ale toho vykonu nemusi byt ani vela ked vychadzas z modelov ktore uz existuju a robis tzv. "fine-tuning"

0000010100063533084460460901178609011820

Super, tiez som rozmyslal ze sa tam zapojim so Slovencinou, ale nebol cas.

00000101000635330844604608963093

Gentlemen & Ladies, I am honored to introduce You the lesen-mikroserver project:
https://github.com/hromi/lesen-mikroserver

Feel free to star, fork, develop, contribute and whatever

0000010100063533084460460896309308967694

cool, ukaz nejake demo ... manual je to readme? ci prehliadol som ho?

00000101000635330844604608920539

Predpokladám že niektor(í|é) z vás si všimli červený banner "Fostering Reading Acquisition with Digital Tools" ktorý bol do dnešného dňa zavesený na hlavnej stránke.

Banner viedol na túto adresu: https://digieduhack.com/en/digieduprimer kde je popísaný hackathon na ktorého organizácii už pár mesiacov pracujem a ktorý sa má začať tento útorok o desiatej ráno tu https://fibel.digital/main

Napriek tomu že event propagujem kde sa dá, stále sa mi nedarí dosiahnuť počet účastníkov ktorý by sa blížil ku kritickej hodnote kde strojové učenie umožní, že sa začnú diať veci nevídané a začnú byť čuté veci dosiaľ nepočuté...

Možno je to spôsobené tým že už nejaký ten piatok žijeme v svete kde elán vital akýmsi záhadným spôsobom mizne v /dev/null ale možno aj tým že neviem robiť promo...

Tak či onak, chcel by som Ťa/Vás poprosiť, pokiaľ máš v utorok chvíľu čas a nieje Ti ľahostajná gramotnosť žiakov doby (post)covidovej, aby si zaregistroval(a) tu: https://digieduhack.com/en/participate?organisation_id=612 *

Je možné vyhrať aj nejaké tie ceny, ako na úrovni "reading fostering challenge" ktorú organizujem ja, tak na európskej úrovni (5000 eur).

Vďaka za pozornosť
Daniel

* ak sa Ti nechce registrovať ale stále chceš byť pritom ako anonymná dobromyseľ, tak vedz že súradnice verejnej matrix miestnosti sú #event-digieduprimer:m3x.baumhaus.digital...ak do matrixu ešte prístup nemáš tak sa mi ozvi do pošty, rád Ti jeden vytvorím

00000101000635330844604608837762

COVID-19 Artificial Intelligence Diagnosis Using Only Cough Recordings
https://ieeexplore.ieee.org/document/9208795

Goal: We hypothesized that COVID-19 subjects, especially including asymptomatics, could be accurately discriminated only from a forced-cough cell phone recording using Artificial Intelligence. To train our MIT Open Voice model we built a data collection pipeline of COVID-19 cough recordings through our website (opensigma.mit.edu) between April and May 2020 and created the largest audio COVID-19 cough balanced dataset reported to date with 5,320 subjects. Methods: We developed an AI speech processing framework that leverages acoustic biomarker feature extractors to pre-screen for COVID-19 from cough recordings, and provide a personalized patient saliency map to longitudinally monitor patients in real-time, non-invasively, and at essentially zero variable cost. Cough recordings are transformed with Mel Frequency Cepstral Coefficient and inputted into a Convolutional Neural Network (CNN) based architecture made up of one Poisson biomarker layer and 3 pre-trained ResNet50's in parallel, outputting a binary pre-screening diagnostic. Our CNN-based models have been trained on 4256 subjects and tested on the remaining 1064 subjects of our dataset. Transfer learning was used to learn biomarker features on larger datasets, previously successfully tested in our Lab on Alzheimer's, which significantly improves the COVID-19 discrimination accuracy of our architecture. Results: When validated with subjects diagnosed using an official test, the model achieves COVID-19 sensitivity of 98.5% with a specificity of 94.2% (AUC: 0.97). For asymptomatic subjects it achieves sensitivity of 100% with a specificity of 83.2%. Conclusions: AI techniques can produce a free, non-invasive, real-time, any-time, instantly distributable, large-scale COVID-19 asymptomatic screening tool to augment current approaches in containing the spread of COVID-19. Practical use cases could be for daily screening of students, workers, and public as schools, jobs, and transport reopen, or for pool testing to quickly alert of outbreaks in groups. General speech biomarkers may exist that cover several disease categories, as we demonstrated using the same ones for COVID-19 and Alzheimer's.

00000101000635330844604608796737

Kaldi sa transformuje na K2, ktore bude postavene viac na Pythone, prebiehaju diskusie o tom kam sa ma uberat.

Info, a videonahravky diskusii:
https://www.kaldi.dev

1. Kaldi ASR: Research and Academic Users
2. Kaldi ASR: Applications and Industry Users
3. Deep Learning Frameworks: Trends and Outlook

00000101000635330844604608744197

https://github.com/ottokart/punctuator2
A bidirectional recurrent neural network model with attention mechanism for restoring missing inter-word punctuation in unsegmented text.

How well does it work?
* A working demo can be seen here: http://bark.phon.ioc.ee/punctuator
* You can try to compete with this model here: http://bark.phon.ioc.ee/punctuator/game

Trénujeme teraz modely pre Francúžštinu a Nemčinu, ale trvá to sakra dlho... veľa pokusov a omylov. Na malých korpusoch nie sú výsledky uspokojivé, a na veľkých korpusoch aa nedá odhadnúť ako dlho bude to trénovanie trvať (koľko dní na výkonnom 8-jadre).

00000101000635330844604608741705

Pohľad firmy DataIku na to, ako sa bude vyvíjať zmena pozícií AI a Machine Learning odborníkov, a ako sa bude vyvíjať biznis:
2020_ai_trends_for_the_new_decade_data_iku.pdf (5mb pdf)

src: https://blog.dataiku.com/whats-hot-2020-ai-trends

edit: oprava linku.

00000101000635330844604608570447

Hello world,

hlada sa niekto, kto mi pomoze s vytvorenim digitalneho slabikara pre deti prveho stupna zakladnej skoly. Vcera bola zverejnena oficialna vyzva, deadline na odovzdanie podkladov (LoI, CV etc.) je 19. december.

Dvojtretinovy uvazok, nastupny tabulkovy plat tu: http://oeffentlicher-dienst.info/c/t/rechner/tv-l/berlin?id=tv-l-berlin&g=E_13&s=1&zv=VBL&z=67

Tu je text vyzvy:
https://www.udk-berlin.de/fileadmin/2_dezentral/FR_Stellenausschreibungen/Anz_2_1530_18_ohne_Link.pdf

Vyzva je sice po nemecky, ale znalost nemciny nieje podmienkou, staci dobra anglictina...

Nutnou podmienkou je ukoncene vysokoskolske vzdelanie (staci Master).

Verim ze sa s niekym z Vas uvidim na pohovore.
D.

P.S. pripadne otazky rad zodpoviem na dh@udk-berlin.de, na kybci teraz lockout

00000101000635330844604608551251

Keby si niekto chcel zbastlit vlastny ASR, tak tuto ::
https://github.com/dspavankumar/compute-mfcc

treba. IMHO, zacat.

00000101000635330844604608532682

na https://voice.mozilla.org/en/data je fajn multiGB dataset, a tiez je tam par zaujimavych linkov na externe veci, Librispeech ( https://www.openslr.org/12 ) a Voxforge ( http://www.repository.voxforge1.org/downloads/SpeechCorpus/Trunk/ ) uz som poznal, ale aj to TED-lium vyzera fajne (54GB!!!)

hlavne mi vsak urobil radost ten tatoeba project https://tatoeba.org/eng/downloads , pretoze je

1) viacjazycny (napr. pre nemcinu je tam > 16 tisic nahravok)
2) sentence-based (t.j. co nahravka, to veta ... a to je takmer uplne idealna situacia pre trenovanie TTS / ASR systemov)

00000101000635330844604608478848

https://www.root.cz/zpravicky/pro-cesky-common-voice-uz-se-sbiraji-nahravky-pridejte-se

Flicker
Żubr żuł żuchwą żurawinę

00000101000635330844604608467052

vybornyy clanok, odporucam
https://www.lupa.cz/clanky/tomas-mikolov-facebook-siri-cortana-ci-alexa-jsou-hloupe-zapadu-muze-ve-vyvoji-ai-ujet-vlak/

Flicker
Żubr żuł żuchwą żurawinę

00000101000635330844604608457109

skusali ste niekto https://github.com/buriburisuri/speech-to-text-wavenet ?

00000101000635330844604608447141

https://theintercept.com/2018/01/19/voice-recognition-technology-nsa/

00000101000635330844604608446350

00000101000635330844604608446093

Mimochodom, mame 1,5 cloveka ktori na plny uvezok pracuju na hladani co najlepsieho modelu, treningu modelov, porovnavanie word-error-rate a hladanie optimalnych parametrov. A iba pre anglictinu to trvalo povedzme rok, kym to bolo take, ako by sme chceli. Teda dobry kompromis medzi kvalitou a velkosti v pamati.

TLDR: trenovanie modelu po vikendoch bude trvat sakra dlho.

edit: a este k tomu ludia okolo Kaldi stale vynachadzaju nove 'recipees' alebo pristupy ako pouzit vyhladavanie cez neuronove siete, aj.

00000101000635330844604608446089

V praci vyvijame software s voice-recognition (a viac o nom nemozem povedat), pred rokom sme presli z home-made-algoritmu na Kaldi. Kompilovane hlavne na windows c++ 64bit s visual studiom, ale budeme to pouzivat aj pre linux.

Pouzivame zavislosti OpenBlas (IntelMKL sme opustili, komercny, vacsie binarky a vykon sa zda byt rovnaky), OpenFst a Pthreads (v novej verzii ho uz zda sa netreba)

Preco myslis ze je Atlas najlepsia moznost? Merania ludi ukazuju ze OpenBlas ma lepsi vykon
https://groups.google.com/forum/#!topic/kaldi-help/NIgYFK64lk8
http://gcdart.blogspot.sk/2013/06/fast-matrix-multiply-and-ml.html

No a na trenovanie kvalitnych modelov s nizkym word-error-rate treba zial velmi vela hodin hovoreneho slova + textoveho prepisu. A pre slovensky jazyk toho asi nie je dost. Niekto mi hovoril ze je vhodne mat tak 100 hodin.

Je tu velmi pekny projekt od mozzily, zatial iba anglicky korpus, ale 254 hodin!
https://voice.mozilla.org/

0000010100063533084460460844608908450047

a daju sa na to pouzit nahovorene knihy napriklad?
tam y sa dalo nazbierat nejake hodiny, ci ?

Flicker
Żubr żuł żuchwą żurawinę

There are currently 9863 K available in
2nd Guild's K-treasury.

get 1 🦆 for 5 🐘
get 1 🐘 for 1 🦆

dendrite ponuka prace :: hlada sa Wissenschaftliche Mitarbeiter(in) na Berlin University of the Arts
dendrite COVID-19 Artificial Intelligence Diagnosis Using Only Cough Recordings
dendrite Čítanka pre urodzené slečny, level 0
dendrite speech to text
dendrite 07.03.2018-14:56:02
axone main
axone neuronove siete
axone machine learning - practical. Marketing, content monetization
axone forumz
axone umela inteligencia