2 hlavne zdroje su nejaky wordlist z opensubtitles slovenskych tituliek, a druhy wikipedia
N = N_SUBS + N_WIKI
zaujimave su najma tie rozdiely, ze niektore slova sa pouzivaju len v subtitles, a niektore len na wiki :)
select * from word2 order by n desc limit 10
WORD
N
N_SUBS
N_WIKI
a
824912
189462
635449
v
790766
108932
681833
je
639788
238033
401754
sa
635631
242581
393049
na
466848
146872
319975
to
365449
327146
38302
si
216814
194291
22522
s
203466
64268
139197
ako
192420
83907
108512
z
189312
41845
147466
select * from word2 where n_wiki < 10 order by n_subs
WORD
N
N_SUBS
N_WIKI
ďakujem
13112
13106
5
ahoj
10966
10961
4
poďme
9928
9926
1
poď
9830
9822
7
myslíš
8657
8650
6
bože
8089
8083
5
robíš
6429
6424
4
choď
6259
6250
8
prepáčte
5971
5969
1
prepáč
5841
5840
0
select * from word2 where n_subs < 10 order by n_wiki desc limit 10