cwbe coordinatez:
101
63535
8025861
8025872

ABSOLUT
KYBERIA
permissions
you: r,
system: public
net: yes

neurons

stats|by_visit|by_K
source
tiamat
K|my_K|given_K
last
commanders
polls

total descendants::53
total children::6
8 ❤️


show[ 2 | 3] flat


1) Goal of the Task: to develop and optimized methods of alterego detection

2) Submission modalities: a valid submission is to be deposed by mail with the subject "KKEC Task 1 submission" to address daniel at wizzion dot com before the deadline (28.10.2018 (AE48) 00:00 UTC)

3) Content of submission: A valid submission has to contain

  1. The file with a name PARTICIPANT_ID_results.csv where PARTICIPANT_ID is participant's kyberia ID
    The file under question is a standard CSV file of the form

    ID,ALTEREGO_ID

    whereby the first column (ID), contains the ID of the user and the second column the user_id of the alterego. Note that to evit confusion of the terms, ID < ALTEREGO_ID (i.e. ID is always older than his|her alterego)

    C.f. here for an example results.csv file

  2. The file method.txt containing a description of deployed methods. Ideally the description should be such that the given analysis should be reproducible.
  3. Other files (source codes, visualizations)


4) Corpus: data relevant to this task can be downloaded here*. It is a CSV file containing following columns
  • visitor - id of the user who visited node X
  • shuffled_node_id - if of the node X visited by the user (NOTE: these values were randomly shuffled and do not represent actual node_id values stored in kyberia's database, there is, however, a 1 to 1 isomorph mapping between distinct values of actual node_ids and distinct values of shuffled ids)
  • owner - id of user who owned the node X in the moment of dumping
  • visits - number of time the user visited the node X
  • k - whether the user gave K to the node X
  • bookmark - whether X is bookmarked by the user


5) Results will be evaluated by a jury involving at least 5 members and will be published not later than 23.12.2018/AE48

Some useful keywords to start with: normalization, chi-squared test, shannon entropy, temporal sequences, stylometry

* corpus is quite huge: the gzipped version has cca 430 megabytes...given that it contains complete overview of kyberia's K "blockchain", noting down its md5 hash (b26a43cc7f8717945fa3ae0303a58f5a) can also turn out to be useful

Please do not hesitate to cite this URL ( https://kyberia.sk/id/8025872 ) in Your publications .




  • 0000010100063535080258610802587208375869 more children: (1)
  • 0000010100063535080258610802587208298365
    jurov 11.02.2017 - 19:27:20 (modif: 12.02.2017 - 16:06:23) level: 1 UP New Content changed
    Ospravedňujem sa ak som to prehliadol ale ako sa tu dá čokoľvek riešiť bez dobrých tréningových údajov typu "množina o ktorej naisto vieme že sú alterká/spameri", "množina o ktorej naisto vieme že nie sú alterká/spameri"?

    Dopĺňam pre zaujímavosť: na wikipédii robili na toto výskum za rok 2015. Útočné komentáre triedili ručne(!), a aj to len špeciálne vymedzenú kategóriu ad hominem. Okrem iného sa zistilo že tretina útokov pochádza od užíveteľov čo mali viac ako 100 príspevkov. A iba necelých 18% útokov bolo nejako potrestaných. https://arstechnica.com/information-technology/2017/02/one-third-of-personal-attacks-on-wikipedia-come-from-active-editors/

    Je namieste pýtať sa či možno čakať že nejaký tuná vágne zadaný algoritmus dosiahne lepšie výsledky ako moderácia na wikipédii, a ako to vôbec merať? Či sa to nerobí len pre dobrý pocit, že sa niečo robí...alebo žeby aj not invented here syndróm? Existuje spústa ďalších výskumov na túto tému, aj na Slovensku, námatkovo https://dennikn.sk/437931/daju-hejtom-zbohom-slovenski-studenti-vyvinuli-softver-odhalovanie-nevhodnych-komentarov/
    more children: (1)
  • 0000010100063535080258610802587208296957
    je nejaky konkretny dovod pre ktory sa altery povazuju za problem, alebo negativne?

    aspon tak zbrklo prekuknute tuto reakcie. schopnost reagovat sam na seba... nemeni nic v spektre ja a on(a)... co by ste asi tak ziskali ked budete na mna reagovat paralelne z viacerych ID? nech sa paci, demonstrujte. Schopnost si sebe vzajomne udelovat K? K povazujem za bezcenne. Jediny vyznam je ten limit 32 sprav denne, ktore moze byt ovplyvnene vlastnictvom K vo wallete, nie som si vedomy ze by som vyprodukoval viac ako 10 postov za den? a to asi prehanam, na mna aj 5 vela. Ak je niekto schopny davat aj 100vku tak za mna mu to alterego rad doprajem ;)

    tak teda aky je problem?
    more children: (1)
  • 0000010100063535080258610802587208026690
    zoje 29.10.2015 - 15:46:41 (modif: 29.10.2015 - 15:48:01) level: 1 UP New Content changed
    co tak skusit porovnavat ipcky z ktorych sa postupu posty?
  • 0000010100063535080258610802587208026670
    vlku 29.10.2015 - 15:27:51 (modif: 29.10.2015 - 15:30:41) level: 1 UP [2K] New Content changed
    Cvicenie je to pekne, no pouziva velke kladivo na stredne komplikovany task;)
    co takto
    1;) predpoklad ze ludia su lenivy, extremne lenivy. t.j existuje predpoklad ze pouzili rovnaky registracny e-mail
    2;) alterego je fun ale vela ludi sa inym ludom skor ci neskor prizna - scan tabuliek posty na content like 'ahoj, ja som %' (**disclaimer: posta sa citat nema! ale scanovat moze;)
    3;) metoda spolocneho "storage". je ista pravdepodobnost ze ak ID ma private forum (skladisko bordelu), ak je tato teoria spravna je predpoklad ze alterego tam bude mat minimalne access ( ak ma mastra je to plus ;)
    4;) logovat IPcky, vyfiltrovat NAT a pozerat ktore rovnake ID sa prihlasuju z rovnakej IP (**disclaimer: jojo, logovat IP je zlezlezle, ale bol tu uz aj vacsi bordel )
    5;) vyuzit kolektivnu pamet/kolektivnu paranoiu. ludia maju tusaka. cize vyselectovat count na reply na prispevky kde sa vyskytuje string alterego,alterko a pod. Inymi slovami: ziskat zoznam kto reaguje najcastejsie na obvinenie ze je alterego. A potom? napriklad kto ma v prilahlych nodach vela visitz )
    6;) predpokladam ze alterega budu mat dramaticky maly oblem posty...
    7;) rovnake bookmarky ( ale to uz mas podchytene )
    8;) je predpoklad ze alterego nebude mat ignore na usera na ktoreho povodne ID ma ( pretoze vsetci sme v kutiku duse kryptopokrytci:)
    9;) je predpoklad ze alterego stalkuje povodne ID, da sa to vidiet v node_visits
    10;) je predpoklad, ze trollovacie alterego bude prihlaseny v rovnaky cas ako povodne ID.

    nuz v ramci ze istym sposobom je "sutaz" (nebo li outsourcing ) zalozena na non-private datach je pochopitelny tvoj approach nebo li "gameska" ci jak to chces/chceme nazvat..

    more children: (1)
  • 0000010100063535080258610802587208026428
    Prospero 29.10.2015 - 11:05:39 (modif: 29.10.2015 - 11:52:49) level: 1 UP [5K] New Content changed
    TTčka (trdielka tunelárske) sú alteregá primárne vytvorené za účelom Kčkovania (pripadne likeovania ci retweetovania) príspevkov ktorých autorom je pôvodné id.

    Da sa ockavat ze najnaivnejsie trdielka by mohli byt detekovane skriptom ako je napr. tento:


    my %h;
    while (<>) {
    if (/(d+)td+t(d+).*yes$/) {
    exists $h{$2}{$1} ? ($h{$2}{$1}++) : ($h{$2}{$1}=1);
    }
    }

    for my $v (keys %h) {
    my @r=keys %{$h{$v}};
    if (@r<=2) {
    print "$v,".$r[0].",".$h{$v}{$r[0]}."n";
    print "$v,".$r[1].",".$h{$v}{$r[1]}."n";
    }
    }


    Inac povedane: skript v jednom priebehu natiahne do hashu informaciu o tom kto komu dal Kcka a nasledne vytriedi iba tie pripady kedy DONOR (mozne alterko) za celu svoju existenciu na kybci kckoval prispevky maximalne dvoch* PRIJEMCOV

    Vypadne z toho zoznam ktory po zosortovani podla "intenzity podpory" (i.e. podla poctu udelenych K) obsahuje na najvyssich prieckach nasledovne dvojice:

    DONOR,PRIJEMCA,GIVEN_Ks
    3462628,3393029,21
    1908044,1788167,10
    2167,415,10

    (vsimni si ze prvi dvaja donori maju zatvoreny profil)

    Celkovo je možno potešujúcim zistením že na kyberii TTčka niesú tak aktívne ako napr. schránkové firmy v slovenskej politike

    Khoda Hafez

    * 2 je samozrejme prahova hodnota ktora sa da vytunit na 12om riadku skriptu...jej navysenim sa rozsiruje mnozina moznych kandidatov, napr.

    4239045,1240550,19

    ale tiez sa aj zvysuje pravdepodobnost detekcie false positives, e.g. "oddanych fandov", ako je tomu, dufam, napr. v tretom riadku vyssie uvedeneho zoznamu, resp. v nasledovnom pripade:

    4392390,656962,11

    ehm ;)
    more children: (5)