Olen käymässä Wikimaniassa ja osallistuin eilen Wiki Research Hackaton -työpajaan jonka sisältönä oli esitellä analysointityökaluja joilla voi tutkia Wikipedian sisältöä. Esitellyistä työkaluista varsinkin Quarry oli hyvin mielenkiintoinen, koska se madaltaa raakaan tietokantadataan pääsyn osaamiskynnystä oleellisesti.
Ensimmäinen puhuja oli EpochFail eli Aaron Halfaker. Halfaker on tunnettu Wikipedian käyttäjämäärien kehittymistä koskevista tutkimuksistaan. Työpajassa hän esitteli millaisilla työkaluilla hän analysoi Wikipediaa. Käytännössä miten voidaan käsitellä 50GB+ kokoisia Wikipedian dumppeja. Linkit hänen käyttämiinsä työkaluihin löytyvät täältä.
Toisena YuviPanda kertoi Quarry nimisestä työkalusta jolla voi tehdä selaimesta käsin SQL-hakuja Wikimedia Foundationin tietokantoihin. Teknisesti www-lomakkeelle kirjoitetut SQL-komennot ajetaan Wikimedia Labsissa ja lomake palauttaa tuloksen html tai csv-muodossa. Työkalulla pystyy tekemään samat asiat kuin sielläkin eli tietokantojen väliset liitokset ovat mahdollisia. Rajoituksina kyselyissä on 10 minuutin aikaraja sekä text-taulun puuttuminen. Lisäksi käyttöön tarvitaan käyttäjätunnus johonkin Wikimedia Foundationin Wikiin.
Alla muutamia esimerkkejä hauista
Kolmantena esiteltiin Contropedia (demo), joka visualisoi Wikipediassa tapahtuvia kiistoja. Työkalu kehitettiin osana tutkimusta jossa seurattiin ilmastonmuutokseen liittyvää keskustelua.
Esitykset löytyvät videoituna täältä ja alla on suorat linkit videon sisällä eri henkilöiden esityksiin.
- Aaron Halfaker: Halfak’s Wiki Research Libraries (3min 55sek)
- YuviPanda, Quarry beta (36min 45sek)
- Contropedia (1h 9min 15 sek)