Suomi tunnetaan tuhansien järvien ja saarien maana. Iso osa saarista on merellä rannikolla ja keskeisessä asemassa ruotsalaiselle Suomelle – ja näin ollen kiinnostuksen kohde Projekt Fredrikalle. Miten Wikipedian tietoa saaristosta voisi jatkokehittää suomeksi, ruotsiksi ja muillakin kielillä?
Saarien nykytila
Suomenkielisessä Wikipediassa artikkeleita saarista on 880 merialueilla ja 335 sisävesillä. Ruotsiksi vastaavat luvut ovat 17 235 (merellä) ja 23 219 (sisävesillä). Englanniksi, saksaksi ja muilla kielillä luvut ovat huomattavasti pienemmät. Jos googlettaa jonkun Suomen tuhansista saarista, niin hakutuloksiin saa melko todennäköisesti ruotsinkielisen Wikipedian artikkelin.
Ruotsinkielisen Wikipedian artikkelit on luotu botilla useampi vuosi sitten. Lsjbot laski algoritmilla maastodatasta saarien koordinaatit, pinta-alan, korkeimman korkeuden ja muita tietoja, ja yhdisti näistä sivut. Saarien tiedot ovat siis “aika hyviä”, mutta vailla virallista lähdettä.
Lsjbotin artikkelit voidaan mieltää ruotsinkielisen Wikipedian asiaksi, mutta tiedot ovat myös päätyneet kieliriippumattomaan Wikidataan ja ovat siten osa Suomen maantiedettä Wikidatassa.
Artikkeleiden jatkokehitys ja hyödyt
Rannikon saarien artikkeleita voisi jatkokehittää monelta kannalta. Ensinnäkin olisi hienoa saada pois “automaattisesti luotu”-varoituskyltti jokaiselta ruotsinkieliseltä sivulta – tämä vaatisi tarkistustyötä ja tietojen verifiontia.
Lisäksi ruotsinkielisen saariartikkelin kartta on niin laaja, ettei se kerro paikalliselle mitään saaren tarkasta sijannista Suomen rannikolla. Itse artikkeleita voisi myös parantaa lisäämällä tietoa yhteysaluksista, saaren historiasta, asutuksesta, nimen lausumisesta, ja muusta – osa on mahdollista tehdä botilla, osa vaatii käsityötä. Fredrika on listannut näitä ajatuksia Nauvon saarien projektisivulle ruotsiksi ja suomeksi.
Suomenkielisten olemassa olevien artikkeleiden tietoikkunoita olisi syytä yhtenäistää. Suurimmille, merkittävimmille saarille voisi luoda automaattisesti botilla tarpeeksi hyvät suomenkieliset tyngät, jotka mahdollistaisivat artikkeleiden laajentamisen myöhemmin. Esimerkkinä tyngästä ja tietoikkunasta olemme luoneet artikkelin Högsar.
Lisäksi saarien linkittäminen OpenStreetMapissa Wikidataan mahdollistaisi dynaamisien karttojen esittämisen artikkeleiden tietoikkunassa. Linkitys avaisi uusia mahdollisuuksia hyödyntää kokonaisvaltaisesti OSM:n, Wikidatan, Wikipedian ja Wikimedia Commonsin avointa dataa saaristosta.
Virallinen lähde
Jatkokehitystä ja bottiajoja jarruttaa se, ettei Lsjbotin luomia tietoja ole verifioitu, eikä saaria ole yhdistetty virallisen lähteen uniikkiin tunnisteeseen. Isomman artikkelimäärän luominen suomeksi ja muilla kielillä Lsjbotin tietojen perusteella ei ole perusteltua.
Maalaisjärjen mukaan saaren perustietojen lähteenä pitäisi käyttää Maanmittauslaitoksen tai SYKEn tietoja (kuten järvi- ja meriwiki). Maanmittauslaitoksen tietokorteissa on tällä hetkellä tarjolla ainakin koordinaatit ja uniikki tunniste (esim Högsar, 10303715), mutta ei muuta Lsjbotin aikanaan laskemaa tietoa, kuten pinta-ala. Hyvä alku, mutta toivon mukaan Maanmittauslaitos tai muu virallinen taho alkaisi tarjoamaan lisää tietoa saarista.
Saaren olemassa olon vahvistaminen
Voisiko olemassa oleville Wikidatan saarille lisätä Maanmittauslaitoksen tunnisteen (P4119) ja siten edes vahvistaa niiden olemassaoloa? Minkälainen työ se olisi?
Vertasimme valitun alueen saarien koordinaatteja Wikidatassa Maanmittauslaitoksen APIsta saataviin koordinaatteihin (käyttämämme python-koodi). Rajasimme Wikidatan tiedot entisen Nauvon kunnan alueelle, koska sen alueella on paljon saaria ja meillä on henkilökohtaista kokemusta alueesta. MML:n tietoa pystyimme rajaamaan Paraisten kuntaan sekä “Saari tai luoto” ja “Saari- tai luotoryhmä” luokituksien avulla.
Wikidatan Nauvon 1214 saarelle löytyi nimen perusteella Maanmittauslaitoksen tiedoista
– yksiselitteinen vastinpari 732 saarelle,
– useampi vastinpari 378 saarelle ja
– 104 saarta ilman vastinparia.
Etäisyys Wikidatan ja Maanmittauslaitoksen koordinaateissa oli 732 yksiselitteisillä vastinparilla:
– yli 1000 metrin etäisyys 8 saarella
– 10-1000 metriä: 54 saarta
– 0-10 metriä: 681 saarta
Yli 1000 metrin etäisyydet eivät tarkoittaneet väärää tietoa Wikidatassa, vaan API-haku oli erinäisistä syistä palauttanut väärän saaren Maanmittauslaitoksen tiedoista.
Näillä tiedoilla voisi luottavaisin mielin lisätä 0-10 metrin etäisyydellä oleville 681 saarelle Maanmittauslaitoksen koordinaatit käyttäen Maanmittauslaitosta lähteenä.
Suurimman tarkastustyön ennen lähteen lisäämistä aiheuttaisi useamman vastinparin saaneet (378 saarta) ja ilman vastinparia jääneet (104 saarta) – mutta sekään ei ole mahdotonta.
Mitä sitten? Kysymyksiä lukijalle
Onko suuressa tarkastustyössä ja Maanmittauslaitoksen tunnisteen (P4119) lisäämisessä järkeä? Antaisiko tunniste toivottavaa pohjaa uusien artikkeleiden luomiselle?
Jos saariartikkeleita luotaisiin botilla suomeksi, mitä ominaisuuksia artikkeleilta toivotaan? Mikä on pienin artikkelitynkä mitä sallitaan – onko Högsar sopiva? Missä vedetään raja saaren merkittävyydelle – saaren koko?
Tarvitaanko tarkempaa ja luotettavampaa tietoa saarista? Suomen järvistä on saatavilla tarkkaa valmista tietoa järvi & meri-wikissä, mm. järvien pinta-aloista. Ei vaatisi kuin geometrista matematiikkaa, että samaa voisi tarjota saarista, mutta kenen toimesta ja miten? Miten voisi kehottaa esimerkiksi Maanmittauslaitosta laskemaan ja tarjoamaan tietoa?
Oma lukunsa on saarien ääriviivat OSM:ssä, joissa olisi paljon parantamisen varaa. Ääriviivoja voisi mieluiten parantaa automaattisella ajolla Maanmittauslaitoksen karttatietojen avulla manuaalisen piirtämisen sijaan. Kenen toimesta tämä onnistuisi?
Projekti- ja keskustelusivut
Lisää aiheesta Kahvihuoneessa sekä Nauvon saarien projektisivuilla ruotsiksi ja suomeksi.