4.1 Tiedonhaku tietovarannoista

Moniin kilpailutöissä hyödynnettyihin tietovarantoihin on pääsy tietovarantokohtaisten rajapintojen (API) ja rajapintapalveluiden kautta. Aina ei kuitenkaan ole olemassa valmiita rajapintoja halutun datan koneellista noutoa varten. Tällöin joudutaan hakemaan (HTML-) sivu sellaisenaan ja etsimään haluttu tieto sivun sisältä. Kilpailutöissä on tehty melko paljon screen scraping –tekniikalla tiedon  ”louhintaa” verkkosivuilta, mikäli tietovarantoon ei ole ollut pääsyä jonkin rajapinnan kautta. Screen scraping (tai web scraping) on tekniikka, jolla scraper-ohjelma kerää tietoa toisen ohjelman tulosteesta: verkkosivujen tapauksessa sivuilla olevaa tietoa kerätään ohjelmallisesti koneluettavaan muotoon esim. taulukkoon tai tietokantaan. Kilpailutöistä esimerkiksi Kansanmuisti.fi käy näin läpi eduskunnan sivuja ja duunitori.fi työvoimaviranomaisten sivuja.

Luvun sisältö ▫ Seuraava kohta

Jaa Facebooktwittergoogle_pluslinkedinmail
Seuraa Facebooktwitter