Cez víkend 12. a 13. júla 2014 sa v Bratislave a Brne uskutočnila akcia Open
Scraper Challenge (OSC), ktorú organizovala SOIT v spolupráci s
iniciatívou OpenData.sk. Išlo už o jej druhé opakovanie.
Cieľom OSC je odstraňovanie mreží údajom, ktoré sú uväznené v súboroch vo formátoch rtf a pdf alebo sú porozsýpané po rôznych html stránkach. Takéto údaje sú síce čitateľné pre človeka, ale nie sú použiteľné na ďalšie spracovanie a analýzu. Na to je potrebné, aby údaje mali zrozumiteľnú štruktúru - treba z nich vytvoriť štruktúrovaný dataset.
Účastníci OSC 2014 sa popasovali s viacerými zdrojmi údajov, ktoré sú dostupné na českom a slovenskom webe, a vytvorili z nich nasledujúce štruktúrované datasety:
Vytiahnuté dáta si z horeuvedených odkazov môžete na ďalšie použitie stiahnuť vo formáte sqlite databázy alebo vo formáte csv. Aktuálny a kompletný zoznam zrealizovaných scraperov tiež môžete nájsť na adrese https://morph.io/soit-sk/.
Na adrese scrapers (na) soit.sk vítame akékoľvek otázky, pripomienky či patche k existujúcim
scraperom, či nové scrapery.
Ďakujeme všetkým účastníkom Open Scraper Challenge 2014 a tešíme sa na ďalšie kolo! Ďakujeme aj Marekovi Mahutovi z Red Hatu a Martinovi Habovštiakovi z Progressbaru za pomoc s priestormi a OpenAustralia Foundation za službu Morph, ktorú sme pri scrapovaní využili. Ak niektorý z datasetov vzbudil váš záujem, budeme radi ak nám o tom napíšete na adresu predseda {na} soit.sk.