Open Scraper Challenge 2014

Cez víkend 12. a 13. júla 2014 sa v Bratislave a Brne uskutočnila akcia Open Scraper Challenge (OSC), ktorú organizovala SOIT v spolupráci s iniciatívou OpenData.sk. Išlo už o jej druhé opakovanie.

Cieľom OSC je odstraňovanie mreží údajom, ktoré sú uväznené v súboroch vo formátoch rtf a pdf alebo sú porozsýpané po rôznych html stránkach. Takéto údaje sú síce čitateľné pre človeka, ale nie sú použiteľné na ďalšie spracovanie a analýzu. Na to je potrebné, aby údaje mali zrozumiteľnú štruktúru - treba z nich vytvoriť štruktúrovaný dataset.

Účastníci OSC 2014 sa popasovali s viacerými zdrojmi údajov, ktoré sú dostupné na českom a slovenskom webe, a vytvorili z nich nasledujúce štruktúrované datasety:

Vytiahnuté dáta si z horeuvedených odkazov môžete na ďalšie použitie stiahnuť vo formáte sqlite databázy alebo vo formáte csv. Aktuálny a kompletný zoznam zrealizovaných scraperov tiež môžete nájsť na adrese https://morph.io/soit-sk/.

Na adrese scrapers (na) soit.sk vítame akékoľvek otázky, pripomienky či patche k existujúcim scraperom, či nové scrapery.

Ďakujeme všetkým účastníkom Open Scraper Challenge 2014 a tešíme sa na ďalšie kolo! Ďakujeme aj Marekovi Mahutovi z Red Hatu a Martinovi Habovštiakovi z Progressbaru za pomoc s priestormi a OpenAustralia Foundation za službu Morph, ktorú sme pri scrapovaní využili. Ak niektorý z datasetov vzbudil váš záujem, budeme radi ak nám o tom napíšete na adresu predseda {na} soit.sk.

Publikované 23.07.2014