Cez víkend 12. a 13. júla 2014 sa v Bratislave a Brne uskutočnila akcia Open
Scraper Challenge (OSC), ktorú organizovala SOIT v spolupráci s
iniciatívou OpenData.sk. Išlo už o jej druhé opakovanie.
Cieľom OSC je odstraňovanie mreží údajom, ktoré sú uväznené v súboroch vo formátoch rtf a pdf alebo sú porozsýpané po rôznych html stránkach. Takéto údaje sú síce čitateľné pre človeka, ale nie sú použiteľné na ďalšie spracovanie a analýzu. Na to je potrebné, aby údaje mali zrozumiteľnú štruktúru - treba z nich vytvoriť štruktúrovaný dataset.
Účastníci OSC 2014 sa popasovali s viacerými zdrojmi údajov, ktoré sú dostupné na českom a slovenskom webe, a vytvorili z nich nasledujúce štruktúrované datasety:
Vytiahnuté dáta si z horeuvedených odkazov môžete na ďalšie použitie stiahnuť vo formáte sqlite databázy alebo vo formáte csv. Aktuálny a kompletný zoznam zrealizovaných scraperov tiež môžete nájsť na adrese https://morph.io/soit-sk/.
Na adrese scrapers (na) soit.sk vítame akékoľvek otázky, pripomienky či patche k existujúcim
scraperom, či nové scrapery.
Ďakujeme všetkým účastníkom Open Scraper Challenge 2014 a tešíme sa na ďalšie kolo! Ďakujeme aj Marekovi Mahutovi z Red Hatu a Martinovi Habovštiakovi z Progressbaru za pomoc s priestormi a OpenAustralia Foundation za službu Morph, ktorú sme pri scrapovaní využili. Ak niektorý z datasetov vzbudil váš záujem, budeme radi ak nám o tom napíšete na adresu predseda {na} soit.sk.
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |