O projektu
STK portál vznikl jako diplomová práce na Fakultě informačních technologií ČVUT pod záštitou laboratoře otevřených dat OpenDataLab. Portál nabízí informace získané na základě veřejně dostupných dat, která lze vytěžit pomocí statistických metod a strojového učení. Dva hlavní datové zdroje, tj. seznam kontrol na STK a registr vozidel, lze propojit na základě VIN kódu, který známe pro každé vozidlo v registru i každou proběhlou kontrolu. Díky tomu je možné zobrazit historii vozů v ČR a predikovat jejich chování do budoucnosti.
Co je VIN?
VIN (vehicle identification number) je unikátní kód o 17 znacích, který identifikuje konkrétní vozidlo. Aby se předešlo záměně znaků při zhoršení čitelnosti kódu (VIN bývá mimo jiné vyražen do kovových části vozidla, které např. mohou zkorodovat), kód nesmí obsahovat písmena O, I a Q.
VIN se dělí na tyto tři sekce.
- WMI (world manufacturer identifier) je tvořen třemi znaky identifikujícími výrobce. Kód přiděluje stát, ve kterém se nachází hlavní místo podnikání výrobce. Pro výrobce produkující méně než 500 vozidel ročně je posledním znakem vždy 9.
- VDS (vehicle description section) označuje pěti znaky obecné vlastnosti vozidla. Typicky se jedná o model, motorizaci, typ karoserie či výbavu.
- VIS (vehicle indicator section) tvoří osm znaků, z nichž poslední čtyři jsou vždy číslice. Tato sekce slouží ve spojení s ostatními částmi VIN k identifikaci konkrétního vozidla. Nevyužitá místa jsou vyplněna číslicí 0.
Zdrojová data
Datová sada registru vozidel pochází z webu Ministerstva dopravy ČR (MDČR) Datová kostka. Data zde lze procházet přímo ve webovém prohlížeči, anebo si vyžádat export databáze ve formátu CSV. Získaná data jsou anonymizovaná, takže neobsahují např. informaci o majiteli vozu nebo jeho aktuální SPZ. Datová sada obsahuje informace podobné technickému průkazu:
- VIN kód;
- Rok výroby, datum první registrace celkově a v rámci ČR;
- Druh vozidla (např. osobní automobil a poddruh jako hatchback či sedan);
- Tovární značka a obchodní označení (značka a model vozu);
- Stav vozidla (jestli je provozované, zaniklé či třeba vyvezené);
- Stav prohlídky (jaký byl výsledek poslední technické kontroly);
- Technické parametry (barva, motor, spojovací zařízení, ráfky a pneumatiky, emise atd.).
Druhou datovou sadu tvoří seznam všech prohlídek na STK uskutečněných od 1. 1. 2018. Tato data byla získána od MDČR na základě žádosti o poskytnutí informace ve smyslu zákona č. 106/1999 Sb. Jedná se o XML soubory poskytované za každý uplynulý měsíc, které opět neobsahují žádné osobní údaje o provozovateli. K dispozici jsou ke každé kontrole následující atributy:
- VIN kód;
- Základní informace o vozidle jako značka a model, částečně kopírují obsah registru vozidel;
- Datum kontroly;
- Číslo STK;
- Číslo protokolu;
- Druh kontroly (pravidelná, evidenční, silniční apod.);
- Výsledek kontroly (způsobilé, částečně způsobilé či nezpůsobilé);
- Seznam nalezených závad (jejich kódy).
Aby bylo možné zobrazit detaily ke každé stanici, součástí dat je také seznam stanic TK. Ten je k dispozici ke stažení na zde na webu MDČR. Ke každé stanici jsou v tomto MS Excel dokumentu uvedeny kontaktní údaje a adresa. Z ní pak lze najít zeměpisné souřadnice a stanice zobrazit v mapě, kterou najdete v sekci o stanicích.
Aby bylo možné zobrazit číselník závad, z přílohy vyhlášky č. 211/2018 Sb. o technických prohlídkách vozidel byla získána tabulka, která obsahuje seznam všech kontrolních úkonů. Ty odpovídají svým kódem jednotlivým závadám, takže když pomocí vyhledávače v sekci o vozidlech najdete konkrétní vůz, ke každé závadě v jeho historii uvidíte i její název a závažnost.