Každý deň pribudne na svete toľko dát, ako vzniklo od začiatku civilizácie do roku 2003
Všetky dáta majú skrytú hodnotu, musíme sa ju však naučiť nájsť, vysvetľuje analytička dát VIERA ROZINAJOVÁ z FIIT STU.
Koľko digitálnych dát je na svete?
„Aby sme si vedeli predstaviť rýchlosť pribúdania dát v súčasnosti, môžeme citovať bývalého šéfa Googlu Erica Schmidta, ktorý ešte v roku 2010 povedal, že každé dva dni ľudstvo vyprodukuje toľko dát, ako vyprodukovalo od počiatku civilizácie po rok 2003. To číslo sa, samozrejme, stále zvyšuje a objem dát exponenciálne narastá.“
Žijeme v digitálnej ére nastal prudký nárast objemu digitálnych dát. V spojitosti s tým sa často hovorí o veľkých dátach. Čo to je?
„Je to téma posledných pár rokov. K ich vzniku prispeli moderné technológie, najmä rôzne senzory, mobilné telefóny, sociálne siete a celkový nárast webových služieb. V každej minúte tu pribúdajú obrovské množstvá dát, v ktorých sa ukrýva veľká hodnota. Ale len vtedy, ak ich vieme spracovať a vytiahnuť z nich vedomosti.“
Akú veľkosť majú veľké dáta?
„Veľkosť nie je ich jediné meradlo. Môže byť teda zavádzajúce hovoriť o nejakých exabajtoch či gigabajtoch. O veľkých dátach hovoríme vtedy, keď je ich spracovanie problémom. Musia však spĺňať aj iné podmienky, nielen mať veľký objem.“
Čo ich teda charakterizuje?
„Rýchlosť, ktorou pribúdajú. Preto je výzvou ich spracovanie v reálnom čase. Ďalšou dôležitou vlastnosťou je ich rôznorodosť. Donedávna boli údaje štruktúrované v databázach, dnes však máme mnohé dáta bez akejkoľvek pevne danej štruktúry. A v neposlednom rade musia byť vierohodné, lebo všetko, čo z dát zistíme, je len také dobré, aké dobré sú tie dáta.“
Stíhame všetky tieto dáta analyzovať? Nemôže sa stať, že o dvadsať rokov ich bude tak veľa, že nás jednoducho zahltia?
„Verím tomu, že nás nezahltia. Výzvou pre vedcov je navrhnúť metódy, pomocou ktorých ich budeme vedieť spracovať.“
Sme na dobrej ceste k ich navrhnutiu?
„Vhodné metódy existujú už dnes, stále sa vylepšujú a na ďalších sa pracuje. Používa sa pri tom aj umelá inteligencia, aby sme vytvorili modely, ktoré budú vedieť napodobniť myslenie človeka. V súčasnosti sa úspešne používa strojové učenie, ktoré je postavené na schopnosti počítačových systémov objaviť súvislosti ukryté v dátach. Jeho výsledky využívame denne v rôznych oblastiach života, napríklad v antispamovom filtri v e-mailových schránkach, je na ňom postavené tiež odporúčanie filmov, strojový preklad, rozpoznávanie reči, odhadovanie cien bytov, odhaľovanie finančných podvodov či podpora obchodovania na svetových finančných trhoch. Pri niektorých typoch úloh, najmä optimalizačných, sa s úspechom používajú biologicky inšpirované algoritmy.“
To sú aké?
„Sú postavené na podobnosti s tým, ako sú problémy riešené v živom svete. Sú to napríklad optimalizácie založené na odovzdávaní informácií v kolónii mravcov či medzi včelami.“
Čo sa od nich môžeme naučiť?
„Ľudia vysledujú, ako si zvieratá odovzdávajú informácie. Zistilo sa, že v týchto mechanizmoch sú ukryté múdre rozhodnutia. Sledujeme, ako si napríklad mravce hľadajú optimálnu cestu, a snažíme sa to preniesť do programu. Program potom tiež vie nájsť optimálne riešenie zadanej úlohy. “
Existujú aj nejaké hranice, kedy dáta zlyhávajú a nemôžu nám už nič dať?
„To by som nepovedala. Z dát sa dá vždy niečo zistiť.“
Keď máte balík dát, ako viete, kde a čo máte začať hľadať?
„Závisí to od typu úlohy. Snažíme sa získať užitočné informácie a hľadáme vzory alebo závislosti. Niekedy naozaj nevieme, čo ideme hľadať, analýza nám však pomôže.“
Aké analýzy vykonávate?
„Robíme deskriptívnu analýzu, teda z dát opisujeme, čo sa stalo a snažíme sa to objasniť. Robíme aj prediktívnu analýzu, keď zo známych historických údajov predpovedáme, čo sa stane v budúcnosti. Samozrejme, tie predpovede nie sú stopercentne isté.“
Čo viete z dát predpovedať?
„U nás na fakulte sme napríklad robili projekt, v ktorom sme spracovávali dáta zo smartmetrov. To sú meracie zariadenia, ktoré v pravidelných intervaloch snímajú odber elektriny. Čiže nie tak, ako sme bežne zvyknutí, že nám niekto raz za rok príde odčítať spotrebu elektriny. Merajú napríklad každých 15 minút a potom odošlú dáta na spracovanie. Na základe reálnych dát zo slovenských smartmetrov sme predpovedali spotrebu energie do budúcna. V prípade elektrickej energie to je veľmi zaujímavé, lebo je problém efektívne ju uskladňovať vo veľkých množstvách. Okrem toho dodávatelia elektrickej energie sú penalizovaní aj za plusové aj mínusové odchýlky. Ak by sa nám podarilo navrhnúť prediktívne modely, ktoré čo i len o percento zlepšia výsledok, tak to výrazne ušetrí financie.“
Aké dáta ešte skúmate?
„Máme tiež dáta v oblasti bioinformatiky. Skúmame metódy skladania častí DNA a ak objavíme nejaké anomálie, lekári vedia presnejšie nastaviť liečbu napríklad pri onkologických ochoreniach. Na fakulte máme aj centrum používateľského zážitku, kde pomocou viacerých senzorov a snímania pohybu očí skúmame správanie používateľa pri práci s počítačom. Analyzujeme tiež texty zo sociálnych sietí alebo záznamy správania používateľov na webe.“
Kde sa dajú tieto výsledky využiť?
„Napríklad v marketingu. Dajú sa však využiť aj pri hľadaní ľudí s podobnými záujmami, ale aj pri predpovedi správania sa návštevníkov webu.“
Objavili ste niekedy pri analýze dát niečo, čo vás úplne prekvapilo?
„O tom to je. Vždy nájdeme závislosti, ktoré nie sú viditeľné na prvý pohľad.“
A aké je vaše obľúbené využitie dátovej analýzy?
„Napríklad aplikácia Waze, ktorá naviguje, ale zároveň sníma, kde je koľko áut. Na základe toho vie predpovedať, kde je zápcha a upraviť tak cestu. Koľkokrát si aj poviem, prečo ma tá navigácia ťahá dlhšou cestou a neskôr v rádiu počujem, že tam je zápcha. Dátová analýza je takmer za všetkým.“
Prečo ste sa rozhodli pre štúdium informatiky?
„Rozhodovala som sa pôvodne medzi medicínou a informatikou. Nakoniec som sa rozhodla pre techniku a neoľutovala som to. Tento odbor je zaujímavý a atraktívny aj pre ženy. Vôbec predtým nemusia mať strach. Ak sa do toho raz dostanú, sú veľmi úspešné. Majú rozdielny prístup k niektorým veciam ako muži a najlepšie je, ak na nejakom projekte pracujú zmiešané tímy mužov a žien, je to potom dynamickejšie.“
Nemôže sa stať, že raz budeme všetci len nejakými dátami, všetko bude o dátach a zabudne sa na ľudskosť?
„Všetko je o tom, ako sa k tomu postavia ľudia. V histórii sme zaznamenali veľa vynálezov, ktoré sa dali využiť pozitívne, ale aj negatívne. Podobne je to aj s novými technológiami. Nie je rozumné sa pred nimi uzatvárať, ale nájsť spôsob, ako ich čo najlepšie využiť pre dobro človeka.“ Renáta Zelná
Napríklad aplikácia Waze, ktorá naviguje, ale zároveň sníma, kde je koľko áut. Na základe toho vie predpovedať, kde je zápcha a upraviť tak cestu. Koľkokrát si aj poviem, prečo ma tá navigácia ťahá dlhšou cestou a neskôr v rádiu počujem, že tam je zápcha. Dátová analýza je takmer za všetkým.
FOTO:
Viera Rozinajová vyštudovala Elektrotechnickú fakultu SVŠT v Bratislave. Neskôr pôsobila štyri roky ako výskumníčka na Stuttgartskej univerzite. Je členkou IFIP Technical Committee 8 ako zástupkyňa za SR. V súčasnosti pôsobí ako prodekanka pre výskum, projekty a spoluprácu s priemyslom na fakulte informatiky a informačných technológií. Výskumne sa venuje analýze dát.
[SME 28/10/2016]
Autor: Renáta Zelná