Iný tím študentov na Slovenskej technickej univerzite pracuje na projekte, ktorý súvisí s digitalizáciou historickej tlače.
Aplikácia Kill Bills je určená na sprehľadnenie výdajov. Chceli by ste dostať svoje výdavky pod kontrolu, aby ste vedeli, koľko ste tento či minulý mesiac minuli na potraviny, naftu alebo telefón?
Študenti Fakulty informatiky a informačných technológii Slovenskej technickej univerzity v Bratislave (STU) vyvíjajú aplikáciu príznačne nazvanú Kill Bills, ktorá zatočí s vašimi bločkami a sprehľadní výdavky.
„Naschvál sme si zvolili takýto popkultúrny odkaz. Používateľov sa snažíme odbremeniť od bločkov, problémy s nimi chceme akoby zlikvidovať. Aj prezentácie našej appky máme ladené do žlto-čiernej, podľa kultového Tarantinovho filmu Kill Bill,“ vraví pre
Prehľadné grafy a tabuľky
Ako aplikácia funguje? Keď si odfotíte blok, program z neho vytiahne potrebné dáta, ako sú sumy a jednotlivé položky. Aplikácia ich zatriedi do kategórií, ako sú potraviny, pohonné hmoty a iné. Z nich vytvorí grafy a tabuľky o prehľade výdajov za určité obdobie.
Kováčik zadá do aplikácie dáta a ukáže mi, ako program pracuje. „Tu napríklad vidíte, že za obdobie tohto mesiaca som na ovocie a zeleninu minul tridsať eur. Graf ukazuje, že ide o sedem percent celkových výdajov. Položky si viete ďalej rozkliknúť, takže viete zistiť, koľko ste utratili na banány alebo orechy. Viete to porovnať s predošlým obdobím. Keby ste chceli, môžete prejsť na konkrétny bloček a údaje si na ňom skontrolovať.“
Prehľad bločkov v Kill Bills (kliknutím sa obrázok zväčší). Zdroj – archív Kill Bills
Databáza vzorových bločkov
Jozef Mláka, člen tímu, hovorí, že používateľ potrebuje smartfón, aby si bloček odfotil. „Pomocou techník počítačového videnia, ako je napríklad extrakcia čiar a tvarov, vytiahneme z obrázka iba bloček. To pošleme na náš server,“ vraví študent.
S využitím optického rozpoznávania znakov sa obrázok prevedie na digitálny text, doplní kolegu študent Branislav Pecher. Z textu sa následne vytiahnu jednotlivé údaje o sumách a položkách na bločku.
Pavol Ondrejka, ďalší člen tímu, vysvetľuje, že v ich databáze sú uložené viaceré vzory doposiaľ rozpoznaných bločkov. „Ak bloček nepoznáme, požiadame používateľa, aby ho do databázy doplnil,“ povedal Ondrejka.
Učí zo vzorov bločkov a z kategorizácie položiek
Študentov sa opýtame, ako aplikácia vie, že napríklad rožok je pečivo, a správne ho zatriedi do príslušnej kategórie. „Ak je na bločku položka rožok, program sa pozrie do databázy, či sa s ňou už stretol. Ak vidí, že iný používateľ v minulosti takú položku už kupoval a zatriedil ju ako pečivo, program automaticky určí, že rožok je pečivo.“
Ak by išlo o nejakú exotickú položku, napríklad ovocie liči, ktorú ešte užívatelia nezatriedili, položku nechá prázdnu, vraví Kováčik. „Keď si bude používateľ prezerať svoje výdavky, uvidí tam prázdnu kolónku. Vtedy to môže zakategorizovať a napísať, že ide o ovocie.“
Aplikácia sa učí zo vzorov bločkov a z kategorizácie položiek, ktorú jej posielajú užívatelia. „Úkony by neboli náročné, išlo by vždy len o zopár kliknutí,“ vraví Kováčik.
Prehľad kategórií v Kill Bills (kliknutím sa obrázok zväčší). Zdroj - archív Kill Bills
Zatiaľ ako beta verzia
Momentálne je aplikácia v zatvorenom beta-teste a verejnosť ju nemôže používať. „Beta verzia znamená, že ide o test v úzkom okruhu ľudí, ktorým sme aplikáciu dali, aby ju skúšali a vychytali na nej prípadné nedostatky. Väčšinou sú to spolužiaci.
Nevieme, čo s ňou budú robiť, de facto sa ju snažia pokaziť. Bločky fotia potme alebo keď sú zamastené. Takýmto testovaním chceme zistiť, či aplikácia funguje a či by sa dala vypustiť medzi ľudí,“ hovorí Kováčik.
Možno bude start-up
Študenti rozmýšľajú, že ak bude o aplikáciu záujem, založia si start-up. Hovoria, že ju čakajú ďalšie vylepšenia, aby mohla čítať napríklad aj faktúry alebo veľmi dlhé bločky s mnohými položkami.
Informatici vravia, že v oblasti sledovania výdavkov existujú iné konkurenčné riešenia, napríklad Abakus alebo Receipt Bank. „Ale ani jedno z nich nevie vytiahnuť z bločku položky a kategorizovať ich. Väčšina takýchto aplikácií nefungovala na slovenských bločkoch,“ povedal Mláka.
Nautilus
Iný tím študentov na Slovenskej technickej univerzite v Bratislave pracuje na odlišnom projekte, ktorý súvisí s digitalizáciou historickej tlače.
„Predstavte si, že v dobových časopisoch hľadáte informácie o Márii Terézii. Bez nášho nástroja je to momentálne tak, že ak do vyhľadávača v knižnici zadáte ‚Máriu Teréziu‘, nájde vám to celý časopis. Takže konkrétny článok musíte ručne dohľadať, čo vám zbytočne zaberie veľa času. S naším nástrojom vám vieme poskytnúť konkrétne články, kde sa o Márii Terézii píše,“ hovorí členka tímu Nautilus Martina Redajová.
Pôvodne sa v tíme chceli zaoberať hlbokým prehľadávaním webu, a tak si vybrali názov Nautilus, podľa slávnej ponorky. „Projekt sa trochu zmenil, no meno sme si nechali,“ vraví pre Denník N Adam Radajfus, člen tímu.
Digitalizácia
Študentka Redajová oceňuje, že sa historická tlač na Slovensku digitalizuje. „Staršie periodiká vznikali na kyslom papieri, ktorý sa rozpadá. Je pre nás dôležité digitalizovať, aby sme staré noviny a časopisy mali k dispozícii aj o 50 rokov, keď sa vo fyzickej forme rozpadnú,“ vraví.
Martin Vaško, člen tímu, kolegyňu doplnil, že sa síce digitalizuje, ale dáta z digitalizovaných periodík nie sú pre bežného používateľa dostupné, pretože sa v nich nedá vyhľadávať. „Tie dáta prakticky neexistujú. Preto sme vymysleli proces, ako ich sprístupniť.“
Vedúca projektu Nadežda Andrejčíková povedala, že „digitalizácia na Slovensku sa robila tak trochu od kohúta na komíne, pričom pozemok ešte nebol“.
Hovorí, že historické zdroje sa síce zachránili, no ľudia v nich nemôžu vyhľadávať. „Teraz sa nám to oveľa ťažšie spracováva a sprístupňuje, ale veríme, že svet čoskoro dobehneme,“ doplnila Andrejčíková. Na druhej strane informatička veľmi ocenila, že sa digitalizácia spravila a fondy sú zachované.
Sémantické vyhľadávanie
O riešenie prejavili záujem viaceré inštitúcie, doma i v Česku. „Podobný nástroj, ktorý dokáže automatickým spôsobom vyhľadávať články, je v Nemecku, ale ten stojí oveľa viac,“ hovorí Andrejčíková.
Viacerí študenti, ktorí sú súčasťou tímu, budú na projekte pracovať aj v budúcnosti. „Chceli by sme sa zamerať na sémantické vyhľadávanie. Predstavte si, že zadáte heslo ‚Mária Terézia a dcéry‘. Ak by sme vedeli vyhľadávať sémanticky, potom by sme vedeli nájsť nielen články, kde sa spomína slovo dcéra, ale aj tie, kde z kontextu vyplýva, že pasáž je o dcérach slávnej panovníčky. Vyhľadávali by sme podľa významu,“ vraví Redajová.
PUBLIKOVANÉ 15. jún 2017