Semantička integracija podataka - SEDATIN - istraživačka skupina

Opis

Skladišta podataka (engl. data warehouse, DW) predstavljaju pouzdan, integriran i konsolidiran pogled na podatke neke organizacije, optimiran za analizu podataka, kako u pogledu brzine dohvata i obrade podataka, tako i u jednostavnosti korištenja. Skladišta podataka temelje se na strukturiranim podatcima, najčešće pohranjenim u relacijskim bazama podataka. Međutim, u području znanosti o podatcima uglavnom se razmatraju nestrukturirani podaci koji potiču iz raznorodnih izvora, kao što su tekstni izvori, senzori, nizovi podataka (engl. data streams) i sl. Isto tako, u kontekstu obogaćivanja skladišta podataka, potrebno je razmotriti i različite strukturirane podatke, prije svega povezane podatke (engl. Linked Data), koji su grafovske strukture,  omogućuju definiranje semantike podataka i temelje se na specifikaciji odnosno modelu podataka Resource Description Framework (RDF). Takvi podaci, ako se primjereno interpretiraju (npr. dubinskom analizom mišljenja kupaca o proizvodu) i povežu (npr. s odgovarajućom činjeničnom tablicom prodaje proizvoda i pripadnim dimenzijama), predstavljaju visokovrijedne informacije za donošenje odluka. Integracija skladišta podataka s nestrukturiranim sadržajima danas je predmetom aktivnog istraživanja, međutim, istraživačka zajednica nije složna u pogledu rješenja problema, što rezultira različitim pravcima istraživanja. Srodna tema istraživanja koju ovdje razmatramo jest sravnjivanje ontologija. Ontologije olakšavaju integraciju raznorodnih izvorišta podataka koji pripadaju istoj domeni, pri čemu se u procesu sravnjivanja ontologija pronalaze podudarnosti među entitetima u različitim ontologijama.

Naše istraživanje u području skladišta podataka usredotočava se na prepoznavanje strukture i sheme nestrukturiranih podataka te njihovo sravnjivanje i povezivanje s tradicionalnim strukturama skladišta podataka. Usmjerit ćemo istraživanje prema uporabi ontologija i tehnologija semantičkog weba kako bismo omogućili združenu analizu raznorodnih podataka. Istražit ćemo mogućnosti uporabe ontologija kao sredstva integracije semantičkih podataka sa slobodnim tekstom i dimenzijskim modelom. Ispitat ćemo strategije generiranja ontologija u odnosu na raspoloživa izvorišta podataka i procijeniti učinak ontologija na ograničeno semantičko označavanje teksta i slika. Analizirat ćemo problem performansi koji proizlazi iz nesuglasja između raznorodnih okruženja - visoko optimiranog  okruženja skladišta podataka, grafovskog semantičkog weba i tekstnih i slikovnih izvora. Naš je cilj u području sravnjivanja ontologija razviti metode koje će povećati razinu automatizacije postupka te poboljšati preciznost i brzinu. Rezultati tog istraživanja bit će povezani s našim istraživanjima u području skladišta podataka. Predloženo istraživanje udružuje svijet strukturiranih podataka iz područja poslovne inteligencije s nestrukturiranim svijetom  raznorodnih podataka velikog volumena, koji se često nazivaju “velikim podatcima” (engl. Big Data). Istraživanja se međusobno prožimaju s istraživanjima u području obrade prirodnog jezika, strojnoga učenja, dubinske analize podataka i otkrivanja znanja, a rezultati će biti korišteni u slučajevima uporabe poslovne analitike i financija.


Projekti