Image for
Naslovnica

Podatkovno inženjerstvo

  • Predavanje 30
  • Vježbe 30
  • Samostalni rad 90
Ukupno 150

Naziv predmeta

Podatkovno inženjerstvo

Oznaka predmeta

21-02-506

Semestar

1

ECTS

5

Nastavnici i suradnici

Sadržaj i cilj

Ovaj će modul izložiti studente određenom iskustvu gdje se na praktičan način bave problemima inženjeringa podataka, individualno i u timovima.

Ciljevi ovog modula su omogućiti studentima da nauče:

• Analizirati i organizirati neobrađene podatke
• Izgraditi podatkovne sustave i cjevovode (eng.pipelines)
• Procijeniti poslovne potrebe i ciljeve
• Tumačiti trendove i obrasce
• Pripremiti podatke za preskriptivno i prediktivno modeliranje
• Izgraditi i održavati podatkovni ekosustav organizacije, uključujući; izvori podataka i
baze podataka, te rješenja za pohranu podataka.

Cilj ovog modula je da studenti demonstriraju svoje znanje i razumijevanje osnovnih metoda pripreme podataka koje uključuju metode čišćenja, transformacije, intregracije, normalizacije i agregacije podataka, transformacije vremenskih serija, rad s nedostajućim vrijednostima, kao i osnovne metode redukcije podataka kao što su redukcija značajki, redukcija uzoraka i diskretizacija.

Važno je da studenti pohađaju ovaj modul kako bi stekli bolje razumijevanje o tome koliko je inženjerstvo podataka kritično, a često ga se opisuje kao okosnica podatkovne znanosti. Jednom kada započne proces podatkovne znanosti, prvi ljudi koji stupaju u interakciju s podacima su inženjeri podataka. Što su učinkovitiji u filtriranju, čišćenju i usmjeravanju tih podataka, sve ostalo može biti učinkovitije dok se podaci dalje slijevaju niz tok projekta i prema ostalim članovima tima. Znanje i razumijevanje koje studenti stječu na ovom modulu pridonijet će ukupnom setu vještina potrebnom za njihovo buduće zaposlenje kao podatkovnog znanstvenika.

Literatura

Obvezna literatura:
1. Crickard, P (2020) Data Engineering with Python: Work with massive datasets to design data models and automate data pipelines using Python, Birmingham: Packt Publishing,
2. Algebra University College (2020), Data Engineering Handbook, Zagreb: Algebra University College

Preporučena literatura:
1. Garcia, S., Luengo, J., Herrera, F. (2016) Data Preprocessing in Data Mining, Cham: Springer International Publishing
2. Balamurugan, A.S., Christopher, A.B. (2012) Insight into Data Preprocessing: Theory and Practice: Data Mining Perspective Chisinau: Lap lambert Academic Publishing

Dodatna literatura:
1. Chakrabarti, S., Cox E., Eibe, F., Hartmut, RG, Han, J., Jiang, X., Kamber, M., Lightstone, S.S. (2009) Data Mining: Know It All, Massachusetts: Morgan Kaufmann

Minimalni ishodi učenja

  • Opisati moguća rješenja problema prilikom pripreme podataka.
  • Diskutirati o razlikama između metoda za rad s nedostajućim podacima i metoda transformacije podataka.
  • Objasniti utjecaj odabranih novijih tehnologija na postupak pripreme podataka.
  • Identificirati osnovne agregacijske funkcije i metode transformacije vremenskih serija.
  • Objasniti moguće rješenje određenog problema u procesu integracije, normalizacije i diskretizacije podataka.
  • Objasniti dostupne osnovne metode redukcije značajki i uzorka.

Željeni ishodi učenja

  • Preporučiti optimalna rješenja problema prilikom pripreme podataka
  • Razlikovati adekvatnu metodu za rad s nedostajućim podacima i metode transformacije podataka.
  • Procijeniti utjecaj novijih tehnologija na postupak pripreme podataka.
  • Odabrati adekvatne agregacijske funkcije i metode transformacije vremenskih serija.
  • Odabrati adekvatno rješenje za određeni problem u procesu integracije, normalizacije i diskretizacije podataka.
  • Primijenite odgovarajuće osnovne metode redukcije značajki i uzoraka.
Preuzmi vodič za studente
Podijeli: Facebook Twitter