Program studiów

Semestr I

  • Narzędzia pracy analityka (10)

    Po ukończeniu przedmiotu student/ka zna zasady funkcjonowania systemów i narzędzi będących podstawą warsztatu programistycznego analityka danych, takich jak Linux, Bash, ssh, rozproszony system kontroli wersji Git, powłoka PowerShell.

  • Zaawansowany SQL (25)

    Po ukończeniu przedmiotu student/ka zna i rozumie podstawowe oraz zaawansowane koncepcje związane z relacyjnymi bazami danych i językiem SQL, włącznie z możliwościami analitycznymi tego języka i metodami optymalizacji zapytań; potrafi formułować złożone zapytania analityczne z wykorzystaniem języka SQL oraz właściwie wykorzystać metody optymalizacji zapytań takie jak indeksy; jest gotów  do twórczego rozwiązywania problemów stawianych analitykowi i pogłębiania wiedzy w oparciu o różne źródła.

    Prowadzący:

    • A. Stachowiak UAM, A. Kasprzak GFT
  • Analiza i wizualizacja danych w Pythonie (25)

    Po ukończeniu przedmiotu student/ka zna podstawy języka Python: zmienne, podstawowe typy danych i struktury danych oraz operacje sterujące i pracę na plikach; potrafi analizować dane przy wykorzystaniu biblioteki pandas i numpy; obsługuje narzędzia Jupyter do pracy z tzw. Notebookami; wizualizuje dane z wykorzystaniem pakietu matplotlib

    Prowadzący:

    • J. Pokrywka UAM, A. Kaluba Roche
  • Hurtownie danych (20)

    Po ukończeniu przedmiotu student/ka zna i rozumie zadania i architekturę współczesnej hurtowni danych; potrafi zamodelować hurtownię w modelu wielowymiarowym, wyróżnić fakty i wymiary; potrafi skonstruować proces ETL z wykorzystaniem wybranego narzędzia, przygotować dane i zasilić nimi hurtownię, w tym hurtownię w chmurze; potrafi użyć wybranego programu do szybkiego przygotowania danych do dalszej analizy; jest gotowy do twórczego wykorzystania poznanych narzędzi oraz do krytycznej oceny napotkanych rozwiązań.

    Prowadzący:

    • R. Chudziński, I. Gilmijarow Capgemini
  • Raportowanie danych (10)

    Po ukończeniu przedmiotu student/ka zna dobre praktyki raportowania danych, rozumie w jaki sposób narzędzia do raportowania danych korzystają ze zbioru danych (w szczególności hurtowni danych) i jak przygotować dane do wizualizacji; potrafi dobrać typ wykresu do danych; potrafi przygotować raport w wybranych narzędziach; zna najpopularniejsze narzędzia raportujące dostępne na rynku i wie jakie są kryteria doboru narzędzia do wizualizacji.

    Prowadzący:

    • A. Baran-Iwaszko Capgemini
  • Uczenie maszynowe (20)

    Po ukończeniu przedmiotu student/ka zna i rozumie podstawowe pojęcia statystyczne związane z teorią estymacji i z teorią testowania hipotez; potrafi przeprowadzić analizę regresji, klasyfikację danych, potrafi wykonać redukcję wymiaru i przeprowadzić analizę skupień; ma świadomość etycznych i społecznych szans i zagrożeń związanych z uczeniem maszynowym.

    Prowadzący:

    • T. Górecki UAM
  • Przetwarzanie rozproszone (10)

    Po ukończeniu przedmiotu student/ka zna i rozumie podstawowe zagadnienia przetwarzania rozproszonego, takie jak skalowanie mocy obliczeniowej (wertykalne, horyzontalne), algorytm MapReduce, podstawy Apache Hadoop i Apache Spark; zna architektury systemów rozproszonych (klastry, sieci P2P, SSI), oraz podstawowe typy usług chmurowych (IaaS, PaaS, SaaS, FaaS), potrafi porównać systemy on-premise i chmurowe.

    Prowadzący:

    • M. Siudziński / J. Kasprzak GFT

Semestr II

  • Uczenie głębokie (10)

    Po ukończeniu przedmiotu student/ka zna i rozumie podstawowe pojęcia związane z sieciami neuronowymi oraz głębokimi sieciami neuronowymi; potrafi skonstruować i dokonać ewaluacji płytkiej sieci neuronowej; potrafi skonstruować neuronową sieć konwolucyjną oraz neuronową sieć LSTM; wykorzystuje biblioteki Keras i TensorFlow do konstrukcji sieci neuronowych oraz bibliotekę H2O do automatycznej konstrukcji modeli głębokich; jest gotów do ciągłego pogłębiania swojej wiedzy w tym dynamicznie się rozwijającym obszarze.

    Prowadzący:

    • T. Górecki UAM
  • Przetwarzanie danych w chmurze (15)

    Po ukończeniu przedmiotu student/ka zna i rozumie podstawy systemów przetwarzania danych w chmurze, założenia i paradygmaty architektury; zna koncepcję jeziora danych (Data Lake), budowę, warstwy, różnice implementacji on-premise vs. in cloud; zna różne formaty przechowywania danych AVRO, Parquet, CSV; potrafi dobrać odpowiednie rozwiązanie do określonych sytuacji (Raw / Processed zone).

    Prowadzący:

    • J. Kasprzak GFT
  • Inżynieria danych w Pythonie (20)

    Po ukończeniu przedmiotu student/ka zna i rozumie zaawansowane możliwości języka Python niezbędne w pracy inżyniera danych; potrafi programować obiektowo, zna podstawy programowania funkcyjnego; w pogłębionym stopniu poznaje pakiety Numpy i Pandas; zna pySpark; potrafi tworzyć aplikacje interaktywne.

    Prowadzący:

    • K. Płatek Allegro
  • Przetwarzanie strumieniowe i NoSQL (20)

    Po ukończeniu przedmiotu student/ka zna i rozumie zasady przetwarzania strumieniowego danych i wykorzystania różnych związanych z tym narzędzi jak Kafka, Flume, Storm, Spark Streaming; potrafi dostosować narzędzie do napotkanego problemu; zna podstawowe koncepcje baz NoSQL, w szczególności baz danych typu key-value i baz dokumentowych; potrafi tworzyć bazy i analizować je; potrafi pracować z różnymi bazami NoSQL – przede wszystkim HBase, a także Cassandra, Hive/Impala oraz Neo4j; rozumie możliwości i ograniczenia tego typu baz danych.

  • Generatywna sztuczna inteligencja (25)

    Po ukończeniu przedmiotu student/ka zna i rozumie podstawowe zagadnienia związane z GenAI; potrafi zastosować różne strategie prompting-u, tworzy i wystawia modele w chmurze, zwracając uwagę na kwestie kosztów;  rozumie proces RAG (Retrieval Augmented Generation); zna metody NLP, duże modele językowe i modele text-to-image; zapoznaje się z rolą baz wektorowych.

    Prowadzący:

    • K. Jędrzejewski Pearson, UAM
  • Data Governance (15)

    Po ukończeniu przedmiotu student/ka zna i rozumie fundamenty zarządzania danymi (Data Governance), rozumie znaczenie katalogowania danych i zarządzania metadanymi ( w tym data lineage, data traceability), potrafi zastosować odpowiednie metody zapewnienia i podnoszenia jakości danych, rozpoznaje podstawowe kategorie i metryki jakości danych; poznaje podstawy zarządzania danymi referencyjnymi oraz postawy systemów MDM (Master Data Management).

    Prowadzący:

    • A. Kasprzak, O. Jędrzejczak GFT
  • Laboratorium inżynierii danych w chmurze (25)

    Po ukończeniu przedmiotu student/ka zna, rozumie i potrafi porównać różnorodne technologie pozwalających na przetwarzanie dużych zbiorów danych; zna podstawy Apache Nifi oraz Elasticsearch i Kibany; potrafi przetwarzać dane strumieniowe z Twittera na zadany temat za pomocą technik NLP (Natural Language Processing – Biblioteki NLTK); potrafi pracować w Notebook Jupyter; potrafi pracować samodzielnie i w grupie nad zadanym projektem; rozumie potrzebę ciągłego pogłębiania swojej wiedzy

    Prowadzący:

    • M. Siudziński