Podczas szkolenia nauczysz się analizować i interpretować dane, wykorzystując metody statystyczne i narzędzia analityczne w celu wyciągania trafnych wniosków wspierających procesy decyzyjne. Zdobędziesz także umiejętności w zakresie wizualizacji danych, zarządzania cyklem życia informacji oraz stosowania najlepszych praktyk w pracy z dużymi zbiorami danych.
Matematyka i statystyka
Metody statystyczne: stosowanie testów t, testów chi-kwadrat, analizy wariancji (ANOVA), testowania hipotez, metryk regresji, wskaźnika Giniego, entropii, wartości p, charakterystyki operacyjnej odbiornika/powierzchni pod krzywą (ROC/AUC), kryterium informacyjnego Akaike/kryterium informacyjnego Bayesa (AIC/BIC) oraz macierzy pomyłek.
Prawdopodobieństwo i modelowanie: wyjaśnianie rozkładów, skośności, kurtozy, heteroskedastyczności, funkcji gęstości prawdopodobieństwa (PDF), funkcji masy prawdopodobieństwa (PMF), funkcji dystrybuanty (CDF), braków, nadmiernego próbkowania i stratyfikacji.
Algebra liniowa i rachunek różniczkowy: zrozumienie rangi, wartości własnych, operacji macierzowych, miar odległości, pochodnych cząstkowych, reguły łańcuchowej i logarytmów.
Modele czasowe: porównywanie szeregów czasowych, analiza przeżywalności i wnioskowanie przyczynowo-skutkowe.
Modelowanie, analiza i wyniki
Metody EDA: wykorzystanie technik eksploracyjnej analizy danych (EDA), takich jak analiza jednoczynnikowa i wieloczynnikowa, wykresy, diagramy i identyfikacja cech.
Problemy związane z danymi: analiza danych rzadkich, nieliniowości, sezonowości, ziarnistości i wartości odstających.
Wzbogacanie danych: stosowanie inżynierii cech, skalowania, geokodowania i transformacji danych.
Iteracja modelu: przeprowadzanie projektowania, oceny, selekcji i walidacji.
Komunikacja wyników: tworzenie wizualizacji, wybór danych, unikanie wprowadzających w błąd wykresów i zapewnienie dostępności.
Uczenie maszynowe
Podstawowe pojęcia: stosowanie funkcji strat, kompromis między odchyleniem a wariancją, regularyzacja, walidacja krzyżowa, modele zbiorcze, dostrajanie hiperparametrów i wyciek danych.
Uczenie nadzorowane: stosowanie regresji liniowej, regresji logistycznej, k-najbliższych sąsiadów (KNN), naiwnego bayesa i reguł asocjacyjnych.
Uczenie oparte na drzewach: stosowanie drzew decyzyjnych, lasów losowych, wzmacniania i agregacji bootstrapowej (bagging).
Głębokie uczenie się: wyjaśnienie sztucznych sieci neuronowych (ANN), dropoutu, normalizacji partii, propagacji wstecznej i frameworków głębokiego uczenia się.
Uczenie bez nadzoru: wyjaśnienie klastrowania, redukcji wymiarowości i dekompozycji wartości osobliwych (SVD).
Operacje i procesy
Funkcje biznesowe: wyjaśnienie zgodności, kluczowych wskaźników wydajności (KPI) i gromadzenia wymagań.
Typy danych: wyjaśnienie danych generowanych, syntetycznych i publicznych.
Pobieranie danych: zrozumienie potoków, strumieniowania, przetwarzania wsadowego i pochodzenia danych.
Przetwarzanie danych: wdrażanie czyszczenia, scalania, imputacji i oznaczania prawdziwych wartości.
Cykl życia nauki o danych: stosowanie modeli przepływu pracy, kontroli wersji, czystego kodu i testów jednostkowych.
DevOps i MLOps: wyjaśnienie ciągłej integracji/ciągłego wdrażania (CI/CD), wdrażania modeli, koordynacji kontenerów i monitorowania wydajności.
Środowiska wdrożeniowe: porównanie wdrożeń kontenerowych, chmurowych, hybrydowych, brzegowych i lokalnych.
Specjalistyczne zastosowania nauki o danych
Optymalizacja: porównanie optymalizacji z ograniczeniami i bez ograniczeń.
Pojęcia NLP: wyjaśnienie technik przetwarzania języka naturalnego (NLP), takich jak tokenizacja, osadzanie, częstotliwość terminów i odwrotna częstotliwość dokumentów (TF-IDF), modelowanie tematyczne i zastosowania NLP.
Wizja komputerowa: wyjaśnienie optycznego rozpoznawania znaków (OCR), wykrywania obiektów, śledzenia i augmentacji danych.
Inne zastosowania: wyjaśnienie analizy grafów, uczenia się przez wzmocnienie, wykrywania oszustw, wykrywania anomalii, przetwarzania sygnałów i innych.