Podczas szkolenia uczestnicy opanują podstawowe koncepcje danych, techniki eksploracji danych, analizę statystyczną, tworzenie raportów i wizualizacji oraz zasady zarządzania danymi i kontrolę jakości danych.
Koncepcje i środowiska danych
Schematy i wymiary danych: identyfikowanie baz danych, hurtowni danych, jezior danych i powoli zmieniających się wymiarów.
Typy danych: porównywanie danych daty, liczbowych, alfanumerycznych, walutowych, tekstowych, dyskretnych i ciągłych, kategorycznych/wymiarowych, obrazów, audio i wideo.
Struktury danych i formaty plików: porównanie danych ustrukturyzowanych i nieustrukturyzowanych oraz formatów plików, takich jak pliki tekstowe/płaskie, JavaScript Object Notation (JSON), Extensible Markup Language (XML) i Hypertext Markup Language (HTML).
Eksploracja danych
Pozyskiwanie danych: wyjaśnienie metod integracji, takich jak ładowanie delta, ekstrakcja/ładowanie/transformacja (ELT) oraz metod gromadzenia danych, takich jak scraping stron internetowych, interfejsy programowania aplikacji (API), ankiety, pobieranie próbek i obserwacja.
Czyszczenie i profilowanie danych: identyfikowanie zduplikowanych danych, brakujących wartości, nieprawidłowych danych, wartości odstających, niezgodności specyfikacji i walidacja typów danych.
Techniki manipulacji danymi: wykonywanie technik takich jak scalanie, łączenie, konkatenacja, dołączanie, imputacja, agregacja, transpozycja, normalizacja i parsowanie.
Optymalizacja zapytań: wyjaśnienie filtrowania, sortowania, funkcji daty, funkcji logicznych, funkcji agregujących, indeksowania, tabel tymczasowych i planów wykonania.
Analiza danych
Statystyka opisowa: stosowanie miar tendencji centralnej, rozrzutu, częstotliwości, wartości procentowych, zmian procentowych i przedziałów ufności.
Statystyka wnioskowa: wyjaśnienie testów t, wyników z, wartości p, testów chi-kwadrat, testowania hipotez, regresji i korelacji.
Techniki analizy: podsumowanie analizy trendów, analizy wydajności, analizy eksploracyjnej i analizy powiązań.
Wizualizacja
Wymagania biznesowe: przekładanie wymagań na raporty przy użyciu miar tendencji centralnej, rozproszenia i procentów.
Projektowanie raportów i pulpitów nawigacyjnych: wykorzystanie stron tytułowych, elementów projektu i dokumentacji.
Tworzenie pulpitów nawigacyjnych: stosowanie uwag dotyczących procesów tworzenia i dostarczania.
Rodzaje wizualizacji: stosowanie wykresów liniowych, wykresów kołowych, wykresów punktowych, wykresów słupkowych, histogramów, map cieplnych, map geograficznych, map drzewiastych, wykresów warstwowych i chmur słów.
Rodzaje raportów: porównywanie raportów statycznych i dynamicznych, ad hoc, samoobsługowych, cyklicznych i taktycznych.
Zarządzanie danymi, jakość danych i kontrole
Zarządzanie danymi: podsumowanie dostępu, bezpieczeństwa, przechowywania, wykorzystania, relacji między podmiotami, klasyfikacji, jurysdykcji i zgłaszania naruszeń.
Kontrola jakości danych: stosowanie metod walidacji, wymiarów jakości, zasad, wskaźników i automatycznych kontroli.
Zarządzanie danymi podstawowymi (MDM): wyjaśnienie procesów i okoliczności związanych z MDM.