Modelowanie danych w środowisku Power BI
04.08.25 r.
Spotykamy się na co dzień z problemem integracji danych z wielu źródeł danych. Przechowywane dane są w różnych formatach. Czasami daty to teksty (np. Excel, pliki CSV) a czasami to faktycznie daty jak w środowiskach baz relacyjnych lub w usługach online.
Chcąc dokonać analizy danych, pochodzących z tych różnych źródeł danych … musimy się napracować, czyli sprowadzić dane do „wspólnego mianownika”, oczyścić i dostosować do potrzeb metod analitycznych. W wielu sytuacjach musimy dokonać powiązania tych danych ze są, czyli zbudować relację, aby silnik realizujący wizualizację był w stanie „zinterpretować” nasze pomysły.
Proces o którym piszemy nazywamy modelowaniem danych a jego rezultatem jest model semantyczny umożliwiający pracę analityka. Czyli:
Celem modelowania danych w
Power BI jest przygotowanie danych w taki sposób, aby umożliwić ich efektywną analizę, wizualizację i interpretację. Modelowanie danych to kluczowy etap w procesie budowania raportów i dashboardów.
Podsumujmy kilka najważniejszych zadań jakich oczekujemy w procesie modelowania danych
1. Integracja danych z różnych źródeł
Power BI umożliwia łączenie danych z wielu źródeł (np.
Excel,
SQL Server,
SharePoint,
API), a modelowanie danych pozwala na:
-
scalanie danych w jedną logiczną strukturę,
-
tworzenie relacji między tabelami (np. relacja zamówień do klientów).
2. Utworzenie spójnej struktury danych (model relacyjny)
Modelowanie danych pozwala uporządkować dane w postaci tzw. modelu gwiazdy (star schema), która jest bardzo przejrzystym spojrzeniem na zgromadzone dane oraz pozwala efektywnie dokonywać procesów analiz. Ten sposób przechowywania danych jest zorganizowany w strukturę zwaną hurtownią danych (
Data Warehouse). Zawiera ona dwa typy tabel:
-
Tabele faktów (np. sprzedaż)
-
Tabele wymiarów (np. produkt, klient, czas)
3. Tworzenie miar i kolumn obliczeniowych
W procesie modelowania danych można w modelu realizować własne mechanizmy obliczeniowe z wykorzystaniem języków dostępnych w środowisku Power BI: języka M oraz DAX (omówimy to w kolejnych artykułach z serii „Analiza danych dla wszystkich”.
Przykładowe wyrażenia:
-
miary (measures) w DAX, np. SUM(Sprzedaż[Kwota]),
-
kolumny obliczeniowe, np. Rok = YEAR(Data).
4. Poprawa wydajności
Odpowiednie modelowanie danych (np. poprzez usuwanie zbędnych kolumn, stosowanie relacji jednokierunkowych, filtrowanie danych) pozwala na:
-
szybsze ładowanie danych,
-
płynniejsze działanie raportów.
5. Lepsza czytelność i organizacja danych
Modelowanie danych umożliwia:
-
nadanie sensownych nazw kolumnom i tabelom,
-
ukrycie zbędnych elementów przed użytkownikiem raportu,
-
tworzenie hierarchii (np. Rok > Kwartał > Miesiąc).
6. Zachowanie dokładności i spójności danych
Dobrze zbudowany model danych:
-
ogranicza błędy logiczne w analizach (np. podwójne zliczanie),
-
zapewnia, że dane są poprawnie agregowane i filtrowane.
Źródło: Microsoft Learn
Wiemy już, że musimy bardzo precyzyjnie przygotować zbiory danych. Pozostaje jednak główne pytanie: Jakie analizy zmierzamy przeprowadzić? Czy w praktyce zanim przygotujemy model danych, musimy na horyzoncie widzieć cel, jakiemu on ma służyć. Procesy analizy mogą odpowiadać na różne pytania:
-
Jaka była sprzedaż danego produktu w maju?
-
Dlaczego sprzedaż produktu spadła w maju?
-
Jaką planujemy sprzedaż produktu na lipiec?
W zależności od przedstawionych pytań, mamy różne sposoby modelowania danych. O tym jakie typy są typy analiz, w jaki sposób je wizualizować przedstawimy w kolejnym artykule z serii „Analiza danych dla wszystkich”. Tym niemniej możemy przedstawić ogólne zagadnienia z wiązane z przygotowaniem modelu danych.
Jak wygląda metodologia budowania modelu danych w Power BI? Poniżej przyjrzymy się kilku najważniejszym aspektom tego procesu
-
Zdefiniuj cele analizy
-
Jakie pytania ma odpowiadać raport?
-
Jakie wskaźniki (KPI) są najważniejsze?
Dla kogo jest raport?
1. Zidentyfikuj i połącz źródła danych
-
Wybierz źródła danych: Excel, SQL, API, SharePoint, itd.
-
Upewnij się, że masz dostęp i dane są aktualne.
-
Połącz dane w Power BI za pomocą Power Query (ETL).
2. Oczyść i przekształć dane (ETL)
-
Usuń duplikaty, puste wiersze, błędy.
-
Przekształć kolumny (daty, formaty, tekst).
-
Przefiltruj zbędne dane.
3. Zbuduj strukturę modelu danych
-
Wydziel tabele faktów i tabele wymiarów
-
Fakty: dane liczbowe, transakcyjne (np. sprzedaż)
-
Wymiary: kontekst analizy (np. klient, data, produkt)
-
Ustal relacje między tabelami (jeden-do-wielu)
-
Preferuj model gwiazdy (star schema)
4. Optymalizuj model
-
Ukryj zbędne kolumny i tabele.
-
Stosuj formatowanie nazw i typów danych.
-
Twórz hierarchie (np. Rok > Kwartał > Miesiąc).
-
Ustaw odpowiednie kierunki filtrowania.
5. Twórz miary i obliczenia w DAX
-
Zbuduj miary (np. SUM(Sprzedaż[Kwota]))
-
Obliczenia typu: marża, wzrosty rok do roku, itd.
-
Używaj zmiennych, jeśli to poprawia czytelność.
6. Testuj i weryfikuj dane
-
Czy dane są spójne?
-
Czy sumy i relacje są poprawne?
-
Czy filtrowanie działa zgodnie z oczekiwaniami?
7. Dokumentuj model
-
Nazwy tabel i kolumn powinny być jasne.
-
Opisz miary i logikę obliczeń.
-
Stwórz dokumentację (nawet prostą) dla zespołu.