DATA SCIENCE
OD PODSTAW
O szkoleniu
Kurs “Data Science od podstaw” ma na celu wprowadzenie uczestników w świat analizy danych. Podczas kursu uczestnicy poznają podstawowe pojęcia związane z uczeniem maszynowym, nauczą się przygotowywać dane do modelowania oraz tworzyć modele klasyfikacyjne, regresyjne oraz nienadzorowane.
Dla kogo jest kurs
Kurs Data Science od podstaw jest przeznaczony dla osób, które chcą:
- zapoznać się z większością pojęć związanych z analizą danych,
- nauczyć się tworzyć modele uczenia maszynowego,
- poznać techniki efektywnego czyszczenia danych,
- lepiej zrozumieć na czym polega uczenie maszynowe,
- nauczyć się przeprowadzić od początku do końca projekt Data Science.
Czego się nauczysz?
- Wykorzystywania różnych typów uczenia maszynowego
- Przygotowywania danych do modelowania
- Czyszczenia i uzupełnianie braków danych
- Tworzenia modeli klasyfikacyjnych oraz regresyjnych
- Wykorzystywania metod uczenia maszynowego nienadzorowanego
- Pojęć związanych z Data Science, umożliwiających stworzenie projektu analizy danych

Zajęcia w dogodnym czasie
Do wyboru grupa w tygodniu lub weekendowa
50 godzin nauki
30 godziny zajęć + 20 godzin pracy własnej w czasie 5 tygodni
Kurs średniozaawansowany
Dla osób, które znają język Python na poziomie co najmniej podstawowym
Kameralna grupa
Maksymalnie 8 osób w grupie
Certyfikat ukończenia
Poświadczający nabyte umiejętności
Zdalna forma nauki
Zajęcia na platformie Zoom
Materiały do pracy własnej
Dedykowane do każdej części, możliwość zakupu samych materiałów
Wsparcie po zakończeniu kursu
Pozostajemy dostępni do pomocy w formie mailowej również po zakończeniu szkolenia
Program szkolenia
- Szkolenie Data Science od podstaw składa się z 4 wymienionych poniżej części.
- W trakcie szkolenia przechodzimy cały proces modelowania od A do Z.
- Nie robimy przydługiego wstępu z teorii (ograniczamy się do potrzebnego minimum), szybko przechodzimy do praktyki i uczymy na konkretnych przykładach.
- Na ostatnich zajęciach uczestnik otrzyma od nas zbiór danych do wykonania projektu końcowego obejmującego wszystkie omawiane zagadnienia – projekt zostanie sprawdzony i oceniony. Jego wykonanie będzie warunkiem otrzymania końcowego certyfikatu.
- Około 2 tygodnie po ostatnich zajęciach zorganizowane zostaną dodatkowe indywidualne 20-minutowe konsultacje dla chętnych, w ramach których uczestnik będzie miał możliwość skonsultowania wątpliwości oraz problemów dotyczących zagadnień poruszanych w czasie kursu oraz przy wykonywaniu projektu końcowego.
CZĘŚĆ 1
Przygotowanie danych do modelowania
W ramach pierwszej części szkolenia omawiać będziemy proces
poprzedzający modelowanie, choć nie mniej ważny od niego. Przedstawione zarówno teoretycznie jak i praktycznie zostaną takie zagadnienia jak:
- Analiza opisowa zbioru danych,
- Feature engineering – modyfikacje i tworzenie nowych zmiennych,
- Obsługa braków danych,
- Wstęp do text miningu,
- Analiza wartości odstających,
- Standaryzacja zmiennych,
- One-hot-encoding zmiennych kategorycznych,
- Analiza zależności między zmiennymi,
- Metody selekcji zmiennych do modelowania,
- Redukcja wymiarów (PCA),
- Podział danych na część treningową i testową.
CZĘŚĆ 2
Model regresji liniowej
W części drugiej rozpoczniemy proces modelowania od najprostszego z modeli – regresji liniowej. W ramach tego modułu uczestnik nauczy się:
- W jakich sytuacjach buduje się modele regresji liniowej,
- Jakie transformacje powinny poprzedzić budowę modelu,
- Czym jest regularyzacja (ridge, lasso) i jak ją stosować w praktyce,
- Na czym polegają i jak budować modele regresji liniowej
- Jak oceniać jakość modeli regresji liniowej,
- Jak interpretować wyniki modelu.
CZĘŚĆ 3
Modele klasyfikacji
Część trzecia poświęcona zostanie modelom klasyfikacyjnym – przejdziemy po kolei przez najważniejsze modele wprowadzając przy okazji niezbędne pojęcia i metody służące niezbędne do poprawnego ich budowania oraz jak najlepszej optymalizacji. W ramach tego modułu zaprezentujemy:
- Model regresji logistycznej,
- Walidację krzyżową (cross-validation) – czym jest, jak stosować
- Drzewa decyzyjne,
- Ensembling: boosting a bagging,
- Lasy losowe,
- Sposoby na tuning parametrów modelu (grid search, random search),
- XGBoost,
- Ocena jakości modeli: krzywe ROC, precision/recallI, miary AUC, accuracy, precision, recall, F1, macierz pomyłek,
- Over/underfitting – czym są, jak je wykryć i jak im przeciwdziałać,
- Sposoby obsługi danych niezbilansowanych – over/undersampling, SMOTE.
CZĘŚĆ 4
Modele nienadzorowane - analiza skupień
W ostatniej części skupimy się modelach z grupy modeli nienadzorowanych – na klasteryzacji. Poruszane zagadnienia będą obejmować:
- Przygotowanie danych pod analizę skupień,
- Modele K-średnich (K-Means),
- Algorytm grupowania hierarchicznego,
- Interpretacja i przedstawianie wyników.
Używane technologie







Cennik i terminy
Materiały do kursu
299PLN
Ponad 200 stron praktycznych materiałów w formacie .pdf
5 gotowych projektów w formacie .ipynb z przejściem przez cały proces przygotowania i modelowania danych wraz z komentarzami + zbiory danych
Dodatkowe zbiory danych do pracy własnej
NAJPOPULARNIEJSZY
Kurs weekendowy
1799PLN
10.06-09.07.2023
soboty i niedziele
08:00 - 11:00
30h zajęć + 20h pracy własnej
Kurs w dni robocze
1799PLN
12.06-13.07.2023
poniedziałki, środy i czwartki
18:00-20:00
30h zajęć + 20h pracy własnej
FAQ
Tak, kurs jest prowadzony od początku do końca zdalnie.
Szacujemy około 20 godzin pracy własnej na przyswojenie materiału, ćwiczenia we własnym zakresie oraz przygotowanie projektu końcowego.
Dostęp do materiałów otrzymujesz dożywotnio, lecz zakazane jest udostępnianie ich osobom spoza kursu.
Zalecamy zapisywanie się na kurs osób, które mają już pewne doświadczenie w pracy z Pythonem oraz znają podstawy statystyki.
Do kursu potrzebny będzie Jupyter Notebook oraz Zoom.
Kurs jest przewidziany na 30 godzin dydaktycznych, które zostaną zrealizowane w przeciągu 5 tygodni.