Data Science od podstaw w Python | DATAcademy

DATAcademy

 

 

DATA SCIENCE

OD PODSTAW

O szkoleniu

Kurs “Data Science od podstaw” ma na celu wprowadzenie uczestników w świat analizy danych.  Podczas kursu uczestnicy poznają podstawowe pojęcia związane z uczeniem maszynowym, nauczą się przygotowywać dane do modelowania oraz tworzyć modele klasyfikacyjne, regresyjne oraz nienadzorowane.

Dla kogo jest kurs

Kurs Data Science od podstaw jest przeznaczony dla osób, które chcą:

  • zapoznać się z większością pojęć związanych z analizą danych,
  • nauczyć się tworzyć modele uczenia maszynowego,
  • poznać techniki efektywnego czyszczenia danych,
  • lepiej zrozumieć na czym polega uczenie maszynowe,
  • nauczyć się przeprowadzić od początku do końca projekt Data Science.

Czego się nauczysz?

data science kurs szkolenie big data

Zajęcia w dogodnym czasie

Do wyboru grupa w tygodniu lub weekendowa

50 godzin nauki

30 godziny zajęć + 20 godzin pracy własnej w czasie 5 tygodni

Kurs średniozaawansowany

Dla osób, które znają język Python na poziomie co najmniej podstawowym

Kameralna grupa

Maksymalnie 5 osób w grupie

Certyfikat ukończenia

Poświadczający nabyte umiejętności

Zdalna forma nauki

Zajęcia na platformie Zoom

Materiały do pracy własnej

Dedykowane do każdej części, możliwość zakupu samych materiałów

Wsparcie po zakończeniu kursu

Pozostajemy dostępni do pomocy w formie mailowej również po zakończeniu szkolenia

Program szkolenia

  • Szkolenie Data Science od podstaw składa się z 4 wymienionych poniżej części.
  • W trakcie szkolenia przechodzimy cały proces modelowania od A do Z.
  • Nie robimy przydługiego wstępu z teorii (ograniczamy się do potrzebnego minimum), szybko przechodzimy do praktyki i uczymy na konkretnych przykładach.
  • Na ostatnich zajęciach uczestnik otrzyma od nas zbiór danych do wykonania projektu końcowego obejmującego wszystkie omawiane zagadnienia – projekt zostanie sprawdzony i oceniony. Jego wykonanie będzie warunkiem otrzymania końcowego certyfikatu.
  • Około 2 tygodnie po ostatnich zajęciach zorganizowane zostaną dodatkowe indywidualne 20-minutowe konsultacje dla chętnych, w ramach których uczestnik będzie miał możliwość skonsultowania wątpliwości oraz problemów dotyczących zagadnień poruszanych w czasie kursu oraz przy wykonywaniu projektu końcowego.

CZĘŚĆ 1

Przygotowanie danych do modelowania

W ramach pierwszej części szkolenia omawiać będziemy proces
poprzedzający modelowanie, choć nie mniej ważny od niego. Przedstawione zarówno teoretycznie jak i praktycznie zostaną takie zagadnienia jak:

  • Analiza opisowa zbioru danych,
  • Feature engineering – modyfikacje i tworzenie nowych zmiennych,
  • Obsługa braków danych,
  • Wstęp do text miningu,
  • Analiza wartości odstających,
  • Standaryzacja zmiennych,
  • One-hot-encoding zmiennych kategorycznych,
  • Analiza zależności między zmiennymi,
  • Metody selekcji zmiennych do modelowania,
  • Redukcja wymiarów (PCA),
  • Podział danych na część treningową i testową.

CZĘŚĆ 2

Model regresji liniowej

W części drugiej rozpoczniemy proces modelowania od najprostszego z modeli – regresji liniowej. W ramach tego modułu uczestnik nauczy się:

  • W jakich sytuacjach buduje się modele regresji liniowej,
  • Jakie transformacje powinny poprzedzić budowę modelu,
  • Czym jest regularyzacja (ridge, lasso) i jak ją stosować w praktyce,
  • Na czym polegają i jak budować modele regresji liniowej
  • Jak oceniać jakość modeli regresji liniowej,
  • Jak interpretować wyniki modelu.

CZĘŚĆ 3

Modele klasyfikacji

Część trzecia poświęcona zostanie modelom klasyfikacyjnym – przejdziemy po kolei przez najważniejsze modele wprowadzając przy okazji niezbędne pojęcia i metody służące niezbędne do poprawnego ich budowania oraz jak najlepszej optymalizacji. W ramach tego modułu zaprezentujemy:

  • Model regresji logistycznej,
  • Walidację krzyżową (cross-validation) – czym jest, jak stosować
  • Drzewa decyzyjne,
  • Ensembling: boosting a bagging,
  • Lasy losowe,
  • Sposoby na tuning parametrów modelu (grid search, random search),
  • XGBoost,
  • Ocena jakości modeli: krzywe ROC, precision/recallI, miary AUC, accuracy, precision, recall, F1, macierz pomyłek,
  • Over/underfitting – czym są, jak je wykryć i jak im przeciwdziałać,
  • Sposoby obsługi danych niezbilansowanych – over/undersampling, SMOTE.

CZĘŚĆ 4

Modele nienadzorowane - analiza skupień

W ostatniej części skupimy się modelach z grupy modeli nienadzorowanych – na klasteryzacji. Poruszane zagadnienia będą obejmować:

  • Przygotowanie danych pod analizę skupień,
  • Modele K-średnich (K-Means),
  • Algorytm grupowania hierarchicznego,
  • Interpretacja i przedstawianie wyników.

Używane technologie

python programowanie
python jupyter notebook Podstawy Pythona w ML
Data Science od podstaw numpy biblioteka programowanie python
Data Science od podstaw pandas programowanie python
Data Science od podstaw
matplotlib wizualizacje
Data Science od podstaw xgboost

Cennik i terminy

Materiały do kursu

299PLN

Ponad 200 stron praktycznych materiałów w formacie .pdf

5 gotowych projektów w formacie .ipynb z przejściem przez cały proces przygotowania i modelowania danych wraz z komentarzami + zbiory danych

Dodatkowe zbiory danych do pracy własnej

NAJPOPULARNIEJSZY

Kurs weekendowy

1649PLN

soboty i niedziele

08:00 - 11:00

30h zajęć + 20h pracy własnej

Kurs w dni robocze

1649PLN

poniedziałki, środy i czwartki

18:00-20:00

30h zajęć + 20h pracy własnej

FAQ

Tak, kurs jest prowadzony od początku do końca zdalnie.

Szacujemy około 20 godzin pracy własnej na przyswojenie materiału, ćwiczenia we własnym zakresie oraz przygotowanie projektu końcowego. 

Dostęp do materiałów otrzymujesz dożywotnio, lecz zakazane jest udostępnianie ich osobom spoza kursu.

Zalecamy zapisywanie się na kurs osób, które mają już pewne doświadczenie w pracy z Pythonem oraz znają podstawy statystyki.

Do kursu potrzebny będzie Jupyter Notebook oraz Zoom.

Kurs jest przewidziany na 30 godzin dydaktycznych, które zostaną zrealizowane w przeciągu 5 tygodni.