Jeżeli zdarzyło Ci się przeglądać oferty praktyk związanych z analizą danych, na pewno zauważyłeś, że każda z nich wymaga doświadczenia. Nasuwa się wtedy pytanie – „Jak mam mieć doświadczenie, skoro nigdy jeszcze nie pracowałem?”.
Odpowiedź na to pytanie jest prosta. Swoje doświadczenie w pracy z danymi możemy udowodnić nie tylko pracując już na jakimś stanowisku jakiś okres czasu – możemy swoje doświadczenie również pokazać prezentując projekty, które ukończyliśmy.
Zanim zaaplikujesz na praktyki związane z Data Science istotne jest twoje portfolio. Znajdować się w nim powinno przede wszystkim kilka projektów pokazujących twoje umiejętności, najlepiej po co najmniej jednym z kilku kluczowych zagadnień: regresja, klasyfikacja oraz klasteryzacja.
W tym artykule do każdego z tych zagadnień przedstawiamy po dwa zbiory danych, dzięki którym zbudujesz swoje pierwsze projekty Data Science. Prezentowane zbiory klasyfikujemy jako podstawowe i średnio-zaawansowane w zależności od zakresu zmiennych i trudności w przygotowaniu danych pod proces modelowania.
Na wstępie warto jeszcze wspomnieć, iż świetnym źródłem jeśli chodzi o zbiory danych Data Science jest platforma https://kaggle.com. Jeśli jeszcze jej nie znacie, koniecznie dodajcie ją do swoich zakładek! Znajdziecie tam wiele ciekawych zbiorów danych oraz gotowych projektów wykonanych przez innych analityków. Jest to świetne źródło wiedzy i inspiracji dla każdego Data Scientista. Prezentowane w tym artykule zbiory danych również pochodzą z tej platformy.
Projekt zawierający problem regresyjny – przewidywanie zmiennej ilościowej
Z reguły pierwszym projektem, którym powinniśmy się zająć jest projekt regresyjny. Jest to projekt, w którym będziemy przewidywali wartości zmiennej ilościowej.
Podstawowym zbiorem danych, od którego warto zacząć jest Boston Housing Dataset, który zawiera pewne zagregowane informacje o nieruchomościach w Bostonie. Celem analizy jest przewidzenie ceny nieruchomości. Zbiór danych można pobrać z platformy kaggle pod następującym linkiem:
Powyższy zbiór wbudowany jest też w samego Pythona. Jego import możliwy jest w następujący sposób:
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
boston = load_boston()
df = pd.DataFrame(data = np.c_[boston['data'], boston['target']],
columns = list(boston['feature_names']) + ['target'] )
Sam zbiór wygląda następująco:

Jeśli chodzi o nieco bardziej zaawansowany zbiór, polecamy zbiór danych dotyczący samochodów używanych. Zmiennymi objaśniającymi są cechy samochodów, a zmienną objaśnianą cena samochodu. Zbiór ten wymaga od użytkownika pewnego pre-processingu danych, imputacji brakujących wartości i innych przekształceń, w związku z czym nie jest to najprostszy możliwy zbiór. Link do zbioru znajduje się poniżej:
Zbiór wygląda następująco:

Projekt zawierający problem klasyfikacyjny
Jeżeli stworzycie już swój pierwszy projekt regresyjny, kolejnym krokiem powinien być projekt, w którym będziecie przewidywali zmienną jakościową. Takie projekty nazywamy klasyfikacyjnymi.
W zależności od poziomu trudności polecamy dla osób początkujących spróbować swoich sił ze zbiorem Titanic, w którym przewidujemy na podstawie pewnego zestawu zmiennych objaśniających, czy dana osoba przeżyje katastrofę Titanica, czy nie. Link do zbioru znajduje się poniżej:
Zbiór wygląda następująco:

Jeżeli nie jest to już wasz pierwszy projekt klasyfikacyjny i chcielibyście coś bardziej wymagającego, to idealnym projektem może być zbiór danych Bank Marketing Campaign, w którym naszym celem jest przewidywanie, czy dana osoba zaakceptuje kampanię marketingową i otworzy konto bankowe. W tym zbiorze trzeba dokonać dość dużej ilości pre-processingu danych, co sprawia, że zbiór jest raczej dla osób średnio-zaawansowanych. Link do zbioru zamieszczamy poniżej:
Zbiór prezentuje się następująco:

Projekt klasteryzacyjny
Aby nasze portfolio nie składało się z samych projektów uczenia maszynowego nadzorowanego, powinniśmy również dodać jeden projekt przedstawiający uczenie maszynowe nienadzorowane – na przykład projekt grupujący na klastry.
Polega on na pogrupowaniu obserwacji do poszczególnych grup bazując na podanych zmiennych objaśniających.
Najlepszym na początek i chyba najbardziej popularnym zbiorem wykorzystywanym pod uczenie nienadzorowane jest zbiór Iris. Zbiór ten opisuje różne parametry pewnych roślin. W wyniku klastrowania możliwe jest wyszczególnienie konkretnych rodzajów tych roślin. Link do zbioru poniżej:
Zbiór Iris, podobnie jak Boston Housing znajdziemy również w ramach samego Pythona. Jego import wygląda jak pokazano poniżej:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
iris = load_iris()
df = pd.DataFrame(data= np.c_[iris['data']],
columns= iris['feature_names'])
Dane wyglądają następująco:

Dla osób bardziej zaawansowanych polecamy zbiór danych Marketing Campaign, w którym mamy informację na temat klientów pewnej firmy – na podstawie tych informacji musimy pogrupować klientów w możliwie najbardziej jednorodne grupy.
Podgląd zbioru:

To wszystko jeśli chodzi o proponowane przez nas zbiory danych pod wasze pierwsze projekty Data Science.
Pamiętajcie, że po przygotowaniu waszych projektów zalecane jest umieszczenie ich na githubie. Dzięki temu osoba sprawdzająca wasze CV miała łatwość w przeglądaniu waszych projektów 😊
Super porady 😀