Istnieje bardzo wiele skomplikowanych definicji Data Science, lecz chyba najprostsza i prawdopodobnie najlepsza jest zwykłym tłumaczeniem z języka angielskiego, czyli nauka o danych. Tylko pytanie brzmi: jakich danych i w jaki sposób różni się ta nauka od np. statystyki?
W dzisiejszych czasach dane pozyskiwane są w tempie wykładniczym.
Każde urządzenie elektroniczne gromadzi dane, począwszy od telefonów, przez komputery kończąc na sprzętach gospodarstwa domowego. Przykładowo samochód w pełni elektryczny potrafi generować 25 gigabajtów danych po godzinie jazdy. Danych napływa ogromna ilość. Powoduje to wzrost popytu na narzędzia oraz osoby, które potrafią te dane w odpowiedni sposób przetwarzać, przechowywać i analizować.
Postarajmy się zrozumieć różnicę między Data Science, a statystyką. W Internecie krąży bardzo ciekawa definicja osoby zajmującą się nauką o danych: Data Scientist to osoba, która umie lepiej statystykę niż przeciętny programista, oraz umie lepiej programować niż przeciętny statystyk. Oznacza to, że Data Scientist potrafi poddawać dane analizie statystycznej, ale również potrafi programować, w odróżnieniu od zwykłego statystyka, który z reguły tego nie potrafi. Ponadto, dobry Data Scientist to osoba, która potrafi w czytelny sposób komunikować techniczne zawiłości na prosty język biznesowy. Związane jest to z faktem, iż niejednokrotnie osoby na tym stanowisku pracują blisko z biznesem.
Aby móc wyciągnąć wartościowe informacje z surowych, nieprzekształconych danych, niezbędnych jest wiele umiejętności. Umiejętności te zaczerpnięte są z różnych dziedzin takich jak informatyka, statystyka czy uczenie maszynowe. Osoby posiadające wszystkie te umiejętności dobrze rozwinięte mogą nazywać się mistrzem danych (ang. Data Scientist).
Proces, przez który większość mistrzów danych musi przejść jest następujący:
- Na początku trzeba zrozumieć jaki problem chcą rozwiązać i na jakie pytania poszukują odpowiedzi
- Po zrozumieniu problemu należy pozyskać dane, które pozwolą rozwiązać zdefiniowany problem
- Po pozyskaniu danych należy je przekształcić oraz oczyścić tak, aby nadawały się do ewentualnego modelowania
- Na koniec mistrz danych buduje model, który pozwala na rozwiązanie wcześniej zdefiniowanego problemu
Zgodnie z powyższym procesem moglibyśmy powiedzieć, że nauka o danych jest interdyscyplinarną nauką. Łączy ona wiedzę z kilku dziedzin (statystyka, uczenie maszynowe i informatyka) w celu uzyskania upragnionych informacji z danych.
Warto wspomnieć, że rynek Data Science bardzo szybko rozwija się, a zapotrzebowanie na osoby z kompetencjami w tym zakresie rośnie. Obecnie o pracę w obszarze Data Science można starać się w zaskakująco dużej liczbie różnych branż.
Pingback: 10 sposobów na poprawę swoich umiejętności jako Data Scientist | DATAcademy
Pingback: Dlaczego warto uczyć się Pythona? | DATAcademy
Pingback: Zbiory danych na początek przygody z Data Science | DATAcademy
Pingback: Rozmowa rekrutacyjna na stanowisko Data Scientist | DATAcademy
Pingback: Data Science na przestrzeni lat | DATAcademy