DATAcademy

Narzędzia niezbędne w pracy z obszaru Data Science

Jako Data Scientist powinieneś znać i biegle posługiwać się przynajmiej kilkoma narzędziami, które umożliwią Ci bezproblemową pracę z danymi. W niniejszym artykule opiszemy zarówno podstawowe jak i nieco mniej oczywiste narzędzia wykorzystywane na co dzień w pracy z obszaru Data Science.

Narzędzia Data Science sql

1. SQL

Narzędzie, z którym pracują nie tylko analitycy czy Data Scientiści ale również programiści lub inne osoby z obszaru IT. Umożliwia odczyt i zapis danych z/do baz danych, co stanowi zwykle pierwszy i ostatni krok pracy nad projektem analitycznym. Najczęściej wykorzystywane relacyjne bazy danych to: Oracle, MS SQL Server czy PostgreSQL. Znajomość SQL jest jedną z najbardziej podstawowych dla każdego aspirującego analityka. Bez tego narzędzia w obszarze Data Science ani rusz!

Na stanowisku analityka danych bądź Data Scientista powinieneś/aś wiedzieć:

  • w jaki sposób wyciągnąć dane z tabel źródłowych,
  • jak zapisać dane do tabel,
  • w jaki sposób łączyć ze sobą dane z wielu różnych źródeł,
  • jak modyfikować i usuwać dane w tabelach
  • w jaki sposób grupować i wyliczać podstawowe statystyki na danych źródłowych
  • jak pisać efektywne zapytania i podzapytania

Na początku może brzmieć trudno, ale w praktyce składnia SQL jest dość prosta. Bardzo szybko można opanować podstawy tego języka zapytań.

python jupyter notebook Podstawy Pythona w ML

2. Jupyter Notebook

Python to obecnie język programowania numer jeden jeśli chodzi o Data Science (tutaj dowiedz się czemu). W zestawieniu nie mogło zatem zabraknąć narzędzia do obsługi tego języka. Jupyter Notebook umożliwia czytelne pisanie kodu Pythonowego w formie notatników, dzięki czemu od razu widzimy rezultat zwracany przez fragment kodu. W efekcie Jupyter notebook poza samym kodem umożliwia tworzenie przejrzystych raportów w formie .html, które (pod warunkiem opatrzenia go stosownymi komentarzami) bez problemu czytać mogą również osoby nietechniczne. Jupyter Notebook pozwala również na dzielenie się kodem z innymi osobami, szczególnie jeśli zintegrowany jest z chmurą.

Narzędzia Data Science

3. Microsoft Excel

Może się wydawać, że to dość przestarzałe narzędzie, tym niemniej jest ciągle w obiegu. Wykorzystywany szczególnie do wstępnej analizy niewielkich zbiorów danych, do prostych wizualizacji czy budowy tabel przestawnych.

Narzędzia Data Science

4. Tableau lub inne narzędzie do wizualizacji

Umożliwia tworzenie dashboardów i wizualizacji, które mogą opisywać dany zbiór danych lub np.podsumowywać wyniki zbudowanego modelu predykcyjnego. Tego typu narzędzia są obecnie bardzo powszechne gdyż dzięki nim w prosty i czystelny sposób można zaprezentować swoją techniczną pracę osobom zupełnie nietechnicznym.

Obróbka analiza danych rstudio

5. RStudio

Pomimo, że to Python zajmuje miejsce numer 1 jeśli chodzi o popularność w kontekście analizy danych i Data Science to w zestawieniu nie mogło zabraknąć narzędzia do obsługi drugiego najbardziej popularnego języka w tym zakresie. Język R daje spore możliwości jeśli chodzi o pogłębioną analizę statystyczną (i tym samym jest częstym wyborem dla statystyków), ale umożliwia również podobnie jak Python budowę modeli predykcyjnych wszelakiej maści.

Narzędzia Data Science

6. Narzędzie do AutoML (np.H20 czy DataRobot)

Jeśli wiesz już co nieco z zakresu Data Science ale nie wiesz czy warto uczyć się programować (np. w Pythonie), warto najpierw spróbować swoich sił w jednym z narzędzi autoML. Są to narzędzia, dzięki którym zbudujesz modele analityczne bez wiedzy programistycznej. Przeciągając i łącząc odpowiednie kafelki, ustawiając stosowne parametry możesz przy ich użyciu zbudować i sprawdzić działanie wielu modeli analitycznych.

Narzędzia Data Science

7. Narzędzie do kontroli wersji (Git)

Narzędzia kontroli wersji, często utożsamiane z gitem pomagają kontrolować wieloetapowe projekty, często współtworzone przez wiele osób. Podstawowa znajomość tego narzędzia, którą warto opanować obejmuje utrzymywanie bieżących repozytoriów, wykonywanie commitów czy umiejętność śledzenia poprzednich zmian i zarządzania nimi.

Oczywiście zaprezentowane narzędzia, choć często wykorzystywane w obszarze Data Science nie stanowią kompletnej listy. Lista ta z pewnością może być rozbudowana o inne, mniej lub bardziej użyteczne narzędzia, o mniejszym lub większym stopniu zaawansowania. Tym niemniej, jeśli przyuczasz się do pracy w zawodzie związanym z Data Science rozważ poznanie wyżej wskazanych narzędzi.

Leave a Comment

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *