(Big) Data Science. Jak przewidzieć przyszłość?
O Big Data – czym są duże zbiory danych i jak je wykorzystywać
O Big Data – czym są duże zbiory danych i jak je wykorzystywać
Jesteśmy w takim momencie historii, w którym gromadzenie i przechowywanie danych wzrasta w tempie niewyobrażalnym w stosunku do wcześniejszych dziesięcioleci – wskazuje Dawn E. Holmes. W swej książce "Big data" tłumaczy, czym są duże zbiory danych i jak można je wykorzystywać.
Każdego dnia użytkownicy internetu generują ogrom danych. Ile? Jak czytamy w książce, to ok. 2,5 eksabajtów (EB) danych. Jeden EB to milion terabajtów (TB), czyli 1 i po nim 18 zer. Dla porównania: nośniki pamięci przenośnych – pisze Holmes – są teraz dostępne z pojemnością 1 TB, co jest wystarczające, aby przechowywać ok. 500 godzin filmów lub ponad 300 000 zdjęć. A milion takich nośników? I to tylko jednego dnia.
Tymi danymi są nie tylko zdjęcia, filmiki czy tweety, ale i m.in. elektroniczna dokumentacja medyczna, dane z satelitów wykorzystywane w czasie rzeczywistym do nawigowania (GPS) czy dane z teleskopów. To też wszystkie nasze kliknięcia w wyszukiwarce internetowej.
Autorka w książce krok po kroku tłumaczy logikę działania algorytmów i mechanizmów wykorzystywanych do analizy tych dużych zbiorów danych, w których chodzi o to, by przekształcić ten ogrom danych w użyteczne informacje. Podaje tu proste przykłady z życia codziennego, takie jak wykrywanie oszustw związanych z kartami kredytowymi czy wychwytywanie wśród maili spamu.
Zapoznaje też czytelnika z fachowym słownictwem i narzędziami - pisząc m.in., czym się różnią dane ustrukturyzowane od nieustrukturyzowanych albo o czym mówi Prawo Moore’a. Przy omawianiu kompresji danych Holmes tłumaczy mechanizm pozwalający zmniejszyć objętość plików przy zachowaniu ich pierwotnej jakości, a przy wspomnieniu narzędzia PageRank tłumaczy zasady porządkowania wyskakujących witryn po wpisaniu hasła w wyszukiwarce.
Kolejne rozdziały obejmują tematykę dużych zbiorów danych w medycynie i służbie zdrowia, a także relacji big data-biznes m.in. na przykładzie Amazona czy Netflixa.
W książce mowa również o bezpieczeństwie danych, konieczności ich szyfrowania i ich kradzieży na przykładzie historii Snowdena i WikiLeaks. Całość kończy się rozważaniami, jak duże zbiory danych zmieniają społeczeństwo i jak może wyglądać przyszłość z inteligentnymi domami czy miastami.
„Big data” to kolejny tytuł z serii „Krótkie wprowadzenie” autorstwa ekspertów skupionych wokół Uniwersytetu Oksfordzkiego, wydanej przez Wydawnictwo Uniwersytetu Łódzkiego. Taka też jest ta książka – krótka, bo ma zaledwie 152 strony i faktycznie stanowi wprowadzenie do tematu pod kątem technicznym.
To propozycja dla tych, którzy chcieliby poznać podstawy mechanizmów działania baz danych i algorytmów, choć wiedza tu przedstawiona to zaledwie wierzchołek góry lodowej. Ale taki też jest cel całej serii – wprowadzić w temat, by mieć o nim chociaż podstawowe pojęcie albo zachęcić do zgłębienia wiedzy.
Agnieszka Kliks-Pudlik
Tabele i wykresy przestawne od A do Z dynamiczna analiza dużych zbiorów danych + 35 najlepszych narzędzi i makr
Tabele i wykresy przestawne od A do Z - dynamiczna analiza dużych zbiorów danych
Książka wprowadza w podstawy przygotowywania tabel przestawnych, a także porusza bardzo ważny temat jakości danych. Autor objaśnia podstawowe zasady, do których warto się stosować w trakcie opracowywania danych źródłowych do raportu. Ponieważ najlepiej uczyć się na praktycznych przykładach, książka zawiera również instrukcje, jak utworzyć tabelę przestawną do oceny kosztów w podziale na poszczególne MPK, przeanalizować dane sprzedażowe czy skonsolidować dane z wielu arkuszy. Wyjaśnia także, jak zwizualizować analizowane dane z użyciem raportów przestawnych.
Plus gratis!
35 najlepszych narzędzi i makr
Książka z kolekcji PRAKTYCZNY EXCEL: „35 najlepszych narzędzi i makr” przybliża 35 najbardziej przydatnych w codziennym użyciu makr, które pozwolą przyspieszyć oraz ułatwić wykonywanie zadań i zaawansowanych operacji na danych.
(Big) Data Science. Jak przewidzieć przyszłość?
Data Science, czy sam, niemal mityczny, Data Scientist, są pojęciami bardzo obecne popularnymi lecz nadal mało zdefiniowanymi. Szybkie przeszukiwanie źródeł internetowych pokazjue, że definicja w Wikipedii czy liczne źródła opisujące temat definiują zakres obowiązków stanowiska dość szeroko. Czy jest to związane z naturalną tendencją Internetu do definiowania świata za pomocą sloganów? Nie do końca. Wynika to z szerokich potrzeb rynku, nie tylko wysokich technologii, bo dane w 2017 roku obecne są wszędzie.
Kim jest (Big) Data Scientist?
Nie ma jasnej, preskryptywnej definicji kim jest Data Scientist; nie ma nawet w języku polskim rozsądnego tłumaczenia tego terminu. Najbliższym tłumaczeniem tej angielskiej nazwy funkcjonującej na rynku nie jest naukowiec, jest to raczej badacz danych. Większość definicji korzysta z diagramu Venna, gdzie Data Scientist znajduje się na przecięciu trzech zbiorów umiejętności: matematyki i statystyki, technologii i programowania oraz szeroko interpretowanego biznesu.
Istotnie, pierwsza umiejętność, czyli znajomość matematyki i statystyki wykraczająca poza standardy nawet dość ściśle wykształconych programistów, wydaje się być wymagana. Trzeba pamiętać jednak, że Data Scientist traktuje te narzędzia pragmatycznie i raczej wykorzystuje je do rozwiązywania problemów, a rzadziej tworzy nowe. Ponadto, poza zimną wiedzą ścisłą, potrzebna jest dociekliwość, chęć do pracy z żywymi danymi i odkrywania ich tajemnic.
Umiejętność programowania i ogólnego zorientowania technicznego w świecie zdominowanym przez dane cyfrowe jest dość istotna. Nie można jednak mylić poziomu wymaganego od Data Scientist z inżynierem oprogramowania, czy danych (Data Engineer); to ci drudzy tworzą systemy produkcyjne od których wymaga się niezawodności i szybkości działania. Data Scientist musi czuć się dobrze programując w celu tworzenia nowych, nie zawsze predefiniowanych rozwiązań i ścieżek w trakcie wyciągania wartości z danych. Niemniej, jest to raczej praca badawcza, która może być potem przekuta w element ciągłego systemu analizy danych. Ponadto, duża ilość danych, znana również jako Big Data, staje się w dzisiejszym czasie faktem a nie nowym zjawiskiem, co stawia przed Data Scientistem dodatowe wymagania techniczne.
Ostatnią cechą, choć jedną z najważniejszych i często nieco zaniedbanych, są umiejętności biznesowe. Ten zbiór można podzielić na dwie podstawowe kategorie: znajomość domeny biznesowej i umiejętności komunikacyjne. Ta pierwsza, czyli znajomość domeny, jest często stawiana na dość wysokim miejscu w wielu dziedzinach. Niemniej, bardzo trudno znaleźć osoby spełniające szerokie wymagania postawione powyżej i dodatkowo znające nasz biznes. Zatem ważne jest, aby Data Scientist chciał się uczyć i pragnął zrozumieć biznes słuchając ludzi w nim już doświadczonych, ale niekoniecznie był ekspertem w danej dziedzinie.
Do tego kluczowa jest też komunikacja. Data Scientist opowiada historię danych, przez co buduje wartość w biznesie. Nie da się tej wartości zbudować tylko poprzez raporty i wizualizację, ale potrzebne jest też odpowiednie komunikowanie wyników badań decydentom. Jest to szalenie ważne, gdyż słaba komunikacja może pogrążyć nawet najlepszy wynik czy model, przez niezrozumienie jego przesłanek i brak wykorzystania w procesie biznesowym.
Czego szuka rynek?
Tak jak definicja, zakres obowiązków Data Scientistów w firmach bywa różny. Trzeba zacząć od tego, że pojęcie jest dość często nadużywane, ze względu na jego chwytliwość. Często pod nazwą Data Scientist kryje się praca statystyka, analityka danych, czy osoby do pracy w środowiskach bazodanowych, związana bardziej z klasycznym raportowaniem i szeroko pojętym Business Intelligence. Oczywiście zadania te są związane z analizą danych, ale brakuje im wolności i eksploracji, które charakterystyczne są dla Data Science. Ponadto, dużo rzadziej w tych przypadkach opowiada się historię danych, a raczej skupia bardziej na suchych metrykach, które są już samodzielnie interpretowane przez biznes.
Wiele ofert pracy pozornie dla Data Scientistów, jest bardziej skierowana do inżynierów danych (Data Engineer). Są to osoby, które najczęściej posiadają większą część cech typowych dla Data Scientista, ale ich praca kładzie większy nacisk na aspekt techniczny. Osoby takie projektują i wdrażają produkcyjne systemy analizy danych, które mają być przede wszystkim stabilne i wiarygodne. Używają oni często narzędzi statystycznych ale raczej w formie metryk i analizy jakości systemy, a nieco mniejszy nacisk kładą na eksplorację danych. Dodatkowo, element wiedzy biznesowej w tym przypadku nie jest taki istotny, gdyż z reguły biznes podczas decyzji o budowie systemu przetwarzania danych, rozumie, przynajmniej częściowo, swoje potrzeby.
Modelowy Data Scientist analizuje dane, tworzy wizualizacje i raporty oraz komunikuje wyniki biznesowi, mając do pomocy zespół stricte techniczny. Niemniej, w wielu firmach potrzebne są osoby o szerokim spektrum umiejętności. Często Data Scientist musi zamieniać się również w inżyniera i uczestniczyć w budowie systemów produkcyjnych, mając do pomocy programistów i administratorów. Dodatkowo, Big Data, które jest od wielu lat zjawiskiem samym w sobie, staje się w dzisiejszych czasach faktem. Wiele firm ma coraz więcej danych, z którymi nie są w stanie poradzić sobie systemy tradycyjne. To właśnie Data Science czyni Big Data wartym inwestycji poprzez wyciądanie z niego wartości bez tego są to tylko drogie systemy do zbierania zróżnicowanych danych. Big Data Scientist musi wówczas często zejść na poziom techniczny analizy danych, co skutkuje na przykład koniecznością korzystania z wielu środowisk przetwarzania danych i języków programowania (koncepcja polyglot programmer). Poza dość standardowymi językami typu R, Python czy SQL, pojawiają się dodatkowe, jak Java i Scala czy dialekty NoSQL.
Potrzeby rynku są szerokie, zatem też szeroki jest wybór dróg jakimi można podążyć w karierze w Data Science. Najważniejsze to dopasowanie swoich umiejętności do stawianych wymagań, ciągła chęć nauki, ale też dobre odnajdywanie się wewnątrz danej firmy. Bo wartość w biznesie tworzy połączenie analizy, technologii i komunikacji; żaden z tych elementów w izolacji nie pozwoli na osiągnięcie sukcesu.
Artykuł stworzony dla MamStartup.pl