Big Data – duże liczby, nowe możliwości, nowe narzędzia

By Weronika Skotnicka

narzędzia do analizy danych biznesowych!

5 najpopularniejszych narzędzi do analizy danych biznesowych

Aleksandra Gołyga | Business Intelligence | 02.11.2020

W dzisiejszym biznesie procesy tworzenia strategii i podejmowania decyzji coraz częściej wspierane są przez twarde dane, a nie przez intuicję menadżerów, a jest to możliwe dzięki wykorzystaniu narzędzi typu Business Intelligence. Wdrożenie takich rozwiązań pozwala zwiększyć efektywność prowadzonych działań oraz konkurencyjność firmy na rynku. Ważne jest jednak, żeby dopasować rozwiązania analityczne do konkretnych potrzeb swojej organizacji.

Możliwości narzędzi Business Intelligence

Działalność biznesowa wiąże się z ciągłym generowaniem ogromnych wolumenów danych, w których kryją się informacje o procesach w firmie, poziomie oferowanych usług czy produktów, zadowoleniu klientów, rentowności projektów, strukturze dochodów i wielu innych wskaźnikach, których znajomość jest niezbędna do skutecznego zarządzania. Ważne jest, żeby informacje te poznać w odpowiednim czasie, zrozumieć i odpowiednio wykorzystać. Narzędzia, jakie oferują systemy Business Intelligence, są przydatne w każdej organizacji, niezależnie od wielkości i rodzaju prowadzonej działalności. Oto kilka z nich:

Dynamiczne analizy umożliwiające wydobycie informacji prosto z hurtowni danych – na bieżąco, bez konieczności angażowania działu IT. Dzięki nim podejmowanie decyzji biznesowych jest procesem szybszym i prostszym.

umożliwiające wydobycie informacji prosto z hurtowni danych – na bieżąco, bez konieczności angażowania działu IT. Dzięki nim podejmowanie decyzji biznesowych jest procesem szybszym i prostszym. Kokpity menadżerskie prezentujące dane za pomocą interaktywnych obiektów, wykresów, diagramów. Umożliwiają stały dostęp do raportów z aktualnymi wynikami firmy prezentowanymi za pomocą czytelnych wizualizacji.

prezentujące dane za pomocą interaktywnych obiektów, wykresów, diagramów. Umożliwiają stały dostęp do raportów z aktualnymi wynikami firmy prezentowanymi za pomocą czytelnych wizualizacji. Analizowanie danych pochodzących z rozproszonych źródeł z całego przedsiębiorstwa.

źródeł z całego przedsiębiorstwa. Przechowywanie uporządkowanych danych o ujednoliconym formacie w hurtowni danych.

o ujednoliconym formacie w hurtowni danych. Samodzielność użytkowników podczas tworzenia analiz, czyli funkcja self-servic e .

Integracja z systemami, które firma już posiada, takimi jak systemy ERP, systemy księgowe, e-commerce czy do zarządzania magazynem, co pozwala na rozszerzenie ich możliwości związanych z generowaniem raportów i analizą danych. W ten sposób zyskuje się pełny obraz funkcjonowania organizacji.

które firma już posiada, takimi jak systemy ERP, systemy księgowe, e-commerce czy do zarządzania magazynem, co pozwala na rozszerzenie ich możliwości związanych z generowaniem raportów i analizą danych. W ten sposób zyskuje się pełny obraz funkcjonowania organizacji. Możliwość drążenia danych ( data mining ), dzięki którym raporty są bardziej szczegółowe.

( ), dzięki którym raporty są bardziej szczegółowe. Analiza historycznych prawidłowości i predykcja przyszłych trendów.

Korzyści płynące z analizy danych

Poprawnie przeprowadzona analiza danych to klucz do otrzymania wysokiej jakości informacji o funkcjonowaniu firmy. Uzyskanie dzięki takim informacjom wnioski mogą posłużyć do usprawnienia procesów, ulepszenia produktów oraz usług w oparciu o wyniki analiz trendów, efektów, wydajności poszczególnych pracowników, raportów sprzedażowych i finansowych.

Poniżej przedstawiamy najpopularniejsze na rynku narzędzia klasy Business Intelligence.

Popularne narzędzia Business Intelligence

QlikView

Narzędzie Business Intelligence znane przede wszystkim ze swojej szybkości oraz możliwości pracy z każdym źródłem danych. W środowiskach hybrydowych odpowiada najczęściej za warstwę ładowania danych, z powodzeniem może zastąpić tradycyjną hurtownię danych. Dzięki temu, że system posiada bardzo zaawansowane funkcje kastomizacji, może być źródłem bardzo dobrze wyglądających raportów, w których przestrzeń analityczną można zaplanować z dokładnością do jednego piksela. W jego szerokiej palecie możliwości znajduje się miedzy innymi analiza trendów, a także bardzo zaawansowana funkcja pracy zespołowej w tworzeniu i analizowaniu raportów.

Migracja z QlikView do Qlik Sense. Po co się przenosić? Czy warto? Przeczytaj artykuł

Qlik Sense

Narzędzie typu self-service, którym samodzielnie mogą posługiwać się pracownicy, bez konieczności angażowania działu IT. Jest doskonałym uzupełnieniem QlikView w środowiskach hybrydowych, a także być z powodzeniem wykorzystywany jako podstawowe narzędzie do analizy danych w firmie. Charakteryzuje się krótkim czasem ładowania raportu oraz błyskawiczną reakcją na wybierane przez użytkownika filtry. Posiada wygodną funkcję drag & drop oraz nowoczesny design umożliwiający tworzenie responsywnych kokpitów menadżerskich, które dzięki temu mogą być wyświetlane z powodzeniem na ekranie komputera, tabletu czy smarfona. Dodatkowo na urządzeniach z system iOS możliwe jest używanie natywnej aplikacji dostarczonej przez Qlika.

Microsoft Business Intelligence (MS BI)

Platforma typu self-service, oparta o SQL Server. Można ją rozszerzyć o dodatkowe systemy, takie jak SharePoint Server, Microsoft Excel czy Power BI. Świetnie sprawdza się w dużych organizacjach, nie tylko dzięki integracji z pakietem Office, ale również ze względu na możliwość dostarczania raportów w odpowiednich formatach, a także dzięki harmonogramom – w odpowiednim czasie. Podobnie jak produkty Qlik, MS Business Intelligence posiada możliwość przeprowadzenia analiz predykcyjnych. Co więcej, ramach platformy MS Business Intelligence dostarczany jest serwer bazy danych, na którym można zbudować hurtownię danych. Platforma posiada również możliwość analizy Big Data oraz mobilnego dostępu z każdego urządzenia.

Microsoft Power BI

Microsoft Power BI od lat jest liderem w zestawieniu Gartnera. Narzędzie łączy się i integruje z platformą chmurową Azure. Jest to rozwiązanie self-service, z którego obsługą poradzi sobie każdy użytkownik samodzielnie. Raporty i kokpity menadżerskie w Power BI wyglądają nowocześnie, są dostępne na wszystkich urządzeniach, można także dowolnie zarządzać ich odbiorcami. Dane do raportów pobierane są z różnych źródeł, tworząc wielowymiarowe modele danych, dzięki którym możliwe jest prowadzenie analiz w czasie rzeczywistym. Można je dodatkowo uzupełniać o własne elementy i tworzyć interaktywną prezentację wyników.

Zalety Microsoft Power BI: Łatwość obsługi – dzięki narzędziu self-service, jakim jest Power BI, użytkownicy mogą łatwo analizować dane i tworzyć samodzielnie wizualizacje i raporty.

– dzięki narzędziu self-service, jakim jest Power BI, użytkownicy mogą łatwo analizować dane i tworzyć samodzielnie wizualizacje i raporty. Dostępność raportów – raporty są dostępne za pomocą przeglądarki lub urządzeń mobilnych.

– raporty są dostępne za pomocą przeglądarki lub urządzeń mobilnych. Wysokie standardy bezpieczeństwa – dane są zabezpieczone przez firmę Microsoft. Użytkownicy mogą zarządzać dostępami i uprawnieniami w raportach.

– dane są zabezpieczone przez firmę Microsoft. Użytkownicy mogą zarządzać dostępami i uprawnieniami w raportach. Możliwości sztucznej inteligencji – dzięki funkcjonalności Q&A użytkownicy mogą zadawać pytania w języku naturalnym.

– dzięki funkcjonalności Q&A użytkownicy mogą zadawać pytania w języku naturalnym. Integracje z innymi systemami – Microsoft Power BI integruje się z systemami klasy ERP i CRM, także tymi dostarczanymi przez innych producentów.

– Microsoft Power BI integruje się z systemami klasy ERP i CRM, także tymi dostarczanymi przez innych producentów. Obniżenie kosztów budowy aplikacji – dzięki Power Platform użytkownicy uzyskują dostęp do narzędzi, które bez użycia kodu pozwalają budować aplikacje biznesowe i atomatyzować procesy.

Tableau

Tableau to narzędzie, które w 2020 roku uplasowało się na drugim miejscu w Magicznym Kwadracie Gartnera. Tableu korzysta z funkcjonalności Ask Data i Explain Data, które wykorzystują przetwarzanie języka naturalnego oraz mechanizmy AI i statystykę dla jeszcze lepszej analizy danych – zarówno dla użytkowników biznesowym, jak i osób, które nie mają doświadczenia w obszarze data science. Tableu to kolejne narzędzie self-service wyposażone w funkcję drag&drop, które umożliwia tworzenie wizualizacji i dashboardów menadżerskich. System jest bardzo prosty i intuicyjny w obsłudze, umożliwia sortowanie danych, filtrowanie wyników oraz drążenie danych.

Podsumowanie

Jak widać, istnieje kilka rozwiązań, dzięki którym analiza danych w naszej firmie może być o wiele łatwiejsza. Przed wdrożeniem wybranego narzędzia należy zastanowić się, jakie są nasze oczekiwania i potrzeby w zakresie analizy danych – czy potrzebujemy bardzo rozbudowanych narzędzi analitycznych, obejmujących wszystkie działy, czy też może wystarczy nam na początek kilka podstawowych wizualizacji, które wskażą najważniejsze trendy w firmie.

Na początek warto wypróbować jedno lub kilka z opisanych wyżej rozwiązań – zwłaszcza że wiele z nich udostępnia darmowe wersje. Kilkumiesięczna obserwacja możliwości narzędzia i obrazu naszej firmy, który wyłania się z danych, pozwala przekonać się, jakie rezultaty można otrzymać przy wykorzystaniu profesjonalnych narzędzi Business Intelligence. Wprowadzenie odpowiednich zmian czy wdrożenie i testowanie nowych strategii może być początkiem wykorzystywania danych do zarządzania procesami w całej organizacji.

Czym jest Big Data?

W branży IT nie ma chyba obecnie bardziej gorącego terminu niż Big Data. Analiza zbiorów danych jest dzisiaj kluczowa podczas rozwijania produktów cyfrowych. Użytkownicy Internetu, aplikacji i telefonów komórkowych, dostarczają tysiące informacji o swoich zachowaniach, które można odpowiednio grupować i wykorzystywać.

Wszystko, codziennie czyności człowieka i maszyn w świecie cyfrowym, wytwarzają terabajty danych. Do niedawna mówiło się, że matematyka jest królową wszystkich nauk, bowiem wszystko, co możemy opisać w postaci liczb pozwala nam zrozumieć otaczającą rzeczywistość, a także projektować modele dotyczące przyszłości. Dzisiaj monitorowanie naszych zachowań, przyzwyczajeń, a także planów na przyszłość jest znacznie łatwiejsze, wszystko to za sprawą tysięcy danych, które produkuje każdy użytkownik Internetu. Ich analiza, przetwarzanie i gromadzenie to elementy procesu określanego mianem Big Data.

Nowoczesne technologie i narzędzia Big Data umożliwiają zaawansowaną analizę danych dostarczającą firmom informacji np. o zachowaniach konsumenckich, ścieżkach samochodów autonomicznych, zachowaniach podejmowanych w trakcie zagrożenia, czy prozaicznych czynnościach takich jak scrollowanie treści na ekranie telefonu.

Obecnie Big Data to podstawa działania wielu sektorów gospodarki. Niezwykle istotny jest tu sam sposób zarządzania danymi, który wpływa na na wartość informacji końcowych. Zatem nie ilość, a jakość i metoda ich przetwarzania są najbardziej istotne. Dane skutecznie usprawniają działanie niemal wszystkich sfer działania człowieka na świecie, pozwalają na jeszcze lepszą decyzyjność, wspomagają tworzenie skutecznych strategii, zmniejszają koszty, redukują czas pracy, umożliwiają tworzenie oferty doskonale dopasowanej do oczekiwań klienta, pomagają zarządzać aglomeracjami miejskimi i autostradami. Rozwój jaki zapewnia Big Data, został dostrzeżony przez wiele branż. Obecnie z tego typu danych korzystają instytucje sektora publicznego, banki, przedsiębiorstwa produkcyjne, handlowe oraz wiele innych.

Jeżeli do naszej układanki z danych dodamy miliardy użytkowników dostarczających informacji w czasie rzeczywistym, otrzymujemy narzędzie, które pozwala zarządzać ludzkością w skali globalnej. Jednocześnie oczywistym jest, że powstanie również mnóstwo szumów i bezwartościowych danych, których przetrzymywanie, analizowanie i przetwarzanie jest nie tylko stratą czasu, ale i pieniędzy.

Nikt nie byłby w stanie przetworzyć wszystkich informacji, jakie generują internauci i użytkownicy komórek, dlatego na pewnym etapie trzeba dokonać analizy jakościowej. Prawidłowe segregowanie informacji to zadanie analityków Big Data. Najskuteczniejszym sposobem jest wybór najważniejszych partii informacji i wykorzystanie znanych i dostępnych narzędzi analitycznych. Najważniejszym algorytmem wykorzystywanym do tego celu jest MapReduce stworzony przez Google.

Big Data nie tylko dla dużych

Analizować dane można również na poziomie mniejszych organizacji i wcale nie musi to wiązać się z niebotycznymi nakładami pracy analityka. Najprostszym i najskuteczniejszym sposobem gromadzenia i analizy informacji, może okazać się wdrożenie systemu CRM (Customer Relationship Management). Dobrze prowadzona baza danych w postaci CRM to szereg korzyści. Do najważniejszej należy zaliczyć: automatyzację procesów i filtrowanie zgromadzonych przez nas danych, możliwość tworzenia modeli predykcyjnych, czy szybkie wyszukiwanie interesujących nas rekordów.

Dobrym przykładem może być sytuacja, gdy jednym kliknięciem myszki jesteśmy w stanie wyselekcjonować z naszej bazy wszystkie osoby, które wzięły udział wydarzeniu, by wysłać do nich spersonalizowane zaproszenia kolejną jego edycję. W bazie CRM można przechowywać adresy, numery telefonów, okoliczności pozyskania kontaktu, prowadzić z nie kampanie e-mailowe i sms-owe, a także zarządzać pozyskiwaniem darowizn. Ostatnie rozwiązanie może okazać się kluczowe w kontekście działania organizacji, bowiem pozwala w sposób profesjonalny zarządzać kampaniami fundraisingowymi.

Najpopularniejsze programy analizy Big Data

Jednym z najpopularniejszych programów do analizy wielkich zbiorów danych jest MapReduce służący do przetwarzania dużych zbiorów danych w sposób równolegle. Ostatnimi czasy stał się bardzo popularny dzięki platformom takim jak Hadoop czy Spark. Z narzędzia korzysta się wszędzie tam, gdzie dane liczy się w terabajtach. Wiele technologicznych start-upów z Doliny Krzemowej produkuje ogromne ilości danych, dlatego znajduje on zastosowanie w Google czy Spotify. Nauka tego narzędzia może okazać się niezwykle lukratywnym zajęciem.

Zastosowanie tego narzędzia umożliwia rozproszenie wprowadzonych zbiorów danych między wiele serwerów, które porządkują je i wybierają właściwe elementy i rekordy zgodnie z regułami zapytania. Uzyskane w ten sposób wyniki gromadzi się i przetwarza do postaci wynikowej. Efektem końcowym jest mniejsza ilość danych, ponieważ zostały one wcześniej odpowiednio pogrupowane oraz poddane procesowi niezbędnej redukcji.

Istnieją również inne narzędzia, które z powodzeniem mogą być wykorzystywane przez analityków. Wybór najwłaściwszego zależy od preferencji użytkownika i oczekiwanych przez niego rezultatów. Wśród wielu dostępnych na rynku, warto wymienić takie jak:

Hadoop – otwarta platforma programistyczna napisana w języku Java przeznaczona do rozproszonego składowania i przetwarzania wielkich zbiorów danych przy pomocy klastrów komputerowych.

Apache Storm – darmowy, rozproszony system obliczeniowy działający w czasie rzeczywistym o otwartym kodzie źródłowym. Apache Storm ułatwia przetwarzanie strumieni danych i , można go używać z dowolnym językiem programowania.

Cassandra – rozproszony system zarządzania bazą danych również o charakterze open source. Został zaprojektowany do obsługi dużej ilości rozproszonych danych na wielu serwerach, który będzie nadal funkcjonował nawet jeśli jeden z serwerów przestanie działać.

MongoDB – otwarty, nierelacyjny system zarządzania bazą danych napisany w języku C++. Charakteryzuje się dużą skalowalnością, wydajnością oraz brakiem ściśle zdefiniowanej struktury obsługiwanych baz danych.

Neo4j – system zarządzania bazą danych grafów opracowany przez Neo4j, Inc. Opisany przez jego twórców jako transakcyjna baza danych zgodna z ACID z natywnym przechowywaniem i przetwarzaniem grafów, Neo4j jest najpopularniejszą bazą danych grafów według rankingu DB-Engines.

RapidMiner – Platforma do analizy danych, która zapewnia zintegrowane środowisko do przygotowywania danych, uczenia maszynowego, głębokiego uczenia się, eksploracji tekstu i analizy predykcyjnej.

Apache Mahout – to projekt Apache Software Foundation mający na celu tworzenie darmowych implementacji rozproszonych lub w inny sposób skalowalnych algorytmów uczenia maszynowego, skoncentrowanych głównie na algebrze liniowej.

Lucene – otwartoźródłowa biblioteka programistyczna oferująca funkcje wyszukiwania informacji. Pozwala zarówno na zbieranie, indeksowanie oraz wyszukiwanie tekstu, co umożliwia stosunkowo proste dodanie funkcji wyszukiwania tekstu do istniejących serwisów jak i budowanie nowych serwisów wyszukiwania informacji.

Big Data – naucz się analizować dane

Nie ulega wątpliwości, że analiza danych jest jedną z najbardziej perspektywicznych gałęzi IT. Dla każdego, kto poszukuje szczęścia w dochodowym sektorze IT, zainteresowanie się analizą Big Data bez wątpienia może być bardzo perspektywicznym kierunkiem. Strony z kursami pełne są materiałów edukacyjnych dotyczących: Hadoopa, MapReduce’a, Sparka, Apache Storm.

Wstęp do Big Data

Coursea – Big Data Specialization

Harvard University – Real-world case studies to jumpstart your career

Google – Google Cloud Platform Big Data and Machine Learning Fundamentals

IBM – IBM Data Science Professional Certificate

Kursy Hadoop:

Udemy – Big Data, Hadoop oraz MapReduce w języku Python – 2020

Coursea – Hadoop Platform and Application Framework

Udemy – Learn Big Data: The Hadoop Ecosystem Masterclas

Pluralsite – The Building Blocks of Hadoop – HDFS, MapReduce, and YARN

Kursy MapReduce

Udemy – Big Data, Hadoop oraz MapReduce w języku Python – 2020

Udemy – Hadoop MAPREDUCE in Depth | A Real-Time course on Mapreduce

Pluralsite – The Building Blocks of Hadoop – HDFS, MapReduce, and YARN

W Internecie bez problemu znajdziemy kursy związane z tematyką Big Data, bez wątpienia, jeżeli jesteśmy zieloni w temacie, najlepiej zacząć od któregoś z kursów wymienionych na początku. Następnie gdy zaczniemy rozumieć środowisko Big Data i programowania w danym języku, możemy wybrać narzędzie lub dział, który nam najbardziej odpowiada. Świat Big Data pełen jest problemów, które należy rozwiązać. Jeżeli zastanawiamy się nad nową specjalizacją czy umiejętnością, warto zastanowić się czy nie chcemy dać szansy jednej z najbardziej rozwojowych dziedzin IT.

Big Data – duże liczby, nowe możliwości, nowe narzędzia

Termin big data jest obecnie bardzo popularny – zetknął się z nim zapewne każdy, nawet jeśli nie interesuje się ani nie zajmuje tą tematyką na co dzień. Pojęcie to ciągle nie jest w pełni rozumiane, bowiem określa się nim niesłusznie każdy duży zbiór danych.

Tymczasem big data pojawia się dopiero tam, gdzie tradycyjna eksploracja danych (data mining) nie jest w stanie wyszukać ukrytych w tych danych znaczeń i wzorców. Wynika to z faktu, że znakomita większość gromadzonych obecnie danych jest nieustrukturyzowana (nie jest przechowywana w formie uporządkowanych tabel), wymaga przetwarzania w czasie rzeczywistym lub jest po prostu bardzo duża, wobec czego nie można do nich zastosować relacyjnych baz danych czy hurtowni danych.

Równolegle jednak do rosnącej popularności big data rośnie także świadomość problemu oraz zainteresowanie tworzeniem i rozwijaniem narzędzi, algorytmów i technologii zdolnych „udźwignąć” big data. Wymienić tutaj można np. Hadoop, MapReduce czy bazy danych NoSQL. Technologie te stanowią centralną część ram oprogramowania open-source, co ułatwia przetwarzanie ogromnych zbiorów na systemach klastrowych.

Same narzędzia jednak nie wystarczą. Fascynacja trendem big data zrodziła zapotrzebowanie na odpowiednio przygotowanych analityków, którzy będą umieli w pełni wykorzystać możliwości ukryte w tych ogromnych zbiorach danych poprzez wyciąganie odpowiednich wniosków – dopiero bowiem wtedy zgromadzone dane stają się wartościowe. Analityków tych określa się mianem data scientists, zaś całą naukę – data science. O ogromnym znaczeniu big data oraz samych data scientists świadczy chociażby fakt, że zawód ten okrzyknięty został przez „Harvard Business Review” najbardziej pożądanym zawodem XXI wieku. Co więcej, Wielka Brytania uznała badania nad Big Data za jeden z ośmiu strategicznych kierunków rozwoju nowych technologii, a rząd USA przeznaczył w 2012 roku 200 milionów dolarów na badania i rozwój nowych inicjatyw big data.

Big Data w liczbach

Podobnych wniosków dostarczają też dane statystyczne i prognozy na temat big data i całego związanego z nimi rynku. Świat produkuje coraz większą ilość danych. Każdego dnia wysyłanych jest ponad 500 milionów tweetów, a miesięcznie na Facebooku pojawia się ponad 30 miliardów nowych wpisów – każdy zawierający informacje o zachowaniach i upodobaniach konsumentów. W każdej godzinie Walmart przetwarza milion transakcji swoich klientów. Eric Schmidt z Google twierdzi, że obecnie co 2 dni wytwarzamy tyle danych, ile cała ludzkość wyprodukowała od początku cywilizacji do początku XXI wieku, a dane na świecie co najmniej podwajają się co 2 lata. Jak podano na konferencji Hadoop Summit 2014 w San Jose w Kalifornii, szacuje się, że obecnie na świecie jest 3,2 zetabajtów danych (1 zetabajt to miliard terabajtów), a do 2020 roku ilość ta urośnie do 40 zetabajtów. Interesujący jest fakt, że ponad 70% tych danych generowana jest przez jednostki, natomiast przedsiębiorstwa odpowiedzialne są za przechowywanie i zarządzanie 80% z nich. Warto również dodać, że do 2020 roku około jedna trzecia wszystkich danych będzie przechowywana bądź przetwarzana w chmurze.

Mówiąc zaś językiem wymiernych korzyści, wystarczy nadmienić, nawiązując do raportu Digital Trends 2013, opracowanego przez specjalistów z Deloitte i Allegro, że globalny rynek big data – a więc wszelkie technologie, sprzęt, oprogramowanie, jak i usługi z nimi związane – wart będzie w 2015 roku prawie 50 miliardów dolarów, z prognozowanym wzrostem 40% rok-do-roku.

Coraz częściej zresztą słyszymy o fascynujących przykładach wykorzystania big data w różnych branżach. Jako przykład posłużyć może sytuacja Tesco w Malezji, które miało problem z odbudowaniem lojalności wśród klientów. By jak najlepiej spersonalizować ofertę, rozpoczęli analizy trendów rynkowych, danych z kart lojalnościowych, które prezentowały jak, kiedy i co kupowali ich klienci. W efekcie udało im się reaktywować 3000 klientów, lojalność klientów wzrosła o 30%. Z kolei T-mobile w USA, dzięki analizie danych z systemów CRM i mediów społecznościowych, zmniejszył o 50% liczbę rezygnacji klientów z usług firmy. Sięgając do przykładów z europejskiego podwórka, warto między innymi wspomnieć o sukcesie platformy Tipp24 AG do obstawiania zakładów w loteriach. Dzięki analizie miliardów transakcji i tysięcy czynników determinujących przyzwyczajenia swoich klientów udało się firmie spersonalizować komunikację marketingową w czasie rzeczywistym oraz skrócić aż o 90% czas potrzebny na budowanie modeli predykcyjnych przyszłych zachowań konsumentów.

Kolejnym i chyba jednym z najbardziej medialnych przykładów zastosowania big data w dosyć rewolucyjny, nieoczywisty sposób jest przygotowanie produkcji serialu „House of Cards”. Firma Netflix zrealizowała produkcję serialu w oparciu o analizę wzorców zachowań, przyzwyczajeń i gustów swoich klientów. Serial odniósł ogromny sukces, ale producenci byli o nim przekonani, zanim ktokolwiek na planie zdążył krzyknąć pierwsze „Akcja!”.

Big Data a wizualizacja danych

O co więc tak naprawdę chodzi w analityce big data? O dostrzeganie tego, co niewidoczne w niezliczonej ilości danych z chociażby takich źródeł, jak portale społecznościowe, filmy, różnego rodzaju czujniki, kamery, satelity czy transakcje zakupowe. O zhumanizowanie tych danych i uczynienie ich bardziej zrozumiałymi dla innych użytkowników – zatem big data to także nowe wyzwanie dla dziedziny wizualizacji danych. Mimo że zmienia się ona wraz z rozwojem coraz to nowych technologii, ciągle musi przestrzegać starych zasad – wizualizacje muszą być dobrze zaprojektowane, łatwe w użyciu, zrozumiałe, przejrzyste i dostarczać odpowiednich informacji. W stosunku do big data standardowe wykresy czy grafy nie są już wystarczającymi narzędziami, bowiem ograniczają się tylko do jednego bądź dwóch wymiarów i nie są w stanie objąć całej „głębi” ogromnych zbiorów danych. Pojawiła się potrzeba opracowania i rozwijania solidnych, interaktywnych narzędzi, które będą funkcjonalne i „aktualizowalne” – zdolne do przetwarzania danych w czasie rzeczywistym. W żargonie mówi się o 3xV – Volume, Variety, Velocity – i to właśnie z tymi 3 aspektami: dużą objętością, różnorodnością czy też złożonością, a także przetwarzaniem w czasie rzeczywistym muszą poradzić sobie nowe metody.

Infografika, Dashboard, Mapa

Infografiki, które w ostatnim czasie stały się szczególnie popularne, są doskonałym środkiem, by przedstawić złożone problemy w sposób, który będzie zrozumiały dla każdego użytkownika. Infografiki są zwykle starannie przygotowane w formie plakatu bądź prezentacji i w przejrzysty sposób obejmują wieloaspektowe, wielowymiarowe problemy. Ich dużą wadą jednak jest fakt, że zwykle są one stałe w czasie, a zatem ograniczone są możliwości wykorzystania ich w interaktywnej analizie danych. Co więcej, ich autorzy raczej skupiają się na aspektach estetycznych, a nie na danych i wnioskach, które z nich płyną. Z infografikami należy więc uważać.

Dashboardy łączą wiele aspektów danych na jednym ekranie i najczęściej pozwalają odbiorcy na interakcję. Są przeznaczone dla grona przeszkolonych odbiorców. Więcej o tego typu raportach biznesowych dowiesz się z artykułu Co to jest dashboard?.

Mapy są idealne do przedstawiania danych zróżnicowanych geograficznie, a ich popularność stale rośnie dzięki coraz większej ilości map i danych dostępnych publicznie.

Warto tutaj odnotować, że znani dostawcy narzędzi business intelligence, jak IBM, Cognos czy SAS, w dalszym ciągu są dużymi graczami na dynamicznie rozwijającym się rynku odkrywania danych, wizualizacji i umiejętności wyciągania właściwych wniosków, lecz ich udział w tym rynku maleje. Obecnie firmy nie muszą wydawać ogromnych kwot, by poradzić sobie z wizualizacją danych, bowiem narzędzia temu dedykowane stają się nie tylko coraz powszechniej dostępne, lecz także proste w użytkowaniu, co jest szczególnie ważne dla użytkowników spoza branży IT. Jako przykład mogą posłużyć Vizify, D3.js, Visual.ly, GNU R i wiele innych.

Najlepszym podsumowaniem będzie chyba wniosek, że problem big data jest nierozerwalnie związany z wizualizacją danych, która obok coraz to lepszych narzędzi hardware’owych i software’owych stanowi jeden filarów analityki big data.

Jak zmienia się świat analityki biznesowej? – Tableau, QlikView, Microsoft PowerBI

Podążając za wymaganiami klientów, dostawcy programów zmienili paradygmat, uznając, że centralną postacią w kwestii przetwarzania danych i ich obróbki powinien być każdy zwykły użytkownik, a nie tylko wyspecjalizowane zespoły działów IT. Każda szanująca się firma software’owa zaczęła więc – z różnym skutkiem – przygotowywać narzędzia, które pozwolą podłączyć się do źródła danych, zaprezentować je poprzez ich wizualizację, przeanalizować w interaktywny sposób i udostępnić innym pracownikom. Te 4 filary łączą produkty tworzone m.in. przez Tableau (Tableau Desktop), QlikView (QlikSense Desktop) i Microsoft (Power BI Designer).

Możliwości wizualizacyjne każdego z tych programów omówimy szczegółowo w kolejnym artykule, warto jednak podkreślić jedno – przyszłość analityki biznesowej nierozłącznie wiąże się z wizualizacją danych i dashboardami, a umiejętność analizy danych z pomocą jednego z tych programów będzie kluczem do rozwoju własnego i organizacji, w której pracujemy.

Co łączy eBay i Allegro? Po pierwsze, są to dwie firmy o międzynarodowym zasięgu, przetwarzające olbrzymią ilość danych transakcyjnych i webowych. Po drugie, obie firmy sięgnęły po Tableau, aby oddać inicjatywę swoim analitykom i pozwolić im zobaczyć dane. Jak powiedział Gary Dougan, szef BI w eBay, który udostępnił Tableau Desktop wszystkim pracownikom: „Tableau przynosi wartość ukrytą w danych do niemal każdego pracownika w eBay. Zostało świetnie przyjęte przez użytkowników, a jego użycie podwaja się co sześć miesięcy. To pozwala pracownikom na eksplorację big data w eBay i coraz mocniej wspiera naszą strategię.”

Infografika Big Data

Jako ciekawostkę zamieszczamy poniżej infografikę, prezentującą nieco więcej danych statystycznych na temat big data.

Źródło: