definicja, zasady funkcjonowania i przykłady

By Weronika Skotnicka

Platformy i narzędzia dla projektów nauki o danych - Azure Architecture Center

Spis treści

Artykuł

04/16/2022

Czas czytania: 9 min

Współautorzy: 7 Czy ta strona jest pomocna? Tak Nie Czy chcesz coś dodać do tej opinii? Opinia zostanie wysłana do firmy Microsoft: po naciśnięciu przycisku Prześlij opinia zostanie użyta do ulepszania produktów i usług firmy Microsoft. Zasady ochrony prywatności. Prześlij Dziękujemy.

W tym artykule

Firma Microsoft udostępnia pełne spektrum zasobów analitycznych zarówno dla platform w chmurze, jak i lokalnych. Można je wdrożyć w celu wydajnego i skalowalnego wykonywania projektów nauki o danych. Wskazówki dotyczące zespołów wdrażających projekty nauki o danych w śledzonych, kontrolowanych wersjach i współpracy są udostępniane przez zespół proces nauki o danych (TDSP). Zobacz Zespołowe role i zadania związane z procesem nauki o danych, aby zapoznać się z opisem ról personelu i powiązanych z nimi zadań, które są obsługiwane przez zespół ds. nauki o danych, który ustandaryzuje ten proces.

Głównym zalecanym zasobem platformy Azure dla dostawcy TDSP jest Azure Machine Learning. Przykłady w tym Centrum architektury platformy Azure mogą pokazywać Azure Machine Learning używane z innymi zasobami platformy Azure. Te inne zasoby analityczne dostępne dla zespołów nauki o danych przy użyciu dostawcy TDSP obejmują:

Data Science Virtual Machines (zarówno Windows, jak i Linux CentOS)

Klastry Spark w usłudze HDInsight

Azure Synapse Analytics

Azure Data Lake

Klastry Hive usługi HDInsight

Azure File Storage

SQL Server 2019 R i Python Services

Azure Databricks

W tym dokumencie krótko opiszemy zasoby i udostępnimy linki do samouczków i przewodników opublikowanych przez zespoły TDSP. Mogą one pomóc ci dowiedzieć się, jak używać ich krok po kroku i zacząć ich używać do tworzenia inteligentnych aplikacji. Więcej informacji na temat tych zasobów jest dostępnych na stronach produktów.

Data Science Virtual Machine (DSVM)

Maszyna wirtualna do nauki o danych oferowana zarówno w Windows, jak i Linux firmy Microsoft, zawiera popularne narzędzia do modelowania i programowania danych. Obejmuje on narzędzia, takie jak:

Microsoft R Server Developer Edition

Dystrybucja Anaconda Python

Notesy Jupyter dla języków Python i R

Visual Studio Community Edition z językami Python i R Tools on Windows / Eclipse w systemie Linux

Power BI desktop dla Windows

SQL Server 2016 Developer Edition w systemie Windows / Postgres w systemie Linux

Obejmuje również narzędzia ML i sztucznej inteligencji, takie jak xgboost, mxnet i Vowpal Wabbit.

Obecnie maszyna DSVM jest dostępna w systemach operacyjnych Windows i Linux CentOS. Wybierz rozmiar maszyny DSVM (liczba rdzeni procesora CPU i ilość pamięci) na podstawie potrzeb projektów nauki o danych, które mają zostać wykonane.

Aby uzyskać więcej informacji na temat Windows wersji maszyny DSVM, zobacz Microsoft Data Science Virtual Machine w Azure Marketplace. Aby zapoznać się z wersją maszyny DSVM z systemem Linux, zobacz Linux Data Science Virtual Machine.

Aby dowiedzieć się, jak efektywnie wykonywać niektóre typowe zadania nauki o danych na maszynie DSVM, zobacz 10 rzeczy, które można wykonać na maszynie wirtualnej data science Virtual Machine

Klastry Platformy Spark w usłudze Azure HDInsight

Apache Spark to platforma przetwarzania równoległego typu open source, która obsługuje przetwarzanie w pamięci w celu zwiększania wydajności aplikacji do analizy danych big data. Aparat przetwarzania Spark jest zbudowany pod kątem szybkości, łatwości użycia i zaawansowanych analiz. Możliwości obliczeniowe platformy Spark w pamięci sprawiają, że jest to dobry wybór algorytmów iteracyjnych w uczeniu maszynowym i obliczeń grafowych. Platforma Spark jest również zgodna z usługą Azure Blob Storage (WASB), dzięki czemu istniejące dane przechowywane na platformie Azure można łatwo przetwarzać przy użyciu platformy Spark.

Tworząc klaster Spark w usłudze HDInsight, tworzysz zasoby obliczeniowe systemu Azure z zainstalowaną i skonfigurowaną platformą Spark. Utworzenie klastra Spark w usłudze HDInsight trwa około 10 minut. Przechowywanie danych do przetworzenia w usłudze Azure Blob Storage. Aby uzyskać informacje na temat używania Azure Blob Storage z klastrem, zobacz Używanie usługi Azure Blob Storage zgodnej z systemem PLIKÓW HDFS z usługą Hadoop w usłudze HDInsight.

Zespół TDSP firmy Microsoft opublikował dwa kompleksowe przewodniki dotyczące używania klastrów Spark usługi Azure HDInsight do tworzenia rozwiązań do nauki o danych, jednego przy użyciu języka Python i innego języka Scala. Aby uzyskać więcej informacji na temat klastrów Spark usługi Azure HDInsight, zobacz Omówienie platformy Apache Spark w usłudze HDInsight w systemie Linux. Aby dowiedzieć się, jak utworzyć rozwiązanie do nauki o danych przy użyciu języka Python w klastrze Spark usługi Azure HDInsight, zobacz Omówienie nauki o danych przy użyciu platformy Spark w usłudze Azure HDInsight. Aby dowiedzieć się, jak utworzyć rozwiązanie do nauki o danych przy użyciu języka Scala w klastrze Spark usługi Azure HDInsight, zobacz Nauka o danych przy użyciu języka Scala i platformy Spark na platformie Azure.

Azure Synapse Analytics

usługa Azure Synapse Analytics umożliwia łatwe i sekundowe skalowanie zasobów obliczeniowych bez nadmiernej aprowizacji lub nadmiernej płatności. Oferuje również unikatową opcję wstrzymania korzystania z zasobów obliczeniowych, co zapewnia swobodę lepszego zarządzania kosztami chmury. Możliwość wdrażania skalowalnych zasobów obliczeniowych umożliwia przeniesienie wszystkich danych do usługi Azure Synapse Analytics. Storage koszty są minimalne i można uruchamiać obliczenia tylko w częściach zestawów danych, które chcesz przeanalizować.

Aby uzyskać więcej informacji na temat usługi Azure Synapse Analytics, zobacz witrynę internetową usługi Azure Synapse Analytics. Aby dowiedzieć się, jak tworzyć kompleksowe zaawansowane rozwiązania analityczne za pomocą usługi Azure Synapse Analytics, zobacz Proces nauki o danych zespołu w działaniu: korzystanie z usługi Azure Synapse Analytics.

Azure Data Lake

Usługa Azure Data Lake jest repozytorium dla całego przedsiębiorstwa każdego typu danych zebranych w jednej lokalizacji, przed wszelkimi wymaganiami formalnymi lub narzuconym schematem. Ta elastyczność pozwala na utrzymanie każdego typu danych w usłudze Data Lake, niezależnie od rozmiaru lub struktury lub szybkości pozyskiwania danych. Organizacje mogą następnie używać usługi Hadoop lub zaawansowanej analizy do znajdowania wzorców w tych jeziorach danych. Usługa Data Lake może również służyć jako repozytorium do przygotowywania danych o niższych kosztach przed curowaniem danych i przeniesieniem ich do magazynu danych.

Aby uzyskać więcej informacji na temat usługi Azure Data Lake, zobacz Wprowadzenie do usługi Azure Data Lake. Aby dowiedzieć się, jak utworzyć skalowalne kompleksowe rozwiązanie do nauki o danych za pomocą usługi Azure Data Lake, zobacz Skalowalna nauka o danych w usłudze Azure Data Lake: kompleksowe przewodniki

Klastry usługi Azure HDInsight Hive (Hadoop)

Apache Hive to system magazynu danych dla platformy Hadoop, który umożliwia podsumowywanie danych, wykonywanie zapytań i analizę danych przy użyciu technologii HiveQL, języka zapytań podobnego do SQL. Program Hive może służyć do interaktywnego eksplorowania danych lub tworzenia zadań przetwarzania wsadowego wielokrotnego użytku.

Program Hive umożliwia projektowanie struktury danych w dużej mierze nieustrukturyzowanych. Po zdefiniowaniu struktury można użyć programu Hive do wykonywania zapytań dotyczących tych danych w klastrze Hadoop bez konieczności używania, a nawet znajomości języka Java lub MapReduce. Język zapytań HiveQL (język zapytań Hive) umożliwia pisanie zapytań z instrukcjami podobnymi do języka T-SQL.

W przypadku analityków danych hive może uruchamiać zapytania hive w języku Python User-Defined Functions (UDF) w zapytaniach Hive w celu przetwarzania rekordów. Ta możliwość znacznie rozszerza możliwości zapytań Hive w analizie danych. W szczególności umożliwia analitykom danych przeprowadzanie skalowalnej inżynierii cech w językach, z którymi są w większości znane: SQL jak HiveQL i Python.

Aby uzyskać więcej informacji na temat klastrów Hive w usłudze Azure HDInsight, zobacz Use Hive and HiveQL with Hadoop in HDInsight (Używanie technologii Hive i HiveQL z usługą Hadoop w usłudze HDInsight). Aby dowiedzieć się, jak utworzyć skalowalne kompleksowe rozwiązanie do nauki o danych za pomocą klastrów Hive usługi Azure HDInsight, zobacz Team Data Science Process in action: using HDInsight Hadoop clusters (Proces nauki o danych zespołowych: korzystanie z klastrów hadoop w usłudze HDInsight).

Azure File Storage

Azure File Storage to usługa oferująca udziały plików w chmurze przy użyciu standardowego protokołu SMB (Server Message Block). Obsługiwane są wersje 2.1 i 3.0 protokołu SMB. W usłudze Magazyn plików Azure można migrować starsze aplikacje korzystające z udziałów plików na platformę Azure szybko i bez kosztownych modyfikacji oprogramowania. Aplikacje uruchomione na maszynach wirtualnych lub w ramach usług w chmurze platformy Azure, a także na klientach lokalnych mogą instalować udziały plików w chmurze tak samo jak aplikacja na komputerze instalująca typowy udział SMB. Dowolna liczba składników aplikacji może następnie równocześnie zainstalować udział Magazynu plików i uzyskiwać do niego dostęp.

Szczególnie przydatne w przypadku projektów nauki o danych jest możliwość utworzenia magazynu plików platformy Azure jako miejsca udostępniania danych projektu członkom zespołu projektu. Każdy z nich ma następnie dostęp do tej samej kopii danych w magazynie plików platformy Azure. Mogą również używać tego magazynu plików do udostępniania zestawów funkcji generowanych podczas wykonywania projektu. Jeśli projekt jest zakontraktowaniem klienta, klienci mogą utworzyć magazyn plików platformy Azure w ramach własnej subskrypcji platformy Azure, aby udostępnić ci dane i funkcje projektu. W ten sposób klient ma pełną kontrolę nad zasobami danych projektu. Aby uzyskać więcej informacji na temat usługi Azure File Storage, zobacz artykuł Wprowadzenie with Azure File Storage on Windows and How to use Azure File Storage with Linux (Jak używać usługi Azure File Storage z systemem Linux).

SQL Server 2019 R i Python Services

Usługi języka R (in-database) udostępnia platformę do tworzenia i wdrażania inteligentnych aplikacji, które mogą odkrywać nowe szczegółowe informacje. Możesz użyć zaawansowanego i zaawansowanego języka R, w tym wielu pakietów dostarczanych przez społeczność języka R, do tworzenia modeli i generowania przewidywań na podstawie danych SQL Server. Ponieważ usługi języka R (w bazie danych) integrują język R z SQL Server, analiza jest przechowywana blisko danych, co eliminuje koszty i zagrożenia bezpieczeństwa związane z przenoszeniem danych.

Usługi języka R (w bazie danych) obsługują język open source R z kompleksowym zestawem narzędzi i technologii SQL Server. Zapewniają one lepszą wydajność, bezpieczeństwo, niezawodność i możliwości zarządzania. Rozwiązania języka R można wdrażać przy użyciu wygodnych i znanych narzędzi. Aplikacje produkcyjne mogą wywoływać środowisko uruchomieniowe języka R i pobierać przewidywania i wizualizacje przy użyciu języka Transact-SQL. Biblioteki usługi ScaleR są również używane do zwiększania skali i wydajności rozwiązań języka R. Aby uzyskać więcej informacji, zobacz SQL Server R Services.

Zespół TDSP firmy Microsoft opublikował dwa kompleksowe przewodniki pokazujące, jak tworzyć rozwiązania do nauki o danych w usługach SQL Server 2016 R Services: jeden dla programistów języka R i jeden dla deweloperów SQL. W przypadku programistów języka R zobacz Przewodnik po końcu nauki o danych. Aby uzyskać SQL Deweloperzy, zobacz Analiza zaawansowana w bazie danych dla deweloperów SQL (samouczek).

Dodatek: Narzędzia do konfigurowania projektów nauki o danych

Instalowanie programu Git Credential Manager w Windows

Jeśli korzystasz z usługi TDSP w Windows, musisz zainstalować menedżera poświadczeń git (GCM), aby komunikować się z repozytoriami Git. Aby zainstalować narzędzie GCM, należy najpierw zainstalować aplikację Chocolaty. Aby zainstalować aplikację Chocolaty i GCM, uruchom następujące polecenia w Windows PowerShell jako administrator:

iwr -UseBasicParsing | iex choco install git-credential-manager-for-windows -y

Instalowanie usługi Git na maszynach z systemem Linux (CentOS)

Uruchom następujące polecenie powłoki bash, aby zainstalować usługę Git na maszynach z systemem Linux (CentOS):

sudo yum install git

Generowanie publicznego klucza SSH na maszynach z systemem Linux (CentOS)

Jeśli używasz maszyn z systemem Linux (CentOS) do uruchamiania poleceń git, musisz dodać publiczny klucz SSH maszyny do usług Azure DevOps. W ten sposób maszyna jest rozpoznawana przez Azure DevOps Services. Najpierw należy wygenerować publiczny klucz SSH i dodać klucz do kluczy publicznych SSH na stronie ustawienia zabezpieczeń usług Azure DevOps.

Aby wygenerować klucz SSH, uruchom następujące dwa polecenia: ssh-keygen cat .ssh/id_rsa.pub Skopiuj cały klucz ssh, w tym ssh-rsa. Zaloguj się do Azure DevOps Services. Kliknij pozycję w prawym górnym rogu strony i kliknij pozycję Zabezpieczenia. Kliknij pozycję Klucze publiczne SSH, a następnie kliknij pozycję +Dodaj. Wklej klucz SSH skopiowany do pola tekstowego i zapisz.

Następne kroki

Narzędzia i trendy Big Data

Transkrypt

1 Narzędzia i trendy Big Data 1

2 Zamiast wstępu Model relacyjny 1970: podwaliny teoretyczne modelu 1980: SQL hype 1990: upowszechnienie standardu i narzędzi Model map-reduce 1995: koncepcja przetwarzania rozproszonego z krokami rozdzielania i scalania komunikatów 2005: koncepcja Map-reduce w Google 2015:...?... A miedzyczasie... kambryjska eksplozja narzędzi Nowe źródła danych uporządkowanych oraz bez zdefiniowanej struktury Narzędzia i techniki używane w IT można użyć do analizowania danych Tani sprzęt odpowiednio zestawiony pozwala zwiększyć wolumen przetwarzanych danych Planowanie nowego projektu nie jest łatwe mnogość rozwiązań Open Source na ratunek 2

3 Infrastruktura i narzędzia Stos technologii związanych z Big Data Urządzenia fizyczne i przeglądarki Zastosowania i aplikacje Raportowanie i wizualizacja Analiza i analityczne hurtownie danych Narzędzia niskopoziomowe i bazy danych Infrastruktura i bezpieczeństwo P.3

4 Poziom żółty: infrastruktura i bezpieczeństwo Serwery (sprzęt) Amazon EC2 Umożliwia wynajmowanie komputerów w różnych konfiguracjach (maszyny wirtualne Windows i Linux) Ułatwienia w tworzeniu serwerów Hadoop Istotny autor/właściciel systemu Google App Engine Hosting aplikacji napisanych w Java lub Python Serwis sam dba o rozkładanie obciążenia (dość nietypowe) System opłat może utrudniać realizację projektów Big Data (drogi) Heroku Hosting aplikacji napisanych w Ruby (i innych) Łatwość wdrożeń i więcej możliwości (swobody) niż GAE (dostęp do bazy SQL) Podobnie jak w GAE system opłat może utrudniać realizację projektów Big Data P.4

5 Poziom żółty: infrastruktura i bezpieczeństwo Systemy plików Apache HDFS Pierwszy Open Source na liście Część wielkiego ekosystemu przetwarzania Big Data Rozproszony system plików o wysokiej dostępności Usługa przechowywania danych tam, gdzie szybkość przetwarzania i rozmiar danych ma istotne znaczenie P.5

6 Poziom zielony: narzędzia niskopoziomowe i bazy danych Bazy danych Oparte na dokumentach MongoDB - Poszczególne rekordy przypominają obiekty JSON - Automatyczne rozkładanie obciążenia na wiele serwerów - Obsługuje MapReduce, zapytania w JavaScript - Łatwa w obsłudze i utrzymaniu - Idealna na start projektu CouchDB - Obsługuje MapReduce, zapytania nieco trudniejsze - Rozkład obciążenia na wiele serwerów zapewniany dodatkowymi narzędziami Kolumnowe (column-oriented) BigTable (GAE) - Komercyjny produkt Google dostępny w GAE - Bardziej skomplikowana struktura niż większość baz NoSQL (hierarchiczność i wielowymiarowość) - Przeznaczona do obsługi bardzo dużych ilości danych na wielu serwerach dostępnych masowo Kolumnowe cd. Hbase - Odpowiednik BigTable o otwartym kodzie źródłowym - Bardzo dobrze zintegrowana z projektem Hadoop Cassandra - Pierwotnie projekt Facebook a - Początkowo trudny w obsłudze, ale zmienia się to - Łączy model BigTable z modelem klucz-wartość - Duża elastyczność i możliwości za cenę nauki - Zapytania najlepiej tworzyć przez Hadoop niż Thrift Typu klucz-wartość Redis - Może być w całości w RAM (persystencja na dysku) - Bardzo wydajna do momentu stronicowania - Obsługa wielu serwerów na poziomie klienta Riak - Zaprojektowana do środowiska wieloserwerowego - Obsługuje MapReduce - Wsparcie komercyjne P.6

7 Poziom zielony: narzędzia niskopoziomowe i bazy danych Bazy danych cd. Grafowe Neo4J - Nierelacyjna, rozproszona baza danych z transakcjami - Wybierana kiedy model danych odwzorowuje graf (sieci społecznościowe, grupy zainteresowań, systemy klasyfikacji w biologii) - Wsparcie komercyjne Przestrzenne PostGIS - Baza do przechowywania danych przestrzennych (mapy geograficzne, obiekty trójwymiarowe: budynki, układy atmosferyczne, układy gwiezdne, rozłożenie sieci czujników) - Specjalistyczna nakładka na bazę relacyjną - Podstawa całej rodziny produktów do modelowania danych przestrzennych Grupa MapReduce Hadoop Hive Pig mrjob Odpowiedź Yahoo na MapReduce (Google) Implementacja idei MapReduce Bardzo popularne narzędzie (wiele testów) Dużo narzędzi ułatwiających konfigurację i pracę Programowanie zadań Hadoop za pomocą SQL Określa się transformacje danych wejściowych do tabel relacyjnych (wieloserwerowe środowisko) Specjalny język dla Hadoop Określa się kolejne kroki do wykonania operacji na danych (podejście proceduralne) Wadą jest konieczność nauki kolejnego języka Cascading Oozie, Greenplum P.7

8 Poziom czerwony: analiza i analityczne hurtownie danych Python + biblioteki R project P.8

9 Poziom czerwony: analiza i analityczne hurtownie danych Google Spreadsheets P.9

10 Poziom czerwony: analiza i analityczne hurtownie danych Many Eyes P.10

11 Poziom czerwony: analiza i analityczne hurtownie danych Tableau Public P.11

12 Poziom czerwony: analiza i analityczne hurtownie danych Analiza Przetwarzanie i modelowanie R, - Kompletne środowisko statystyczne - Ogrom pakietów rozszerzających możliwości - Nie jest przystosowane do środowiska wieloserwerowego (dane na jednej maszynie) - Idealne do prototpowania Yahoo Pipes - Środowisko graficzne do modelowania zadań przetwarzania danych Lucene/Solr, elasticsearch - Standard przeszukiwania i indeksowania tekstu - Rozbudowane narzędzie z dużymi możliwościami konfiguracji - Zaprojektowane dla środowiska wieloserwerowego - Można integrować wiele źródeł danych (PDF, Word, dane przestrzenne) GeoTools - Zestaw narzędzi do manipulowania danymi przestrzennymi JUNG / TinkerPop - Zestaw narzędzi do analizy i wizualizacji danych struktur sieciowych i grafowych - Zastosowanie w analizie sieci społecznościowych, PageRank, data mining Mechanical Turk - Masowe zadania wymagające udziału człowieka Uczenie maszynowe WEKA, Mahout scikit-learn, PyBrain Elefant, OpenCV Przetwarzanie tekstu (NLP) Natural Language Toolkit (NLTK) BeautifulSoup Awk Integracja z RDBMS Apache Flume Apache Sqoop P.12

13 Poziom niebieski: raportowanie i wizualizacja R (ggplot2) Python (ipython) P.13

14 Poziom niebieski: raportowanie i wizualizacja D3.js (Protovis) P.14

15 Poziom niebieski: raportowanie i wizualizacja Polymaps P.15

16 Poziom niebieski: raportowanie i wizualizacja Inkscape P.16

17 Poziom niebieski: raportowanie i wizualizacja Raportowanie i wizualizacja R (lattice, ggplot2) Pakiety graficzne w środowisku R Python Szeroka gama bibliotek oraz wtyczek narzędzi Gnuplot Tworzenie wykresów z linii poleceń (skrypty) Gephi Aplikacja w języku Java do wizualizacji sieci złożonych z węzłów i krawędzi Jeden z twórców projektu zatrudniony w Linkedin GraphViz Narzędzie do wizualizacji sieci z linii poleceń Szerokie możliwości konfiguracji Processing.js / D3.js Biblioteka JavaScript do wizualizacji P.17

18 Infrastruktura i narzędzia (przypomnienie) Stos technologii związanych z Big Data Urządzenia fizyczne i przeglądarki Zastosowania i aplikacje Raportowanie i wizualizacja Analiza i analityczne hurtownie danych Narzędzia niskopoziomowe i bazy danych Infrastruktura i bezpieczeństwo P.18

19 Trendy Więcej automatyzacji, konsolidacji pakietów Open Source przez firmy komercyjne, większa dojrzałość narzędzi, nowe modele biznesowe Podeście typu point-and-click Udostępnienie możliwości analitycznych szerszym kręgom, szczególnie biznesowym Tzw. self-service Big Data oraz podejście as-a-service Wielowymiarowa analiza, tj. analiza połączonych danych: starych (hurtownie) oraz nowych, agile (dane bez struktury) Zmiana paradygmatu: z: jak analizować dane, na: które dane pojawią się szybciej do analizy Datafication, czyli odkrywanie dzięki technologii nowych procesów, które można poddawać analizie Urządzenia do fitness, piłki nożne i rakiety tenisowe z czujnikami ruchu i położenia Drony monitorujące stany magazynowe i online owy monitoring kupowanych produktów Elektronika samochodowa nowej ery Internet-of-things P.24

20 DZIĘKUJĘ ZA UWAGĘ P.25

definicja, zasady funkcjonowania i przykłady

Big Data to wyrażenie, które staje się coraz bardziej popularne na całym świecie. Wykorzystują je w swojej pracy głównie analitycy, ale budzi zainteresowanie również ze strony zwykłych ludzi. Dzieje się tak, ponieważ jako narzędzie pracy stanowi źródło szeregu przydatnych danych i informacji, zaś w społeczeństwie powoduje niechęć i obawy przed nadmierną inwigilacją ze strony korporacji z niej korzystających.

Big Data - co to jest?

Mianem Big Data określa się tendencję do szukania, pobierania, gromadzenia i przetwarzania dostępnych danych. Jest to metoda legalnego gromadzenia informacji z przeróżnych źródeł, a następnie ich analizowania i wykorzystywania do własnych celów. W rezultacie tworzony jest profil konsumenta, który później wykorzystuje się w celu np. zwiększenia sprzedaży. Najważniejsze w Big Data jest zatem przetwarzanie informacji i wykorzystywanie w praktyce wniosków z nich płynących, a nie samo gromadzenie danych.

Warto jeszcze raz zaznaczyć, że dane, które gromadzą i przetwarzają analitycy są pozyskiwane w sposób zgodny z prawem. Najczęściej są powiązanie z usługami, z których już i tak się korzysta.

Przykłady zastosowania Big Data

Big Data jest dziś wszechobecne. Podmiotami, które wykorzystują je w swoich działaniach, są na przykład:

Banki - Gromadzą dane, które wynikają z ruchów na kontach użytkowników, np. dokonanych płatności, ich wielkości i rodzaju kupowanych przedmiotów;

Firmy - Wypuszczają własne aplikacje, które są pobierane przez użytkowników na smartfony lub tablety. Instalując produkt na urządzeniu, najczęściej automatycznie wyraża się zgodę na dostęp aplikacji do własnych danych;

Właściciele portali internetowych, którzy poprzez świadczone usługi również mogą gromadzić takie dane. Najczęściej zgoda na taką czynność znajduje się w regulaminie.

Kanały social media a Big Data

Interesującym źródłem danych są ponadto media społecznościowe. Pozyskane z nich informacje charakteryzują się znaczną trudnością w analizie, ponieważ nie zawierają wartości liczbowych, które łatwo ze sobą porównać. Jednak można je analizować pod względem obecności i zawartości słów kluczowych, pojawiania się i częstotliwości wpisów użytkowników oraz czasu ich reakcji na posty zamieszczane przez inne osoby.

Segregacji danych - metody i narzędzia

Ilość gromadzonych danych jest ogromna i powiększa się z każdą kolejną akcją wykonaną przez użytkowników. Część z nich może okazać się mniej wartościowa. Zatem kolejnym etapem prac analityków jest prawidłowe posegregowanie informacji, aby móc w pełni je wykorzystać. Najskuteczniejszym sposobem jest wybór najważniejszych z nich i wykorzystanie znanych i dostępnych narzędzi analitycznych. Ponieważ zapytania muszą być wykonywane szybko, wszystkie analizy wykonuje się równolegle. Najważniejszym algorytmem wykorzystywanym do tego celu jest MapReduce. Zastosowanie tego narzędzia umożliwia rozproszenie wprowadzonych zbiorów danych między wiele serwerów, które porządkują je i wybierają właściwe elementy i rekordy zgodnie z regułami zapytania. Uzyskane w ten sposób wyniki gromadzi się i przetwarza do postaci wynikowej. Efektem końcowym jest mniejsza ilość danych, ponieważ zostały one wcześniej odpowiednio pogrupowane oraz poddane procesowi niezbędnej redukcji. Istnieją również inne narzędzia, które z powodzeniem mogą być wykorzystywane przez analityków. Wybór najwłaściwszego zależy od preferencji użytkownika i oczekiwanych przez niego rezultatów. Wśród wielu dostępnych na rynku, najpopularniejszymi narzędziami do pomiaru Big Data są:

platforma Hadoop,

system Storm,

magazyny baz danych – Cassandra, MongoDB czy Neo4j,

algorytmy do data-miningu – RapidMiner i Mahout,

systemy indeksujące takie jak Lucene,

a także pozostałe technologie, takie jak projekt Sqoop, Flume, Terracotta czy Avro.

Na skróty Rozliczaj wygodnie swoją firmę online! Księgowość - Fakturowanie - CRM

Księgowość - Fakturowanie - CRM Kadry i płace zintegrowane z eZUS i PUE

Kadry i płace zintegrowane z eZUS i PUE Proste generowanie i wysyłka JPK i deklaracji Załóż bezpłatne konto Zacznij bezpłatny 30 dniowy okres próbny bez żadnych zobowiązań!

Czy warto i kiedy stosować Big Data? - podsumowanie

Big Data ma ogromny potencjał do kreowania zachowań konsumentów. Na podstawie zgromadzonych danych można stworzyć i dokładnie sprecyzować profil ich potrzeb i skutecznie podsuwać im idealne (z punktu widzenia sprzedającego) rozwiązania. Takie długofalowe działania mają szansę przyczynić się do powstania na rynku przewagi konkurencyjnej na rzecz przedsiębiorstwa, które zdecydowało się na użycie narzędzi Big Data.

Big Data budzi pewne wątpliwości sygnalizowane przez społeczeństwo. Wiążą się one szczególnie z obawą przed nadmierną ingerencją analityków w ich życie prywatne oraz celowym wprowadzaniem w błąd dla osiągnięcia własnych celów sprzedażowych. Granica jest delikatna i tak naprawdę tylko od przedsiębiorstw zależy, jak daleko się posuną, aby zrealizować własne plany. Nad prawidłowością ich działań czuwa Unia Europejska, która coraz intensywniej zajmuje się zagadnieniem ochrony danych osobowych oraz Generalny Inspektor Ochrony Danych Osobowych.

Big Data może być wykorzystywana w sposób korzystny zarówno dla konsumenta, jak i przedsiębiorstwa. Przykładowo na podstawie zgromadzonych informacji bank jest w stanie zaproponować klientowi odnawialny kredyt na koncie, aby mógł pozwolić sobie na dodatkowe wydatki. Zaś firma ubezpieczeniowa, po skrupulatnej analizie wpisów na facebookowym profilu klienta zamiłowanego w sportach ekstremalnych, może zaproponować mu dodatkowy pakiet świadczeń.

Big Data jest narzędziem, które pomaga organizacjom lepiej poznać własne otoczenie i konsumentów, którzy korzystają z ich produktów czy usług. Zatem tylko od wykwalifikowanej i świadomej kadry zależy, czy przedsiębiorstwom uda się wykorzystać zgromadzone dane w sposób etyczny i niewyrządzający szkód aktualnym i przyszłym użytkownikom.