Amazon Web Services: kompleksowe zarządzanie Big Data

By Weronika Skotnicka

Jakie możliwości daje Big Data?

Z analizy danych w jeszcze większym stopniu korzysta biznes. Firmy gromadzą i analizują olbrzymie wolumeny różnego typu danych dotyczących m.in. zachowań klientów, czy swojej sytuacji finansowej.

- Początkowo, ze względu na wysokie koszty, rozwiązania Big Data były dostępne tylko dla największych firm, ale wraz z upowszechnieniem chmur publicznych z zaawansowanej analityki danych zaczęły korzystać także mniejsze podmioty, bo koszty tego typu rozwiązań i dostępność wysoko wykwalifikowanej kadry przestały być barierą.

Globalne platformy, takie jak Google Cloud Platform udostępniają gotowe rozwiązania, które pozwalają na zbudowanie prostego modelu nawet przez osobę, która nie jest programistą - mówi Jakub Czajkowski, inżynier z Praktyki Data/AI Chmury Krajowej.

Big Data — czym jest?

Pojęcie to po raz pierwszy pojawiło się na początku XXI wieku, a za autora uznaje się analityka Douga Laneya. On też ukuł obowiązującą obecnie definicję, na którą składają się trzy V: Variety (różnorodność), Volume (wolumen) oraz Velocity (szybkość). Każdy z tych rzeczowników odnosi się do innego aspektu Big Data.

Różnorodność oznacza wiele rodzajów formatów danych: zarówno dane “surowe”, dane tekstowe, dane liczbowe, po pliki audio, video, emaile czy kursy walut.

Wolumen odnosi się z kolei do ich ilości oraz przestrzeni, w której są składowane - współcześnie wykorzystuje się do tego zarówno rozwiązania offline, jak i chmurowe, oferowane m.in. przez Google.

Natomiast szybkość to tempo przyrostu danych. Dla przykładu: każdego dnia tylko na Instagrama trafia 95 mln plików video i zdjęć, na Twitterze wysyłanych jest pół miliarda tweetów i wymienianych jest ponad 300 miliardów e-maili. To szalone tempo spowodowało, że przez ostatnie dwa lata powstało 90 proc. wszystkich danych na świecie.[1] Prędkość generowania i gromadzenia danych będzie rosła ze względu na Internet rzeczy, czyli różnego typu dane z czujników umieszczonych w urządzeniach, np. samochodach, sprzęcie AGD, systemach alarmowych czy zakładach produkcyjnych, które w przeciwieństwie do ludzi mogą generować dane nieprzerwanie 24/7/365.

Zgromadzenie danych, to zaledwie pierwszy krok w świat Big Data. Coraz częściej firmy wykorzystują rozwiązania z zakresu sztucznej inteligencji, które automatyzują proces ich pozyskiwania i segregowania. Kolejnym krokiem jest przetwarzanie i analizowanie danych, aby na ich podstawie kreować nową wartość dla swoich klientów i podejmować lepsze decyzje biznesowe.

Ważnym akceleratorem rozwoju Big Data jest popularyzacja rozwiązań chmurowych. Chmura obliczeniowa pozwala korzystać z nieograniczonej mocy obliczeniowej w ramach założonego budżetu i skalować rozwiązania w zależności od potrzeb.

- Big Data wymaga dużych zasobów pamięci oraz mocy obliczeniowej - budowa takiej infrastruktury w organizacji to często inwestycja liczona w setkach tysięcy dolarów, a więc dostępna tylko dla największych firm. Możliwość skorzystania z zasobów dużego dostawcy chmury publicznej za ułamek tej kwoty powoduje, że z zaawansowanej analityki danych mogą korzystać zarówno korporacje, jak i startupy - mówi Jakub Czajkowski z Chmury Krajowej.

Zastosowanie Big Data

W raporcie stowarzyszenia Big Data Value Association wymieniono pięć głównych obszarów, w których technologie Big Data są przełomem. Należą do nich:

● cyberbezpieczeństwo - automatyzacja systemów bezpieczeństwa

● analiza danych biomedycznych - bioinformatyka, biostatystyka oraz medycyna obliczeniowa

● przetwarzanie Big Data i strumieniowa analiza danych - wykorzystywana m.in. przy budowie inteligentnych miast (tzw. smart city)i analizie genomu.

● zaawansowane metody uczenia maszynowego — rozwój algorytmów oraz narzędzi automatyzacyjnych oraz do weryfikacji transparentności modeli predykcyjnych

● matematyczne podstawy analizy danych — modelowanie różnego rodzaju procesów przy użyciu szerokiego aparatu matematycznego.

Szczególnie ciekawy jest sektor ochrony zdrowia. Zaawansowana analityka na podstawie zebranych danych o zachorowaniach na COVID-19 pozwala tworzyć modele rozwoju epidemii. Liczba zastosowań Big Data w medycynie cały czas rośnie.

Przykładem może być firma telemedyczna Amwell, która zajmuje się dostarczaniem narzędzi i technologii do pracy zdalnej lekarzy. W 2020 r. w Amwell zainwestował Google i właśnie z rozwiązań tego dostawcy korzysta firma.

Innym sektorem, w którym Big Data ma wielką przeszłość jest energetyka. Wynika to z przyspieszającej na naszych oczach transformacji energetycznej, której celem jest osiągniecie neutralności klimatycznej. Według raportu fundacji GAP Polska gospodarka ma najwyższy procentowy udział emisji CO2 na wytworzoną jednostkę PKB. Jednym z rekomendowanych rozwiązań ma być zastosowanie technologii takich jak sztuczna inteligencja, automatyzacja i Big Data właśnie do redukcji konsumpcji energii i w konsekwencji zmniejszenia emisji dwutlenku węgla.

Zaawansowaną analitykę danych można też wykorzystać do poprawy bezpieczeństwa w sieci, zwłaszcza do analizy predyktywnej i wyprzedzania cyberprzestępców.

Współczesny internet to stały wyścig zbrojeń, a duże zbiory danych i znajdujące się w nich schematy mogą okazać się ważnym orężem. Big Data pozwala na wczesne wykrywanie słabych punktów sieci, a przy okazji na wizualizację potencjalnych ataków. Dzięki temu użytkownicy mogą lepiej wyobrazić sobie skalę zagrożenia.

O potencjale takich rozwiązań sprawę zdaje sobie polski przemysł. PGNiG Ventures, fundusz venture capital grupy PGNiG, zainwestował pod koniec marca 4 mln zł w akcje polskiego producenta systemów cyberbezpieczeństwa ICsec. System przedsiębiorstwa docelowo ma wykrywać zagrożenia, anomalie i cyberzagrożenia w sieciach automatyki przemysłowe. Przy tej pracy opiera się właśnie na Big Data, ale również uczeniu maszynowym czy sztucznej inteligencji. Całość działań ochronnych odbywać się będzie w czasie rzeczywistym.

Jak uwolnić potencjał Big Data?

Chmury publiczne, np. Google Cloud, dają bardzo duże możliwości pracy z danymi, a Google Cloud Region Warszawa pozwoli na dodatkowe obniżenie czasu w przesyłaniu i przetwarzaniu danych. Komponenty Google Cloud to w dużej mierze gotowe do wykorzystania narzędzia. Ich wdrożenie jest wielokrotnie szybsze niż budowa rozwiązań od podstaw.

Jednym z przykładów jest BigQuery, flagowe rozwiązanie do przetwarzania danych od Google. BigQuery to skalowalna hurtownia danych w chmurze. Pozwala na analizę dużych zbiorów danych bez konieczności inwestowania w infrastrukturę i płatne licencje.

Chmura Krajowa, strategiczny partner Google Cloud w Polsce, realizuje projekty związane z Big Data z firmami z bardzo różnych sektorów gospodarki - od przemysłu ciężkiego, przez sektor finansowy po administrację publiczną, co pokazuje uniwersalność rozwiązań dostępnych w chmurach publicznych. Wśród tych projektów można wymienić integrację danych z wielu źródeł i implementujące wykorzystanie modeli sztucznej inteligencji. Opracowane na tej podstawie interaktywne raporty, pomagają podejmować lepsze decyzje biznesowe.

Wśród innych przykładów warto wymienić wdrożenie rozwiązania kategoryzującego dokumenty na podstawie ich zdjęć lub skanów. System automatycznie rozpoznawał i kategoryzował dokumenty z dokładnością ponad 98 procent.

Dzięki Chmurze Krajowej i jej współpracy w Polsce z Google rozwiązania Big Data są jeszcze łatwiej dostępne dla polskich firm, bez względu na ich wielkość.

Masz newsa, zdjęcie lub filmik? Prześlij nam przez

Artykuł sponsorowany

Big data w marketingu – o danych i ich potencjale

Big data w marketingu – jak mądrze wykorzystać dane?

MBridge - Marketing Experts,

Niemal nieskończona ilość danych, czyli big data, to dziś podstawa praktycznie wszystkich działań marketingowych. Historie zakupów, aktywność w witrynie, informacje dostarczane przez Google – analiza tego typu danych pozwala na tworzenie strategii i podejmowanie decyzji biznesowych. Dowiedz się więcej o zastosowaniu big data w marketingu i przekonaj się, dlaczego tak wiele mówi się obecnie o tej technologii.

Czym jest big data marketing?

Czy każda ilość danych o dowolnym charakterze to od razu big data? Zdecydowanie nie. Tzw. dane masowe są:

ogromne , nie do przetworzenia przez jednego człowieka,

, nie do przetworzenia przez jednego człowieka, zmieniające się błyskawicznie ,

, różnorodne – dotyczą, wieku, płci, zachowania, nawyków zakupowych itp.

Działy analityki różnych instytucji, np. agencji marketingowych, skupiają się na gromadzeniu danych z rozmaitych źródeł. Co dzieje się później? Następuje etap analizy i projektowania oferty, która będzie „szyta na miarę” konsumenta.

Zastosowanie big data, czyli co możemy wyczytać ze zgromadzonych danych?

Analizowanie big data niesie ze sobą szereg korzyści. Najogólniej rzecz ujmując, dzięki drobiazgowemu rozpatrywaniu danych pod różnymi kątami uzyskujemy pełny obraz konsumenta. Z początkowo rozproszonych informacji dowiadujemy się wiele o naszym kliencie:

tego, kim jest – poznajemy jego wiek, płeć, zawód czy pełnioną rolę społeczną;

– poznajemy jego wiek, płeć, zawód czy pełnioną rolę społeczną; tego, jak się zachowuje – w jakie linki na Facebooku klika, które konta w social mediach lubi, dlaczego porzuca koszyk, jak używa aplikacji na smartfonie, ile czasu spędza na podstronach, co udostępnia, czy otwiera newslettery;

– w jakie linki na Facebooku klika, które konta w social mediach lubi, dlaczego porzuca koszyk, jak używa aplikacji na smartfonie, ile czasu spędza na podstronach, co udostępnia, czy otwiera newslettery; tego, czym kieruje się przy zakupie – jak często kupuje w sieci, ile średnio wydaje, które sposoby płatności należą do jego ulubionych itd.

Algorytmy sztucznej inteligencji, „wyszkolone” za pomocą machine learning (uczenia maszynowego), analizują i klasyfikują dane w kolejne podzbiory. Dzięki temu spośród setek klientów, możemy wyłuskać tych którzy są blisko decyzji zakupowej lub odwrotnie – znajdują się dopiero na początku ścieżki. Każdej z tych grup możemy następnie pokazywać inne komunikaty martektingowe.

Jakie korzyści daje analiza big data w marketingu?

Wspomnieliśmy już o dwóch zaletach opracowywania big data: personalizacji i łatwiejszym tworzeniu strategii marketingowych. Zastosowanie big data w marketingu nie ogranicza się jedynie do tych dwóch aspektów. Analiza ogromnej ilości danych – nie ręczna (jak w przypadku testów A/B), a z pomocą sztucznej inteligencji – pozwala także:

precyzyjnie targetować i segmentować klientów,

przewidywać przyszłe zachowania konsumentów (predykcja),

zmieniać ceny według profilu klienta,

planować rozszerzenie portfolio o nowe produkty.

W kolejnym akapicie omówimy niektóre ze wspomnianych korzyści na konkretnych przykładach.

Zastosowanie big data w marketingu – przykłady z branży e-commerce

Dopasowanie oferty do sezonowych trendów

Jeśli dzięki big data wiemy, że konsumentka co roku w sezonie letnim szuka nowego kostiumu kąpielowego lub w okolicy urodzin przyjaciółki zawsze kupuje charmsy do bransoletki modułowej, możemy w konkretnym momencie w roku podsunąć jej wyselekcjonowane propozycje. Doskonale sprawdzi się tu newsletter z kilkoma propozycjami do wyboru i kodem rabatowym.

Dopasowanie oferty do indywidualnych potrzeb użytkownika

Na podstawie historii zakupów jesteśmy w stanie zorientować się, jakie preferencje mają poszczególni użytkownicy, a następnie rekomendować im adekwatne produkty. Przykładowo, jeśli prowadzimy sklep z perfumami i wiemy, że część klientek preferuje świeże, cytrusowe nuty, raczej nie ma sensu proponować im ciężkiego aromatu piżma.

Dopasowanie oferty do możliwości finansowych użytkownika

Ważną informacją dla sklepów internetowych, wykorzystujących big data jest cena koszyka zakupowego. Jeśli jesteśmy pewni, że klient wydaje w sklepie z dodatkami do domu średnio 200 zł, możemy wyświetlać mu w pierwszej kolejności produkty w zbliżonej kwocie zamiast tych, które znajdują się powyżej lub poniżej jego możliwości finansowych.

Big data w marketingu

– podsumowanie

Z zastosowaniem big data spotykamy się dziś praktycznie na każdym kroku. Gdy uruchamiamy Spotify, algorytmy dopasowują utwory do naszego gustu muzycznego. Gdy włączamy Netflixa, nie zobaczymy tych samych propozycji co znajomi, ponieważ bazują one na historii obejrzanych filmów. Podobnie jest na Facebooku, Instagramie i innych serwisach społecznościowych. Wszystko, co widzimy na ekranie, ma odzwierciedlenie w zgromadzonych o nas danych.

Skoro wszyscy wokół wykorzystują big data, nierozważne byłoby ignorowanie potencjału tej technologii.

Nie wiesz, gdzie szukać danych pomocnych w Twoim biznesie? Posiadasz dane, ale masz problem z ich analizą? Nie masz doświadczenia w tworzeniu strategii w oparciu o big data? Skontaktuj się z nami! Nasz dział analityki pomoże Ci uporać się z tym wyzwaniem. Możemy też wykonać dla Ciebie audyt Google Analytics – z tego artykułu dowiesz się, na czym polega taka usługa. Skorzystała z niej m.in. redakcja magazynu „Pismo”.

Skontaktuj się z nami mbridge@mbridge.pl

Amazon Web Services: kompleksowe zarządzanie Big Data

Materiał promocyjny Amazon Web Services posiada w swojej ofercie szerokie portfolio narzędzi umożliwiających tworzenie i wdrażanie aplikacji Big Data. Wszystko odbywa się szybko i łatwo, dzięki natychmiastowemu dostępowi do elastycznych oraz stosunkowo tanich zasobów IT. Co za tym idzie, błyskawiczne skalowanie dowolnych, pozostających pod naszą kontrolą, hurtowni danych czy mocy obliczeniowej serwerów jest możliwe niemalże w czasie rzeczywistym. Jak prezentuje się zatem pełne portfolio Amazon Web Services jeśli chodzi o usługi związane z przetwarzaniem i analizą Big Data?

Dzięki narzędziom dostępnym w ramach AWS firma rozpoczynająca swoją "przygodę" z Big Data nie musi ponosić na wstępnie zbyt dużych kosztów związanych z inwestycją oraz utrzymaniem infrastruktury. Możliwe staje się bowiem "zarezerwowanie" dokładnie takiej ilości zasobów jaka jest potrzebna w danym momencie. Jeśli istnieje zapotrzebowanie na kolejne, są one po prostu uruchamiane w kilka minut.

Frameworki Big Data Analytic

Amazon EMR (czyli Amazon Elastic MapReduce) to narzędzie umożliwiające szybkie i efektywne kosztowo przetwarzanie ogromnych ilości danych. W jego skład wchodzi m.in. framework Hadoop, który umożliwia efektywną dystrybucję oraz przetwarzanie po dynamicznie skalowanych instancjach Amazon EC2. Oczywiście nic nie stoi na przeszkodzie, by skorzystać z innych popularnych frameworków, jak chociażby Apache Spark czy Presto oraz skomunikować całość z magazynami danych dostępnymi w ramach AWS. Z Amazon EMR z powodzeniem korzysta m in. YELP.

Warto także wspomnieć o Amazon Elasticsearch Service, który ułatwia szybkie wdrożenie i łatwe zarządzanie usługą Elasticsearch, czyli silnikiem wykorzystywanym przy monitorowaniu aplikacji w czasie rzeczywistym czy analizach typu stream analytics. Uruchomienie klastra Amazon Elasticsearch zajmuje tylko kilka minut, jakie trzeba poświęcić na skonfigurowanie go w AWS Management Console. Narzędzie, na kolejnym etapie, samo uruchamia niezbędne zasoby oraz całą usługę, która może być następnie, w zależności od potrzeb: skalowana, wstrzymywana lub całkowicie wyłączana.

Streaming w czasie rzeczywistym

Kolejną grupą narzędzi niezbędnych w wielu procesach związanych z przetwarzaniem Big Data są usługi umożliwiające obsługę oraz analizę danych strumieniowych (streaming data). W Amazon Web Services mamy do dyspozycji trzy produkty: Kinesis Firehose, Kinesis Analytics oraz Kinesis Streams. Pierwszy z nich jest tak naprawdę najprostszą metodą "załadowania" danych strumieniowych do usług dostępnych w ramach AWS (jak chociażby Amazon S3 czy Amazon Redshift) i natychmiastowe wykorzystanie ich jako źródła do analiz prowadzonych w czasie rzeczywistym. Kinesis Firehose to narzędzie automatycznie skalujące swoje możliwości do ilości danych. Co za tym idzie, nie jest niezbędne ciągłe administrowanie nim. Plusem jest także możliwość kompresowania oraz szyfrowania danych, co znacznie zmniejsza ilość miejsca niezbędnego do ich przechowywania i zwiększa bezpieczeństwo.

Amazon Kinesis Analytics umożliwia natomiast wykonywanie standardowych zapytań SQL, podczas gdy Kinesis Streams okazuje się niezastąpione w tworzeniu specjalistycznych aplikacji, których zadaniem jest przetwarzanie i/lub analiza danych strumieniowych w ściśle określonym celu (monitorowanie transakcji finansowych, obsługa feedów z mediów społecznościowych czy analizy typu clickstreams prowadzone na stronach WWW). Możliwe staje się tworzenie dashboardów odświeżanych w czasie rzeczywistym, implementowanie mechanizmów dynamicznych cen w sklepach internetowych i wiele więcej. Oczywiście dane przetwarzane w Amazon Kinesis Streams mogą zostać wykorzystane także przez inne narzędzie wchodzące w skład portfolio AWS: Amazon Simple Storage Service (Amazon S3), Amazon Redshift, Amazon Elastic Map Reduce (Amazon EMR) czy AWS Lambda.

Storage i bazy danych dla Big Data

W kontekście atrakcyjności oferty Amazon Web Services pod kątem Big Data, nie sposób nie wspomnieć także o narzędziach służących do przechowywania danych. Warto wymienić chociażby Amazon S3 (Amazon Simple Storage Service), który przeznaczony jest zarówno do przechowywania krótkoterminowego jak i długoterminowego. Ma czytelny i prosty w obsłudze webowy interface, jest w pełni skalowalny oraz nie posiada minimalnej bariery wejścia. Oznacza to, że skorzystać z niego mogą także użytkownicy dysponujący stosunkową niewielką ilością danych do składowania oraz ograniczonym budżetem.

W kwestii baz danych użytkownicy mogą natomiast skorzystać z Amazon Relational Database Service (Amazon RDS). Usługa ta jest kompatybilna z sześcioma różnymi, relacyjnymi bazami danych: Amazon Aurora, Oracle, Microsoft SQL Server, PostgreSQL, MySQL oraz MariaDB. Do superwydajnych zastosowań stworzono natomiast Amazon DynamoDB – narzędzie NoSQL umożliwiające tworzenie baz dokumentowych oraz klucz-wartość. Idealnie sprawdzi się jako fundament pod aplikacje mobilne, webowe, sieci reklamowe czy narzędzia IoT.

Warto także wspomnieć o Amazon Aurora – silniku do relacyjnych baz danych kompatybilnym z MySQL. Łączy on w sobie szybkość i dostępność typowe dla komercyjnych baz danych z efektywnością kosztową oraz prostotą baz Open Source.

A propos baz danych, należy wspomnieć także o narzędziu umożliwiającym tworzenie hurtowni danych w ramach AWS. Amazon Redshift, bo o nim mowa, może być skalowany do kilku petabajtów i współpracuje z wieloma dostępnymi aplikacjami klasy BI. Z dodatkiem ElastiCache może być także wykorzystany jako pamięć podręczna w chmurze. Co ciekawe, finansowa bariera wejścia niezbędna do przejścia, by móc skorzystać z tej usługi jest praktycznie żadna, bowiem zaczyna się już od 0,25$ za godzinę.

BI w Amazon Web Services

Przetwarzanie dużych ilości danych nie miałoby większego sensu bez odpowiedniej ich analizy, wizualizacji i wniosków. Odpowiedzią na te potrzeby jest Amazon QuickSight – ta aplikacja BI umożliwia, nawet tym mniej zaawansowanym użytkownikom, tworzenie wizualizacji czy wykonywanie analiz ad-hoc. Narzędzie to korzysta z niezwykle wydajnego silnika "SPICE", dzięki czemu nawet skomplikowane analizy biznesowe oraz wizualizacje tworzone są, dosłownie w przeciągu kilku chwil. Oczywiście Amazon QuickSight może być w pełni zintegrowany z pozostałymi usługami dostępnymi w ramach Amazon Web Services.

Machine Learning oraz Internet of Things

Amazon Machine Learning to usługa, która umożliwia deweloperom, będącym praktycznie na każdym poziomie zaawansowania, skorzystanie z technologii "Machine learning". Tworzenie modeli jest stosunkowo proste i nie wymaga znajomości skomplikowanych algorytmów oraz samej technologii. Wystarczy jedynie skorzystać z gotowych narzędzi wizualizacyjnych oraz kreatorów. Warto podkreślić, że Amazon Machine Learning zostało oparte o te same, sprawdzone i wydajne, technologie wykorzystywane przez lata przez inżynierów firmy Amazon. AML wykorzystuje dostępne dane, wyszukuje odpowiednie wzorce i na ich podstawie tworzy bardziej zaawansowane modele. Oczywiście usługa ta jest, podobnie jak inne produkty dostępne w ramach AWS, w pełni skalowalna oraz dostępna w formule pay-as-you-go, gdzie użytkownik płaci jedynie za wykorzystane zasoby.

Inną narzędziem opartym na Biga Data jest AWS IoT (Internet of Things), które umożliwia, podłączonym do sieci urządzeniom, bezpieczną komunikację i interakcję z aplikacjami chmurowymi oraz innymi urządzeniami. Możliwości tego narzędzia są praktycznie nieograniczone, jest ono bowiem w stanie obsłużyć miliardy urządzeń oraz biliony przesyłanych wiadomości. Atutem jest niewątpliwie pełna integracja z innymi usługami dostępnymi w ramach Amazon Web Services: AWS Lambda, Amazon Kinesis, Amazon S3, Amazon Machine Learning, Amazon DynamoDB, Amazon CloudWatch oraz Amazon Elasticsearch.

W kolejnych artykułach publikowanych na serwisie Computerworld omówimy kolejne usługi oraz narzędzia dostępne w ramach Amazon Web Services.

Już teraz jednak, istnieje możliwość stworzenia bezpłatnego konta na