Analityka danych w chmurze

By Weronika Skotnicka

Wykorzystanie technologii analitycznej w systemach zabezpieczenia społecznego podczas pandemii

6 lipca 2021

Prawidłowa interpretacja danych to wielkie wyzwanie, przed którym stają wszystkie organizacje. W coraz bardziej dynamicznym środowisku, które wymaga terminowych i trafnych decyzji, analiza danych staje się coraz ważniejszym narzędziem. W szczególności w kontekście COVID-19 wykorzystanie technologii analitycznych umożliwiło instytucjom lepszą ocenę skutków zdrowotnych i społecznych pandemii oraz usprawnienie procesów decyzyjnych.

Analitykę danych można zdefiniować jako naukę o badaniu zbioru danych w celu wyciągnięcia z niego wniosków w celu wspomagania podejmowania decyzji lub po prostu do poszerzenia zrozumienia poszczególnych zagadnień.

W związku z tym analiza danych obejmuje szereg technik wykorzystywanych do wyciągania wniosków i zaleceń z danych. Różne techniki analizy danych dzielą się na cztery główne kategorie, oparte na dostarczanych przez nie spostrzeżeniach: opisowe, diagnostyczne, predykcyjne i nakazowe.

Analiza opisowa: Ten rodzaj analizy jest zwykle przeprowadzany przy użyciu dużego zbioru danych, który na pierwszy rzut oka nie jest zbyt pouczający. Techniki oczyszczania, porządkowania, przetwarzania i wizualizacji są stosowane w celu zilustrowania rozwoju w organizacji w przystępnym formacie. Analityka opisowa umożliwia analizę wyników określonych wydarzeń lub zjawisk i umożliwia identyfikację tego, co się wydarzyło. Dane wyjściowe po prostu wskazują, czy coś idzie dobrze, bez wyjaśniania dlaczego.

Analityka diagnostyczna: Dostarcza szczegółowych informacji o konkretnym problemie i identyfikuje przyczynę konkretnego zdarzenia lub zjawiska. Dane historyczne można porównać z innymi danymi, aby odpowiedzieć na pytanie, dlaczego coś się stało.

Do przeprowadzenia tego typu analizy wymagane są szczegółowe informacje. W przeciwnym razie zbieranie danych wymaganych dla każdego konkretnego zagadnienia może okazać się nieefektywne, a także czasochłonne.

Analizy predykcyjne: Ten rodzaj analizy wykorzystuje modelowanie i techniki matematyczne i statystyczne do danych historycznych przechowywanych przez organizację. Analiza predykcyjna nie może określić z absolutną pewnością, co stanie się w przyszłości, ponieważ opiera się na poziomach prawdopodobieństwa, ale pokazuje, czego można się spodziewać. Opiera się na wynikach analiz opisowych i diagnostycznych, aby zidentyfikować grupy i wartości odstające, które są wykorzystywane jako podstawa modeli predykcyjnych. Modele te, zastosowane do dużej ilości danych, mogą generować prognozę tego, co może się wydarzyć przy danym stopniu prawdopodobieństwa.

Analityka predykcyjna to zaawansowana forma analityki danych, która niesie ze sobą wiele korzyści, takich jak wykorzystanie uczenia maszynowego. Jednak ważne jest, aby nie tracić z oczu faktu, że prognoza jest tylko szacunkiem. Ponieważ opiera się na analizie korelacji między zmiennymi i możliwościami ich rozwoju, jego dokładność zależy w dużej mierze od jakości danych bazowych.

Analizy nakazowe: Ten rodzaj analizy obejmuje zbieranie danych, rekomendowanie działań i przewidywanie ich wpływu, aby ułatwić i zautomatyzować podejmowanie decyzji poprzez zidentyfikowanie najlepszej decyzji z szeregu opcji.

Ma na celu udzielenie odpowiedzi na pytania takie jak „Co mogę zrobić, aby temu zapobiec?” lub „Co mogę zrobić, aby tak się stało?”. Określa środki, które należy podjąć, aby zapobiec przyszłym problemom lub jak najlepiej wykorzystać trend.

Ten rodzaj analizy wymaga nie tylko wewnętrznych danych historycznych, ale także informacji zewnętrznych, ze względu na naturę leżących u jej podstaw algorytmów matematycznych.

Rysunek 1: Różne rodzaje analizy danych

Rysunek 1 podsumowuje kategorie, ich wartość dodaną i ich złożoność pod względem realizacji.

Stosowanie tych technik jest szczególnie ważne w dziedzinie zabezpieczenia społecznego, ponieważ umożliwiają instytucjom maksymalne wykorzystanie coraz większej ilości dostępnych danych, zarówno w celu wykrywania i wyjaśniania nietypowych zdarzeń, jak i budowania modeli predykcyjnych, które mogą pomóc w przewidywać nowe wydarzenia.

Ten rodzaj analizy ma wiele zastosowań. Coraz więcej instytucji korzysta z technologii analitycznych w różnych dziedzinach, takich jak zapobieganie oszustwom, analiza wydajności procesów, ocena i dostosowywanie programów społecznych, wdrażanie działań prewencyjnych, proaktywny rozwój polityki społecznej i usług zdrowotnych.

Powstało Międzynarodowe Stowarzyszenie Zabezpieczenia Społecznego (ISSA) wytyczne dotyczące technologii informacyjno-komunikacyjnych, które zawierają wskazówki dotyczące stosowania technologii analizy danych. W szczególności istnieją cztery wytyczne, po jednej dla każdej kategorii analizy danych określonych powyżej (wytyczne 54 do 57), a także oddzielne wytyczne dotyczące dużych zbiorów danych (wytyczna 58) oraz uczenia maszynowego i jego wykorzystania we wspieraniu podejmowania decyzji (wytyczna 59 ).

Doświadczenia w stosowaniu technik analitycznych do walki z pandemią

Przykłady dobrych praktyk w tym zakresie zostały zaprezentowane podczas konkursu na Nagrody ISSA za dobre praktyki dla obu Ameryk 2020 oraz w webinariach i innych działaniach ISSA. Z tych przykładów jasno wynika, że ​​techniki analityczne są obszarem bieżącego zainteresowania i są coraz częściej stosowane przez instytucje zabezpieczenia społecznego. Podczas kryzysu zdrowotnego związanego z COVID-19 techniki te okazały się cennym narzędziem o szczególnym zastosowaniu w usługach opieki zdrowotnej.

Kostaryka

Fundusz Ubezpieczeń Społecznych Kostaryki (Kostarykańskie pole ubezpieczenia społecznego – CCSS) zastosował techniki analityczne do śledzenia rozprzestrzeniania się COVID-19 w populacji oraz usług świadczonych w placówkach CCSS. Podczas stanu zagrożenia zdrowia istniało wyraźne zapotrzebowanie na aktualne i dokładne informacje zarówno do celów śledzenia, jak i wspierania podejmowania decyzji w celu zarządzania pandemią.

Z tego powodu zdecydowano, że należy opracować jedno źródło informacji, opierając się na solidnych i elastycznych informacjach zdrowotnych dostępnych dla CCSS, w celu przeprowadzenia analizy identyfikowalności pacjentów z COVID-19. W tym celu konieczne było skonsolidowanie danych z zakładów opieki zdrowotnej oraz wykorzystanie własnych danych podstawowych instytucji.

Powstała aplikacja kładzie również strategiczny nacisk na wykorzystanie narzędzi analizy biznesowej do zarządzania informacjami statystycznymi, umożliwiając terminowe dostarczanie danych dotyczących opieki zdrowotnej COVID-19. Celem jest wspieranie procesu decyzyjnego opartego na danych, w szczególności na poziomie strategicznym. Wymaga to łatwiejszego dostępu do informacji statystycznych, a także korzystania z narzędzi do analizy danych.

Ogólnie rzecz biorąc, zastosowanie technologii analitycznych pomogło CCSS w podejmowaniu decyzji na podstawie danych. CCSS był w stanie określić ilościowo wpływ na usługi i odpowiednio dostosować świadczenie. Jednocześnie aplikacja wspierała własną transformację cyfrową instytucji, w szczególności poprzez zastosowanie technologii analizy danych.

Podejście CCSS opiera się na analityce opisowej i diagnostycznej.

Meksyk

W Meksyku meksykański Instytut Ubezpieczeń Społecznych (Meksykański Instytut Zabezpieczenia Społecznego – IMSS) odniósł się do problemu analityka danych poprzez przyjęcie strategii zarządzania danymi, ze względu na znaczenie danych w pandemii COVID-19.

Podejście do zarządzania danymi oznacza, że ​​IMSS może dostarczać cennych informacji swoim kluczowym elementom. Ułatwia to podejmowanie decyzji zarówno na poziomie zarządczym, jak i operacyjnym. Dostępne dla Instytutu informacje geograficzne i statystyczne umożliwiają zarządzanie stanami zapasów, niezdolnością beneficjentów spowodowaną dolegliwościami związanymi z COVID-19 oraz danymi firmowymi dotyczącymi zgodności ze zmiennymi dotyczącymi powrotu do pracy. Dzięki takiemu podejściu IMSS stara się rozwiązać takie problemy, jak powielanie wysiłków, stracone możliwości dostarczania cennych informacji oraz słaba standaryzacja, identyfikowalność, integralność i jakość danych. Cechy te są typowe dla danych z instytucji, które świadczą wiele usług i przechowują duże ilości informacji w wielu niepowiązanych ze sobą repozytoriach danych.

Model zarządzania danymi IMSS opiera się na trzech filarach: zmianie kulturowej ze strony jednostek, usprawnieniu procesów dzięki bardziej holistycznej wizji oraz rozwoju technologicznym z wdrożeniem jeziora danych w ramach zintegrowanego rozwiązania. Mając taki fundament, można następnie wdrożyć narzędzia analityczne do przeprowadzania analizy danych. Analityka danych dostarcza użytecznych, wysokiej jakości informacji i umożliwia identyfikację odbiegających od normy trendów i wartości. Ułatwia harmonizację niezbędną do przejrzystej i bezpiecznej wymiany informacji z innymi instytucjami.

Ponownie, w tym samym kontekście, wykorzystanie dużych zbiorów danych, opartych na jeziorze danych, umożliwia wizualizację ewolucji pandemii i zarządzanie nią, przy zastosowaniu zmiennych, takich jak liczba przypadków, zajęcie szpitala, wyniki pacjentów i zgony na region , płeć, wiek, jednostka medyczna itp.

Podejście IMSS opiera się na analityce opisowej i diagnostycznej.

Peru

Podejście peruwiańskiego Zakładu Ubezpieczeń Społecznych Zdrowotnych (EsSalud) było powołanie jednostki analityki biznesowej i analizy danych, którego celem jest dostarczanie pełnych i aktualnych informacji wysokiej jakości, wykorzystujących analizę danych jako podstawę strategicznych decyzji instytucjonalnych. Stworzenie tej jednostki ma na celu zachęcenie do nowoczesnego, efektywnego zarządzania w interesie beneficjentów, poprzez dostarczanie wyższej kadrze zarządzającej aktualnych, istotnych i wysokiej jakości informacji wspierających podejmowanie decyzji.

Innym aspektem tego podejścia jest opracowanie aplikacji i innych innowacyjnych strategii komunikacji z kierownictwem wyższego szczebla, a także promowanie i monitorowanie lepszej jakości prowadzenia dokumentacji i integracji informacji instytucjonalnych. Jednym z kluczowych zastosowań jest mapa cieplna (Mapa de calor), która pokazuje rozwój pandemii w Peru, kreśląc „drogę wirusa” w miarę rozprzestrzeniania się, obszary o wysokiej prewalencji itp.

Dostarczanie odpowiednich informacji, aktualizowanych codziennie, umożliwia analizę przełożonych wizyt, śledzenie wizyt domowych, wysyłanie alertów o przedłużonych przyjęciach oraz monitorowanie dostępności łóżek szpitalnych.

Warto podkreślić, że EsSalud ma na celu nie tylko generowanie informacji do użytku wewnętrznego, ale także współpracę z innymi organami publicznymi, dzieląc się uzyskanymi wynikami. Wykorzystano w szczególności informacje z Krajowego Rejestru Identyfikacyjnego (Krajowy Rejestr Identyfikacyjny) i stanu cywilnego (Stan cywilny).

Podejście EsSalud opiera się na analityce opisowej i diagnostycznej.

Otrzymane wyniki

Instytucje te osiągnęły pozytywne wyniki dzięki zastosowaniu technologii analitycznych. Byli w stanie wdrożyć określone mechanizmy, aby sprostać wyzwaniom pandemii, a także zwiększyli swoją zdolność do zastosowania tych technologii w innych kontekstach. Tabela 1 podsumowuje wyniki.

Tabela 1. Wyniki uzyskane w różnych krajach Kraj Wyniki uzyskane dla systemów opieki zdrowotnej Kostaryka – CCSS Wzmocnienie procesów decyzyjnych. Generowanie informacji ułatwiających planowanie usług po COVID-19. Możliwe było zmierzenie wpływu na usługi, który był: 26% na konsultacje zewnętrzne

35% na oddziały ratunkowe

34% na hospitalizację

55% na operację Meksyk - IMSS Wdrożenie unikalnej platformy danych dla COVID-19 z wykorzystaniem technologii Data Lake i Big Data. Platforma odnotowała 86,422 445 odwiedziny przez XNUMX użytkowników. Informacje są udostępniane Ministerstwu Zdrowia (odpowiedzialnemu za koordynację polityki pandemicznej) i innym instytucjom. Peru — EsSalud Dostarczono codzienne raporty monitorujące pandemię pandemii, śledząc: Pozytywne przypadki COVID-19 (położenie geograficzne, wskaźnik na 1,000 mieszkańców);

Wskaźnik pozytywności na sieć opieki zdrowotnej;

Zaktualizowany status łóżka szpitalnego;

Aktualizacja dostaw towarów strategicznych. Wdrażanie aplikacji takich jak mapa cieplna (Mapa ciepła), a także mapy i infografiki ułatwiające interpretację informacji.

Konfigurowanie pulpitu nawigacyjnego z alertami o przedłużonych pobytach i dostępności łóżek szpitalnych, dostępnym online z informacjami aktualizowanymi w czasie rzeczywistym. Informacje przekazywane są co najmniej 12 samorządom i dwóm ministerstwom.

Potencjał i ograniczenia analityki predykcyjnej

Panamerykańska Organizacja Zdrowia (PAHO) podkreśla znaczenie analityki predykcyjnej w walce z COVID-19, ponieważ pozwala nam oszacować zachowanie pandemii w akceptowalnym stopniu niepewności. Na podstawie tych informacji instytucje mogą przewidywać przybliżone zapotrzebowanie na usługi medyczne w nagłych wypadkach, określać ramy czasowe częściowego lub całkowitego zniesienia środków powstrzymujących (tj. blokad), a nawet przewidywać nowe potrzeby, które mogą się pojawić (PAHO, 2021).

Jednocześnie PAHO wskazuje również, że modele prognostyczne mają pewne ograniczenia w przypadku zastosowania w kontekście takim jak pandemia, ponieważ istnieje pewna nieodłączna niepewność w modelach, która wpływa na ich wydajność i może być trudna do oszacowania. W szczególności wprowadzenie horyzontów czasowych i niejednorodność analizowanych danych może prowadzić do większej niepewności. Przeprowadzenie „analizy wrażliwości” jest kluczem do lepszego zrozumienia niepewności. Technika ta służy do oceny wpływu, jaki konkretna zmienna zależna, przy danym zestawie założeń, może mieć na ogólny wynik. Niepewność można zmniejszyć, zwiększając wielkość próby i poprawiając jakość danych wykorzystywanych w modelu. Oznacza to, że ilość i jakość danych ma kluczowe znaczenie dla tych technik analitycznych (PAHO, 2021).

Czynniki krytyczne

Wszystkie opisane doświadczenia wskazują na różne krytyczne czynniki przy stosowaniu technik analitycznych w kontekście COVID-19.

Pierwszym krytycznym czynnikiem jest zespół, który jest istotną częścią strategii wdrażania technik analitycznych. Z tego powodu celem powinno być tworzenie multidyscyplinarnych zespołów o jasno określonych rolach. Zawsze ważne jest, aby komisje obejmowały członków z różnych dziedzin, ponieważ umożliwia to rozszerzenie definicji w razie potrzeby.

W EsSalud została utworzona specjalna jednostka analityczna, składająca się z multidyscyplinarnego zespołu. Jednostka ta posiada elastyczny plan strategiczny, który pozwala jej rozwijać i dodawać nowe innowacje do strategii analitycznej instytucji. IMSS w Meksyku powołał wspólny zespół do wspólnej pracy. Określono konkretne role w obszarach analityki, jakości danych, architektury i własności funkcjonalnej danych. Utworzono komitet wykonawczy ds. danych.

Wsparcie ze strony wyższej kadry zarządzającej ma również kluczowe znaczenie dla tego rodzaju inicjatywy, w szczególności w celu zapewnienia rentowności we wdrażaniu. Dzieje się tak, ponieważ inicjatywy dotyczące analizy danych zwykle obejmują wiele instytucji, łącząc dane i procesy z więcej niż jednego obszaru zainteresowania. Mogą również wymagać zawarcia porozumień z innymi organizacjami. Zarówno IMSS w Meksyku, jak i CCSS w Kostaryce mogły liczyć na zaangażowanie i wsparcie kierownictwa wyższego szczebla, co było kluczem do sukcesu obu inicjatyw.

W ramach projektu elastyczność wdrożonych modeli można również uznać za czynnik krytyczny. Modele te muszą ewoluować, aby odzwierciedlać zmieniającą się rzeczywistość. Ważne jest również, aby modele były szczegółowe, a nie ogólne, ponieważ poprawia to wydajność prognozowania. W przypadku EsSalud wszechstronność modelu mapy cieplnej oznaczała możliwość dostosowania go do rosnącego zapotrzebowania na informacje wynikające z sytuacji zagrożenia zdrowia.

Kolejnym krytycznym czynnikiem jest jakość danych, który jest główną podstawą wszelkich inicjatyw związanych z analizą danych. Podejmowanie decyzji w oparciu o dane wymaga wiarygodnych danych, w przeciwnym razie moc analizy i ważność wniosków są ograniczone. Najlepszym sposobem zagwarantowania jakości danych jest podjęcie kroków w celu zapewnienia, że ​​dane dobrej jakości są wprowadzane od samego początku, unikając konieczności czyszczenia danych na późniejszych etapach.

Zarówno CCSS w Kostaryce, jak i EsSalud w Peru rozwinęły kulturę podejmowania decyzji w oparciu o dane. Podjęto działania, aby zrekompensować brak doświadczenia lub znajomości tego podejścia, ponieważ zrozumiano, że jakość danych i prawidłowa interpretacja informacji są niezbędne do podejmowania właściwych decyzji.

Wnioski

Tradycyjne techniki analizy danych pozwalają na automatyczne raportowanie i tworzenie dashboardów, które mogą zapewnić retrospektywny widok organizacji, w celu odpowiedzi na pytania typu „co się stało” i „dlaczego” zaistniała taka sytuacja. Jednak oprócz wspomagania podejmowania decyzji poprzez dostarczanie opisowej analizy danych, zaawansowane techniki uczenia maszynowego, takie jak analiza predykcyjna i preskryptywna, mogą zapewnić perspektywiczną perspektywę organizacji, wspierając podejmowanie decyzji, jednocześnie optymalizując działalność biznesową. procesy i zwiększenie produktywności.

Znaczenie analizy danych wzrosło w ostatnich latach, co wynika z liczby opisanych dobrych praktyk, a także z różnych prezentacji internetowych na ten sam temat. W tym celu narzędzia do analizy danych odgrywają coraz większą rolę w organizacjach. Analizy danych nie należy rozpatrywać w oderwaniu, ale raczej w kontekście procesów biznesowych i podejmowania decyzji, a także zarządzania danymi bazowymi i ich jakości, aby zapewnić, że interpretacja danych jest uzasadniona.

Warto również podkreślić potencjał instytucjonalny tych organizacji, które już realizowały projekty analizy danych, co pozwala im ponownie skoncentrować swoje wysiłki w kontekście sytuacji zagrożenia zdrowia.

Podsumowując, podczas kryzysu zdrowotnego związanego z COVID-19 wiele instytucji zabezpieczenia społecznego skorzystało z okazji do konsolidacji lub rozpoczęcia opracowywania tego rodzaju rozwiązań.

Referencje

Cyberbezpieczeństwo i analiza danych / Centra Badawcze POB / Strona główna

Cyberbezpieczeństwo i analiza danych

Czwarta rewolucja przemysłowa jest oparta o dane. Rosnąca dostępność dużych zbiorów danych stawia nowe wyzwania w zakresie cyberbezpieczeństwa, wydajnego przetwarzania danych, a także ekstrakcji wiedzy. Transformacja cyfrowa zmienia oblicze praktycznie każdego obszaru ludzkiej aktywności: przez medycynę, biologię, aż po usługi finansowe. Innowacje w tym obszarze wymagają silnych podstaw w matematyce, statystyce, uczeniu maszynowym i ochronie informacji.

Bezprecedensowy wzrost dostępności danych w wielu dziedzinach nauki i technologii (np. dane genomiczne, dane ze środowisk przemysłowych, dane sensoryczne inteligentnych miast, dane sieci społecznościowych), wymaga nowych metod i rozwiązań w zakresie przetwarzania danych, pozyskiwania informacji i podejmowania decyzji. Stymuluje to rozwój nowych metod analizy danych, w tym metod dostosowanych do analizy nowych struktur danych i rosnącej liczby danych. Badania związane z Big Data mają również podstawowe znaczenie dla rozwoju gospodarki europejskiej. Stowarzyszenie Big Data Value Association (BDVA) w opracowaniu Strategic Research and Innovation Agenda (SRIA) zauważa, że „sprawniejsze wykorzystanie Big Data i zrozumienie danych jako atutu ekonomicznego niesie wielki potencjał dla gospodarki i społeczeństwa UE”.

Prezentowany obszar badawczy składa się z pięciu istotnych podobszarów:

Cyberbezpieczeństwo (Cybersecurity – CS) ze szczególnym uwzględnieniem: zautomatyzowanych systemów zarządzania bezpieczeństwem; systemów zapewnienia niezaprzeczalności, w tym opartych na technologii blockchain; metod ochrony danych za pomocą technik uczenia maszynowego; wykrywania nieznanych ataków na systemy teleinformatycznych przy użyciu algorytmów big data / fast data; kryptografii postkwantowej.

Analiza danych biomedycznych (BioMed Data Science – BMDS) ze szczególnym uwzględnieniem: bioinformatyki, biostatystyki oraz medycyny obliczeniowej. W badaniach biomedycznych przetwarza się wielkie zbiory danych o złożonej strukturze, co wymaga zastosowania skalowalnych narzędzi bioinformatycznych, w szczególności rozproszonych algorytmów i metod statystycznych do analizy wielowymiarowych danych genomicznych oraz transkryptomicznych generowanych przy użyciu wysokoprzepustowych metod sekwencjonowania następnej generacji. Narzędzia te są wykorzystywane do rozwiązywania problemów, takich jak odkrywanie nowych korelacji genotypowo-fenotypowych, biomarkerów, a także znajdują bezpośrednie zastosowania w procesie diagnostyki molekularnej.

Przetwarzanie Big Data i strumieniowa analiza danych (Big and Stream Data Science – BSDS) jest obszarem skoncentrowanym na metodach przetwarzania danych Big Data, rozproszonym składowaniu danych oraz wsadowej i strumieniowej analizie danych (inteligentne miasta, genomika). Zastosowania danych Big Data i danych strumieniowych wymagają algorytmów, metod i złożonych systemów, które łączą warstwę składowania danych z warstwą przetwarzania danych w trybie wsadowym oraz warstwą przetwarzania danych w trybie strumieniowym. Metody z tego podobszaru są wykorzystywane do budowy m.in. systemów inteligentnego dynamicznego planowania połączeń z wykorzystaniem różnych środków transportu dedykowanych dla transportu publicznego. Systemy te łączą analizę strumieni danych, metody uczenia maszynowego i metody teorii grafów.

Zaawansowane metody uczenia maszynowego (Advanced Machine Learning – AML) skoncentrowane na rozwoju algorytmów i oprogramowania wyjaśniającego decyzje podejmowane przez algorytmy uczenia maszynowego, w tym narzędzia weryfikujące transparentność modeli predykcyjnych, narzędzia automatyzujące i wspierające eksplorację danych i modeli. Opracowane narzędzia są wdrażane w obszarach z regulatorem takich jak spersonalizowana medycyna (indywidualna rekomendacja leczenia wymaga wyjaśnień), czy ryzyko kredytowe (indywidualna decyzja kredytowa wymaga uzasadnienia).

Matematyczne podstawy analizy danych (Mathematical Foundations for Data Science – MFDS) skupiają się na modelowania danych i ich analizie, statystyce, rachunku prawdopodobieństwa, teorii grafów i sieci oraz obliczeniach miękkich. Obiektem zainteresowań jest tutaj modelowanie różnego rodzaju procesów (w sieciach złożonych, badaniach operacyjnych, zastosowaniach finansowych, systemach wspomagania podejmowania decyzji, analityce danych sportowych itd.) przy użyciu szerokiego aparatu matematycznego, jaki udostępniają obszary badawcze związane ze stochastyką, równaniami różniczkowymi, układami złożonymi, sieciami złożonymi, matematyką dyskretną czy zbiorami rozmytymi. Opracowane wyniki pozwalają nie tylko dokonywać predykcji nieobserwowanych do tej pory obserwacji, ale i uzyskiwać wgląd w naturę własności procesów, które nimi rządzą.

Nasze plany na przyszłość są skoncentrowane na wytworzeniu synergii pomiędzy podobszarami, w szczególności pomiędzy cyberbezpieczeństwem, a BSDS oraz AML. Z perspektywy cyberbezpieczeństwa kluczowym zagadnieniem jest analiza dużych zbiorów danych pod kątem korelacji zjawisk powiązanych z atakami. Istotnym zagadnieniem jest zarówno szybkość algorytmów (tzw. fast data), najlepiej działających w czasie rzeczywistym lub zbliżonym do niego, jak i wiarygodność wyników (eliminowanie błędów pierwszego i drugiego rodzaju - false positives and false negatives). Kolejną ważną cechą jest możliwość utrzymywania historii zdarzeń w celu późniejszej analizy ewentualnych związków między zdarzeniami naruszającymi bezpieczeństwo. Wymaga to przemyślanej redukcji danych poddawanych dalszej analizie.

Planujemy znacznie zwiększyć skalę badań realizowanych przez zespół badawczy w ramach POB Cyberbezpieczeństwo i analiza danych, poprzez wykorzystanie dodatkowych środków finansowych oczekiwanych w ramach programu „Inicjatywa doskonałości - uczelnia badawcza” w celu:

zwiększenia udziału międzynarodowych projektów badawczych w pracach grupy; efekt ten zostanie osiągnięty poprzez stymulowanie składania wniosków o wysokiej jakości w programach finansowania UE i innych międzynarodowych, ze szczególnym uwzględnieniem tematyki z pogranicza cyberbezpieczeństwa i analizy danych,

zarządzania prawami własności intelektualnej, które obejmie wykorzystanie otwartego licencjonowania części oprogramowania opracowanego przez grupę w celu promowania współpracy z międzynarodowymi zespołami badawczymi w obszarze POB,

zwiększenia udziału grupy w najważniejszych akademickich i branżowych wydarzeniach międzynarodowych (prezentacje, współorganizowanie warsztatów i sesji o charakterze badawczo-edukacyjnym – ang. tutorial), w celu wzmocnienia współpracy z zagranicznymi grupami badawczymi w takich obszarach jak wysokowydajne metody analizy strumieni danych (stream mining),

zainicjowania programu Summer Data Schools for Central Europe, aby przyciągnąć najlepszych młodych naukowców do współpracy z grupami PW.

Skład Rady Naukowej

dr hab. inż. Krzysztof Szczypiorski, prof. uczelni - przewodniczący (Wydział Elektroniki i Technik Informacyjnych PW),

(Wydział Elektroniki i Technik Informacyjnych PW), dr inż. Andrzej Bartosiewicz (Thales Polska),

dr hab. inż. Przemysław Biecek, prof. uczelni (Wydział Matematyki i Nauk Informacyjnych PW),

dr hab. inż. Tomasz Gambin (Wydział Elektroniki i Technik Informacyjnych PW),

dr hab. inż. Marcin Iwanowski, prof. uczelni (Wydział Elektryczny PW),

prof. dr hab. inż. Zbigniew Kotulski (Wydział Elektroniki i Technik Informacyjnych PW),

prof. dr hab. inż. Jan Maciej Kościelny (Wydział Mechatroniki PW),

dr hab. inż. Wojciech Matysiak, prof. uczelni (Wydział Matematyki i Nauk Informacyjnych PW),

dr hab. Robert Olszewski, prof. uczelni (Wydział Geodezji i Kartografii PW),

dr inż. Julian Sienkiewicz (Wydział Fizyki PW).

sekretarz naukowy: mgr Katarzyna Kamińska (Wydział Elektroniki i Technik Informacyjnych PW)

Kontakt

Pliki

POB CyberDS - Prezentacja z Seminarium Uczelnianego (23.09.2020 r.)

Analityka danych w chmurze

Jak to działa?

Nowoczesna hurtownia danych zapewnia nieograniczone skalowanie. Użytkownicy mogą uzyskać błyskawiczny dostęp do analiz wszystkich danych, pochodzących z różnych baz danych i systemów dziedzinowych. Analizy można rozszerzyć o możliwości związane z analizą dużych zbiorów danych (Big Data), jak i o tworzenie modeli uczenia maszynowego (Machine Learning). Ważnym elementem jest łatwość operacjonalizacji tych analiz.

Zunifikowane środowisko znacząco skraca czas opracowywania projektów analitycznych. Pozwala na kompleksowe tworzenie różnych rozwiązań analitycznych.

Wszyscy interesariusze mogą uzyskać błyskawiczny wgląd w działalność firmy, korzystając w każdej chwili z najświeższych dostępnych danych z używanych systemów.

Istotnym elementem jest również bezpieczeństwo danych. Niezrównane zabezpieczenia, chronią dane. Istnieje możliwość skorzystania z najbardziej zaawansowanych funkcji zabezpieczeń i ochrony prywatności, takich jak zabezpieczenia na poziomie kolumn i wierszy oraz dynamiczne maskowanie danych.

Najważniejsze możliwości usługi

1.Ujednolicona platforma analityczna – integracja danych, eksploracja danych, magazynowanie danych, analizę danych big data, uczenie maszynowe z jednego, ujednoliconego środowiska.

2.Środowisko analityczne, jako usługa – nie potrzebujesz serwerów lokalnych, żeby skorzystać z wydajnego i bezpiecznego środowiska. Możesz obsłużyć zarówno duże ilości danych budując tak zwany Data Lake, wybierając najbardziej ekonomiczne opcje cenowe dla każdego obciążenia.

3.Przechowywanie różnorodnych danych i ich eksploracja – możliwość utworzenia magazynu kluczowych dla działalności danych, jak również połączenia danych relacyjnych i nierelacyjnych. Łatwe wykonywanie zapytania do zgromadzonych w repozytorium plików poprzez wykorzystanie tej samej usługi, która używana jest do tworzenia rozwiązań do magazynowania danych.

4.Integracja danych hybrydowych bez kodu – procesy ETL i ELT obsługiwane są w wizualnym środowisku bez użycia kodu. Możliwość skorzystania z ponad 95 natywnych konektorów do różnych systemów.

5.Środowisko dla data scientistów – zapewnienie głębokiej integracji z aparatami Apache Spark i SQL. Usprawnienie współpracy między specjalistami ds. danych pracującymi z zaawansowanymi rozwiązaniami analitycznymi. Łatwość użycia zapytań języka T-SQL w magazynie danych i aparacie Spark.

6.Natywne dla chmury hybrydowe przetwarzanie transakcyjne/analityczne – Możliwość łatwego uzyskania szczegółowych informacji z danych transakcyjnych w czasie rzeczywistym przechowywanych w operacyjnych bazach danych, takich jak Azure Cosmos DB.

7.Wybór preferowanego języka programowania – Dostępność różnych języków programowania, na przykład T-SQL, Python, Scala, Spark SQL, czy .Net.

8.Wykorzystanie sztucznej inteligencji i analizy biznesowej – Możliwość budowania kompleksowych rozwiązań analitycznych dzięki ścisłej integracji z usługami Azure Machine Learning, Azure Cognitive Services i Power BI.

9.Kompleksowe zarządzanie, monitorowanie i bezpieczeństwo – funkcjonalność automatyzacji pracy pozwala uprościć monotonne zadania dotyczące bieżącej pracy administracyjne związanej z monitorowaniem i zabezpieczaniem danych.

Jak pracujemy?

Rozumiemy naszych klientów i wiemy, jak trudno jest przejść na nowoczesną analizę danych. Wyzwania, przed którymi stoimy, są związane ze złożonością środowiska, dużą ilością danych (Big Data), różnorodnością danych, zmiennością danych w czasie, kosztami środowiska, a także związane z niedostateczną wiedzą i dostępnością osób w zespole. Dlatego proponujemy podejście iteracyjne. Pracujemy zwinnie dostosowując się do potrzeb biznesu. Projekt wdrożeniowy prowadzimy zgodnie z metodyką Microsoft Analytics on Azure Zależy nam na pokazywaniu korzyści z wdrożenia już od samego początku trwania projektu.

Zaczynamy współpracę od projektu pilotażowego. Przygotowujemy zespół klienta do wdrożenia nowoczesnej platformy analitycznej, jaką jest hurtownia danych, w chmurze Microsoft Azure. Najważniejszym celem projektu jest zbudowanie kompetencji zespołu w celu lepszego zrozumienia nowoczesnego środowiska analitycznego w chmurze Azure i jego dalszego rozwoju. Kluczowymi punktami projektu są analityczne spotkania warsztatowe, których celem jest zebranie wymagań dotyczących infrastruktury, danych i architektury. Następnym krokiem jest opracowanie koncepcji pracy z danymi poprzez identyfikację ról, procesów, reguł i zdefiniowanie cyklu życia środowiska. Następnie będziemy rozwijać profile kompetencyjne i proponować ścieżki dalszego rozwoju. Projekt zakończony jest warsztatami pokazującymi funkcjonalność technologii stosowanych w architekturze. Zaprezentowany zostanie proces całkowity: zbieranie danych, transformacja danych, model danych, eksploracja danych, raporty, analizy predykcyjne, kokpity, udostępnianie wszystkich analiz i praca zespołowa.