Big Data a „Bug Data” – Przeterminowane i fałszywe dane problemem dla firm

Firmy mają dziś poważne trudności z zarządzaniem swoimi zasobami cyfrowymi. Płacą krocie za dane, których już dawno powinny były się pozbyć. Utrzymują na swoich serwerach przeterminowane, nieaktualne, fałszywe i bezużyteczne informacje. Te dane to „Bug Data”, czyli kopie informacji...
O autorze
7 min czytania 2016-11-15

…zarchiwizowanych przez firmę, które nie zostały zaktualizowane i tym samym straciły swoją biznesową wartość. Według szacunków firmy analitycznej IDC „Bug Data” to już problem globalny. Ponad 60 proc. danych przechowywanych dziś w przedsiębiorstwach stanowią kopie zapasowe przeterminowanych informacji. „Bug Data” w firmach to już ponad 3 eksabajty zbędnych danych. Do końca tego roku koszt ich utrzymania przekroczy próg 50 mld dolarów. To niemal 8 razy tyle, ile firmy przeznaczają na przechowywanie danych typu Big Data.

Kosztowny nadmiar informacji

Według Data Geonomics Index, aż 41 proc. danych globalnych przedsiębiorstw nie było modyfikowanych od 3 lat, zaś 12 proc. w ciągu 7 minionych lat nigdy nie zostało nawet otwartych. Światowi liderzy IT twierdzą, że jedynie 20 proc. zbieranych przez nich danych wykorzystuje się do usprawniania procesów biznesowych, a 33 proc. z nich klasyfikuje się jako ROT, czyli Redundant, Obsolete or Trivial: zbędne, przestarzałe i nieistotne. To wszystko wskazuje na wagę prowadzenia odpowiedniej klasyfikacji danych i przyporządkowania dostępu do nich poszczególnym pracownikom, którzy powinni rozumieć politykę danych przedsiębiorstwa dzięki regularnym szkoleniom. Ale nie tylko. Przechowywanie przez spółki nieużytecznych i przestarzałych danych, czyli tzw. „Bug Data”, wiąże się z niemałymi kosztami.

– Z naszych wyliczeń wynika, że budowa i utrzymanie serwerowni o powierzchni 100 mkw. pochłonie aż 17 mln zł na przestrzeni 10 lat. Choć outsourcing – kolokacja w centrum danych – będzie znacząco tańszy, bo wyniesie 7 mln zł, to zakładając, że ponad 30 proc. danych stanowią informacje zbędne i tak okaże się, że firmy tracą miliony złotych z powodu przechowywania niepotrzebnych danych – zwraca uwagę Robert Mikołajski z Atmana, operatora największego polskiego centrum danych.

Koszty to jedno. Warto jednak zwrócić także uwagę na aspekt bezpieczeństwa. Liczba danych, które będą musiały zostać objęte cyberochroną, wzrośnie do końca dekady aż pięćdziesięciokrotnie – wynika z najnowszych prognoz firmy analitycznej Cybersecurity Ventures. Same straty finansowe wynikające z działalności cyberprzestępców wzrosną dwukrotnie – z 3 bilionów dolarów w 2015 roku – do 6 bilionów dolarów w 2021 roku.

LinkedIn logo
Na LinkedInie obserwuje nas ponad 100 tys. osób. Jesteś tam z nami?
Obserwuj

– W gąszczu „porzuconych” danych mogą znaleźć się wrażliwe informacje, związane z personaliami czy historią operacji finansowych spółki, które w przypadku dostania się w ręce cyberprzestępców mogą spowodować dotkliwe straty zarówno finansowe, jak i wizerunkowe – zauważa Ewelina Hryszkiewicz z Atmana.

Boom na technologie związane z Big Data sprawił, że firmy na całym świecie zaczęły przywiązywać coraz większą uwagę do analityki, gromadzenia i wykorzystywania danych w celach biznesowych. Dane stały się dziś nową walutą biznesową, a ich liczba w Sieci rośnie z roku na rok o blisko 40 proc. Wedle raportu „The Value of Our Digital Identity”, autorstwa Boston Consulting Group, wartość wszystkich anonimowych informacji zgromadzonych o internautach z obszaru całej Unii Europejskiej, w 2020 roku zbliży się do okrągłego biliona euro. Oznacza to, że finansowo dane te będą równoważne blisko 8 proc. PKB, generowanych przez wszystkie państwa Wspólnoty.

Słuchaj podcastu NowyMarketing

Taka skala danych może zatem przyczynić się do realnego przyspieszenia globalnej gospodarki. Dowodem jest choćby badanie „Going beyond the data. Turning data from insights into value”, przeprowadzone przez firmę KPMG International. Aż 82 proc. przebadanych w nim firm przyznaje, że korzystanie z aktualnych danych i wdrożenie zaawansowanych mechanizmów z zakresu analityki Big Data w chmurze obliczeniowej, pozwala na lepsze zrozumienie potrzeb i preferencji ich klientów, a także ma znaczący wpływ na perspektywę biznesową przedsiębiorstwa.

NowyMarketing logo
Mamy newsletter, który rozwija marketing w Polsce. A Ty czytasz?
Rozwijaj się

Polskie firmy chcą wykroić swój kawałek w tego biznesowego tortu. Entuzjastycznie podchodzą więc do inwestycji w nowinki technologiczne, takie jak Big Data marketing. Jak wynika z raportu „Welcoming Innovation Revolution”, autorstwa GE Global Innovation Barometer 2016, skala inwestycji w narzędzia do analityki wielkich zbiorów danych nad Wisłą wzrosła z poziomu 49 proc. w 2014 roku – do 68 proc. w roku ubiegłym. Jest tylko jeden, ale za to poważny haczyk. W każdym z tych przypadków kluczową rolę w monetyzacji cyfrowych informacji odgrywa jakość i aktualność danych, czyli tzw. data quality.

Dane ze znakiem jakości

Bez aktualizowanych na bieżąco baz danych, stanowiących źródło wiedzy o kliencie, firma może utonąć w potopie „Bug Data”.

– Firmy często nie zdają sobie sprawy z tego, że dane mają krótki termin przydatności do biznesowego spożycia. Aby zachowały swoją wartość, należy je regularnie oczyszczać oraz weryfikować, pozbywając się informacji, które dawno przestały cokolwiek znaczyć. Takimi danymi są tzw. „Bug Data”. To dane śmieciowe, zawierające mylne, nieaktualne informacje o kliencie lub firmie, które w efekcie przeszkadzają przedsiębiorstwu w monetyzacji zasobów cyfrowych. Skalę takich danych szacuje się aktualnie na poziomie 3 milionów terabajtów, czyli 3 eksabajtów – mówi Piotr Prajsnar, CEO Cloud Technologies, największej hurtowni Big Data w Europie, która na bieżąco gromadzi, przetwarza i weryfikuje prawdziwość danych z Internetu, pomagając firmom w ich monetyzacji – Większość danych typu „Bug Data” stanowią tworzone przez firmy archiwa danych produkcyjnych, generowanych w zasadzie każdego dnia i przechowywanych później latami na serwerach przedsiębiorstwa. To nieaktualne, nieoczyszczone i niezweryfikowane informacje, które nie zostały później poddane analizie i aktualizacji. Firmy nie mogą ich spożytkować w swojej strategii czy procesach decyzyjnych, a nawet nie powinny tego robić. Oparcie strategii sprzedażowej przedsiębiorstwa na zdezaktualizowanych informacjach, może okazać się nie tyle nieskuteczne, co przeciw-skuteczne i potrafi zaszkodzić firmie. Tym samym przedsiębiorstwa, zamiast czerpać profity z Big Data, płacą często nieświadomie za utrzymanie infrastruktury „Bug Data”, czyli za stare i pełne błędów dane – dodaje Piotr Prajsnar.

Jakość danych, czyli tzw. data quality, ma olbrzymie znaczenie w biznesie. Z raportu Economist Intelligence Unit (EIU) wynika, że wykorzystanie analityki danych stało się głównym motorem napędowym przychodów w przeszło 60 proc. przebadanych firm z sektora IT. Z kolei aż 83 proc. przedsiębiorstw twierdzi, że dzięki danym ich produkty oraz usługi stały się bardziej opłacalne i zaczęły przynosić większe profity firmie. Ponad połowa respondentów (59 proc.) określiło Big Data jako „kluczowy element” funkcjonowania ich organizacji, zaś 29 proc. uznało ją za „niezwykle istotną” dla rozwoju firmy. Co ciekawe – blisko połowa firm (47 proc.) przyznała, że ogranicza się do monetyzacji danych zgromadzonych wyłącznie w ramach przedsiębiorstwa, np. z wewnętrznych systemów BI (ERP, CRM), relacji z klientami czy danych z aktywności reklamowej firmy w Sieci.

Aktualność i świeżość danych jest podstawą ich monetyzacji. Jednak firmy z Europy mają z nią poważny problem. Dowodzi tego badanie EIU, w którym udział wzięło 476 przedstawicieli działów IT z całego świata. Wśród kontynentów najlepiej monetyzujących dane prym wiodą firmy z Azji: aż 63 proc. azjatyckich przedsiębiorstw deklaruje, że potrafi generować zysk z gromadzonych przez siebie danych. Oznacza to zatem, że to właśnie rynek azjatycki najlepiej radzi sobie z problemem „Bug Data”. Drugie miejsce zajęły firmy ze Stanów Zjednoczonych, ze wskaźnikiem 58 proc. skuteczności w monetyzacji wielkich zbiorów danych. Ostatnie miejsce przypadło zaś Europie, w której korzyści z monetyzacji cyfrowych informacji czerpie „tylko” 56 proc. przebadanych firm.

Ostatnie miejsce firm ze Starego Kontynentu w monetyzacji danych dowodzi, że europejskie przedsiębiorstwa mają poważny problem z odseparowaniem Big Data od „Bug Data”. Ich głównym problemem jest dziś ocena przydatności i wiarygodności zasobów Big Data, podobnie jak ocena przydatności danych ze źródeł zewnętrznych, których do tej pory firmy nie brały pod uwagę. Problemy z monetyzacją danych zgłasza aż 58 proc. przedsiębiorców przebadanych przez firmę KPMG, a blisko połowa respondentów zwraca uwagę na problemy z dostępnością odpowiednich danych.

– Dostęp do odpowiednich, aktualnych danych często decyduje o uzyskaniu rynkowej przewagi przez firmę. Big Data, będąc cyfrowym kapitałem przedsiębiorstwa, staje się jednocześnie jej kapitałem strategicznym i rozwojowym. Dlatego tak istotne są zarówno jakość, jak i rozdzielczość, a przede wszystkim: aktualność danych, jakimi dysponuje dzisiaj biznes. Europejskie przedsiębiorstwa muszą zadbać o to, aby użytkowane przez nie dane zawsze były odzwierciedleniem faktycznego stanu wiedzy o rynku i konsumencie. Ta wiedza nie jest jednak osiągalna bez otwarcia firmowych systemów BI na platformy DMP. Jeśli to otwarcie i integracja danych z różnych źródeł nie nastąpi, to firmy będą nieustannie obracać się na jałowym biegu, bazując nie tyle na Big Data, co na „Bug Data” – dodaje Piotr Prajsnar, CEO Cloud Technologies.

Cena błędu

„Bug Data” może również przyczynić się do wygenerowania realnych strat w sektorze e-commerce. Zwłaszcza wówczas, gdy e-sklepy bazują na nieaktualnych informacjach cenowych, które pobierają z Sieci. Rzesze internautów każdego dnia poszukując okazji u e-sprzedawców, a swoje decyzje zakupowe najczęściej podejmują w oparciu o porównywanie cen tego samego produktu i wybór najkorzystniejszej oferty. Jaki ma to związek z „Bug Data”?

– „Bug Data” w kontekście cen online, to nic innego jak nieaktualne informacje zaciągnięte ze stron sklepów internetowych, porównywarek cenowych i portali aukcyjnych przez firmy, wedle których przedsiębiorstwa następnie układają swoją strategię cenową. To jednak mylne posunięcie, ponieważ liczba produktów oferowanych w sprzedaży online stale rośnie, a ich ceny zmieniają się niezwykle dynamicznie, niezbędnym jest wykorzystanie w monitoringu cenowym firmy mechanizmów uczenia maszynowego. Takie mechanizmy dostarczają firmom danych o cenach w czasie rzeczywistym i – co najważniejsze – danych aktualnych. Pozwalają tym samym firmie na kształtowanie optymalnej polityki cenowej, która może być dopasowywana do cenowych realiów na bieżąco. Dzięki takiemu posunięciu firmy doprowadzają do niezwykle kosztownych dla siebie wojen cenowych – mówi Jakub Kot, CEO Dealavo, firmy specjalizującej się w smart-pricingu i dostarczającej narzędzia do monitoringu cen online oraz konkurencji.

Praca u podstaw

Dr Vinton Gray Cerf, wiceprezydent Google, nazywany powszechnie „Ojcem Internetu”, w trakcie zgromadzenia American Association for the Advancement of Science w San Jose, mówił o konieczności prowadzenia bieżącej pracy nad danymi zgromadzonymi przez firmy. Przestrzegał biznes przed zafiksowaniem wyłącznie na gromadzeniu danych, za którym nie idzie w parze ich aktualizacja ani regularne oczyszczanie z nieistotnych treści, wskutek czego z Big Data stają się one „Bug Data”.

– Digitalizujemy rzeczy, ponieważ myślimy, że dzięki temu je uchronimy. Nie rozumiemy jednak, że jeśli nie podejmiemy kolejnych działań, to zdigitalizowane przez nas informacje mogą okazać się gorsze od swoich rzeczywistych pierwowzorów.

Vinton Cerf, mówiąc o kolejnych krokach bieżącej pracy nad danymi, miał na myśli przede wszystkim ciągłą weryfikację prawdziwości i aktualności danych, czyli jednej z czterech składowych tworzących Big Data: „Veracity”. Bez takich działań firmy będą kręciły się w kółko, operując wyłącznie na cyfrowych archiwach, a nie aktualnych informacjach.

Przede wszystkim jednak „Ojciec Internetu” ostrzegał przed nadchodącymi „cyfrowymi, ciemnymi wiekami”. Jako główny katalizator „Digital Dark Age” wymienił implozję danych (Big Data), zdominowanych przez dane nieuporządkowane, nieustrukturyzowane, nieprzetworzone, surowe, a przez także dane archiwizowane, czyli kopie informacji, które firmy przechowują na swoich serwerach. Cerf twierdzi, że to właśnie inwazja danych tego typu stanie się największym wyzwaniem stojącym przed analitykami danych w kolejnych latach.