Na amerykańskiej giełdzie to właśnie firmy oferujące usługi reklamowe w oparciu o analizę dużych zbiorów danych pozwoliły w zeszłym roku zarobić inwestorom najwięcej.
W dzisiejszym, cyfrowym świecie istnieje 2.7 zetabajtów danych (27 z 21 zerami). Co dwa dni tworzymy tyle danych, ile powstało od początku świata do 2003 roku. A analitycy przewidują, że do 2020 roku ta ilość zostanie pomnożona 50 razy!
Zobacz również
To oznacza jedno – konieczność rozwijania narzędzi do skutecznej analizy szybko zmieniających się danych. Kampanie reklamowe nieuchronnie migrują od modeli zasięgowych i display’owych do form bardziej efektywnościowych, które opierają się o liczby i KPI’e.
Jak wynika z badania przeprowadzonego przez Harvard Business Review w 2012 roku wśród firm z listy Fortune 1000, aż 85% z nich wdraża bądź jest na etapie planowania wykorzystania Big Data.
– – –
#NMPoleca: Jak piękny design zwiększa konwersję w e-commerce? Tips & Tricks od IdoSell
Więcej informacji na ten temat podczas konferencji „Digital Research for Marketing (DR4M) organizowanej przez Związek Pracodawców Branży Internetowej IAB Polska oraz Polskie Badania Internetu (PBI). www.dr4m.pl
Słuchaj podcastu NowyMarketing
– – –
Mimo dużej medialnej popularności Big Data, w Polsce można wymienić zaledwie kilka firm, które faktycznie prowadząc działania marketingowe bazują na analizie behawioralnej i big data. Dlaczego? Ponieważ big data – wymaga dużych kompetencji. Nie wystarczy już sama intuicja, która kiedyś sprawdzała się w działaniach marketingowych, niezbędna jest umiejętność wykorzystania narzędzi do analizy ogromnych zbiorów danych i spojrzenie na nie z punktu widzenia potrzeb klienta.
Ale czym właściwie jest Big Data? Według definicji, którą w 2001 roku opracował Gartner, tym mianem określane są zbiory informacji charakteryzujące się dużą objętością, zmiennością i różnorodnością, wymagające nowych form przetwarzania w celu podejmowania decyzji biznesowych oraz optymalizacji procesów. Po 13 latach, które w zagadnieniach informatycznych wydają się niemal wiecznością, tzw. model 3V (high volume, high velocity, high variety) jest wciąż aktualny i oddaje pierwotne założenia.
Serwery webowe obsługujące popularne witryny czy usługi logują tysiące operacji na sekundę, a często są to informacje na wagę złota, na podstawie których można zarządzać informacjami przekazywanymi użytkownikom i podnosić efektywność biznesową. Dla przykładu, Facebook przechowuje i analizuje ponad 300 petabajtów danych dotyczących aktywności ponad miliarda użytkowników, choćby po to, aby lepiej kierować przekaz marketingowy.
Przetwarzanie tak dużych ilości informacji wymaga dedykowanych narzędzi. Naturalnym wyborem jest ekosystem Apache Hadoop – oprogramowanie do przetwarzania danych bazujące na opublikowanym przez Google w grudniu 2004 paradygmacie MapReduce. Hadoop zapewnia dziś kompletne rozwiązania do przechowywania i analizy danych w modelu rozproszonym, który można skalować od jednego do tysięcy serwerów. W ekosystemie powstały także dziesiątki dedykowanych, mniejszych projektów rozwiązujących typowe zagadnienia, rozwijanych zarówno przez największych graczy na rynku pokroju Facebooka, Twittera, Yahoo! jak i samodzielnych developerów.
Ekosystem Apache Hadoop wciąż ewoluuje. Jeszcze nie tak dawno było to narzędzie przeznaczone do przetwarzania w modelu wsadowym, w którym oczekiwanie na wynik mogło trwać godziny lub nawet dni. Dziś, dane są potrzebne na przysłowiowe „już”, inaczej stracą swą świeżość i wyciągane na ich podstawie wnioski mogą nie być do końca trafne. Ten trend widać także w Big Data, od pewnego czasu powstają kolejne narzędzia oferujące coraz krótsze czasy odpowiedzi, niektóre wręcz analizują je w czasie rzeczywistym.
W tym obszarze prym wiedzie m.in. Google, które udostępniło usługę BigQuery, przeznaczoną do szybkiej analizy terabajtów informacji. Obecnie trwają pracę nad open-source’ową implementacją tego rozwiązania.
Pytanie, czy zawsze trzeba sięgać po tak zaawansowane i rozbudowane narzędzia? To zależy od danych, jakimi dysponujemy. Dla jednej organizacji przyrost 10 gigabajtów dziennie to kropla w morzu, dla innej może to być miesięczny wolumen. Rozwiązania należy zawsze dobierać do potrzeb, bez niepotrzebnego przeinwestowania. Czasem należy sięgnąć po dedykowane rozwiązania MapReduce, czasem wystarczy możliwość uruchomienia zapytań SQL na klastrze Apache Hadoop, czy też topologii czasu rzeczywistego w Stormie. Wiele organizacji przetwarza dane z wykorzystaniem autorskich narzędzi i rozwiązań, osiągając przy tym bardzo interesujące efekty.
Czy warto inwestować w opisane tu zagadnienia? Zdecydowanie tak! Ponieważ najlepszym sposobem na patrzenie wprzód jest patrzenie wstecz, a jeśli dysponujemy odpowiednio szerokim spojrzeniem, możemy o wiele trafniej przewidzieć przyszłość.
Autorzy: Mariusz Gil , Włas Chorowiec – założyciele LeadBullet SA, spółki specjalizującej się w analizie behawioralnej i content marketingu.