Ewolucja prywatności w przeglądarkach: Federated Learning of Cohorts (FLoC) - NowyMarketing

Już wkrótce reklama w sieci będzie wyglądała nieco inaczej niż do tej pory. Pliki cookies, popularne ciasteczka, będą blokowane w Chrome na podobnej zasadzie jak już teraz w Safari czy Mozilla Firefox. W praktyce oznacza to na przykład koniec remarketingu jaki znamy. Ale czy oznacza też koniec remarketingu w ogóle?

Mówiąc wkrótce, mam na myśli początek 2022 roku. Teoretycznie pozostało jeszcze trochę czasu, ale biorąc pod uwagę to, ile firm, organizacji i strategii opiera swój sukces na ciasteczkach, perspektywa czasowa gwałtownie się kurczy. Czy w związku z tym nadszedł kres dynamicznego remarketingu treści w internecie? Oczywiście, że nie.

W tym artykule:

Zobacz również

poznasz historię cookies,
dowiesz się, co dokładnie wydarzy się w 2022,
zrozumiesz, co tak naprawdę oznacza „third-party”,
dowiesz się, jak największe firmy przygotowują się na zmiany,
poznasz FLoC, o którym można mówić jako o następcy ciasteczek… w pewnym sensie.

Historia ciastek

Końcowi ery cookies właściwie nie ma się co dziwić, bo kontrowersje budziły praktycznie zaraz po debiucie w połowie lat 90’. Pojęcia takie jak „prywatność w sieci” w zasadzie nie istniały, w związku z czym Internet Explorer nie poczuwał się do odpowiedzialności informowania kogokolwiek o wprowadzeniu lekkich plików zapisywanych w przeglądarce, które usprawniały korzystanie z internetu. Jak się miało wkrótce okazać, sekretne wprowadzenie tego usprawnienie, nie skończyło się dobrze dla Microsoftu.

W krótkim czasie „internauci” (jak to określenie cudownie się zestarzało 😉 ) dowiedzieli się o ich istnieniu, i momentalnie rozpoczął się medialny dyskurs, który bardzo szybko pojawił się na wokandzie Federalnej Komisji Handlu. Wprowadzenie do tego tematu możecie znaleźć tutaj.

Trochę lat upłynęło, dostęp do internetu jest tak normalny, jak do bieżącej wody, a co za tym idzie, społeczeństwo jest bardziej świadome swojej podatności na wszelakie nadużycia, których mogą stać się celem w sieci. Tym samym upomina się o prawo do ochrony danych osobowych. Nie dziwi więc, że ciasteczka w dalszym ciągu budzą kontrowersje… a cyfrowa prywatność jest bardzo chodliwym tematem.

E-commerce według MON i InPost. Wojskowi odbiorą mundury w Paczkomatach

Prym wiodą zdecydowanie – jako najpopularniejsze obok Chrome – Safari i Mozilla Firefox, sukcesywnie wprowadzając w swoich przeglądarkach usprawnienia wspierające ochronę prywatności.

Słuchaj podcastu NowyMarketing

2019/3 – Safari (Intelligent Tracking Protection 2.3)
2019/9 – Firefox (Enhanced Tracking Protection jako tryb domyślny)
2019/12 – Safari (Referrer clamping, dodatkowe restrykcje dla 3-rd party cookies)
2020/1 – Edge (Tracking prevention)

Apple w swojej komunikacji marketingowej i produktowej od dawna mocno stawia na kwestie ochrony danych. Przekaz stał się jeszcze bardziej dosadny od czasów afery Cambridge Analytica, i marka bardzo ‘zyskała’ w oczach klientów, stawiając się po drugiej stronie barykady jako ostoja moralności i uczciwości w sieci.

Opera i jej Credo

Warto też wspomnieć o innych cyfrowych produktach – jak na przykład Opera (wbudowany Adblock i VPN), wyszukiwarce Duck Duck Go (a konkretnie jej rozszerzeniu do Chrome DuckDuckGo Privacy Essentials), czy przeglądarce Brave (mechanizm Shields), w której pitchu słowo „prywatność” pojawia się wcześniej i częściej niż „przeglądarka”.

To się po prostu opłaca

Bądźmy szczerzy: trudno zachwycać się podejściem Apple i Mozilli, bo tak naprawdę nic na tym nie tracą, a funkcjonalności blokujące dostęp do ciasteczek podmiotów trzecich, nie są bynajmniej innowacjami technologicznymi.

Nie chcę być cyniczny, ale zapobieganie śledzeniu to po prostu odpowiedź na potrzeby konsumentów, a także, w pewnym stopniu, tworzenie tej potrzeby. Trudno bowiem nie odnieść wrażenia, że im głośniej społeczeństwo domaga się (słusznie) prywatności i bezpieczeństwa w internecie, tym głośniej przeglądarki mówią „dokładnie tak, czas to zakończyć!” wskazując palcem na Google czy Facebooka.

Screen pochodzący ze strony głównej Duck Duck Go

Przeglądarki, które stanęły po tej samej stronie co użytkownicy niczym nie ryzykują, a wręcz przeciwnie. Wzmocniły swoją linię jako firmy, które będą walczyć z naruszeniami prywatności za wszelką cenę (ale niezbyt proaktywnie…), umniejszając pozycję tych, których często i chętnie oskarża się o jej naruszanie.

Nie zrozum mnie źle, prywatność w sieci to temat niezwykle ważny i wymagający ciągłego nagłaśniania, jednak uważam, że za mało jest w aktualnym podejściu edukacji, a za dużo polowania na wiedźmy. Niemniej…

Właścicielom niezwykle popularnej przeglądarki Chrome i jednocześnie jednej z największych sieci reklam displayowych, blokowanie ciasteczek firm trzecich jest bardzo nie na rękę – czy tego chciał czy nie, Google był pasywnie zmuszony do podążenia za konkurentami.

Logiczne więc było, że w przygotowaniu jest jakaś alternatywa. Rezygnacja była odkładana w czasie, a w 2020 premierę miała Privacy Sandbox, czyli funkcjonalność Chrome, pełniąca podobną funkcję jak ficzery konkurencji, o których mówiliśmy wcześniej. Ostatecznie jednak Google musiał się całkowicie ugiąć, bo los ciasteczek był przesądzony. Tajną bronią okazał się zaprezentowany w kwietniu 2021 mechanizm śledzenia FLoC – Federated Learning of Cohorts. Zanim powiemy o nim coś więcej, skupmy się jeszcze przez chwilę na ciasteczkach.

Konsekwencje

Obracamy się głównie wokół systemów wyświetlania reklam, ale pamiętajmy, że nie tylko Google i sieci reklamowe korzystają z third-party cookies. Wydaje się, że to cios zadany w technologicznego kolosa, ale w praktyce najbardziej cierpią na tym mniejsze podmioty – na przykład inne sieci reklamy displayowej.

W ostatecznym rozrachunku mała firma dostarczająca reklamy do sieci może mieć większą zwinność niż gigant, ale jednocześnie jest bardziej podatna na zmiany wpływające – czasami – na cały jej model biznesowy.

Żeby w pełni zrozumieć konsekwencje embarga trzeba przede wszystkim wiedzieć… czym tak naprawdę są cookies, a konkretnie które z nich sa „first”, a które „third”.

Błędne rozumienie cookies

Tak naprawdę podział, rozumiany jako typ cookie, nie istnieje, bo ciastko, to po prostu ciastko. W praktyce może się okazać, że po zmianach w 2022 roku, coś, co potocznie uważa się za third-party cookie, jak najbardziej będzie działało, a plik first-party będzie nieprzydatny. To o co w tym tak naprawdę chodzi?

Podział na pliki cookies first-party i third-party odnosi się do relacji pliku z domeną, która go używa. First-party to relacja, w której plik jest podpisany przez domenę, na której się znajduje – i ten rodzaj jak najbardziej będzie dostępny w przyszłości. Relacja third-party zachodzi w momencie, gdy domena chciałaby wykorzystać plik cookie innej. Czy też w praktyce: plik cookie innej domeny chciałby być wykorzystany przez stronę, jak ma to miejsce podczas wyświetlania reklam displayowych.

Jeśli zablokujesz ciasteczka 3rd party, dane zapisane w ciasteczkach będą odczytywane (i dołączane do żądania) tylko w kontekście first-party.

Oto przykład:

Wchodzisz na stronę internetową, na której znajduje się Facebook Pixel. Ten krótki skrypt zapisuje w Twojej przeglądarce plik cookie, który określamy jako third-party. Następnie nudzisz się przeglądaniem tej strony i wchodzisz na Facebooka. W trakcie scrollowania newsfeedu, ciasteczko (założone przed chwilą) jest ciasteczkiem w relacji first-party.

Dlaczego Google blokowanie jest tak bardzo nie na rękę…

Po prostu dlatego, że Google nie może Cię zidentyfikować pomiędzy stronami. Produkty, które oglądałeś w jednej domenie mogą być po embargu nadal zapisane w cookie, ale nie mogą być odczytane na innej domenie, tej, która wyświetla „śledzącą Cię” reklamę, remarketującą produkt.

Jednocześnie warto przypomnieć, że nadchodzące ograniczenia nie będą miały wpływu na rekomendacje oparte na wyszukiwaniach.

…a Facebooka zupełnie nie obchodzi.

Załóżmy, że jesteś wylogowany z Facebooka, a wszystkie ciasteczka Facebooka zostały usunięte. Następnie, wchodzisz na dowolną stronę z pikselem. Pixel umieszcza ciasteczka firm trzecich podczas przeglądania domeny, a także wysyła zanonimizowane dane na własne serwery. Zanonimizowane, ale pozwalające na identyfikację.

Kiedy się znudzisz i wejdziesz na Facebooka, po zalogowaniu Facebook nawiązuje relację first-party z Twoją przeglądarką i synchronizuje wcześniej zanonimizowane dane, z Twoim kontem, czyli po prostu z Tobą.

System nie jest oczywiście bez żadnych wad. Jeżeli korzystasz z przeglądarki wspólnie z innym użytkownikiem fejsa, może się oczywiście zdarzyć, że wyświetlane reklamy będą zdradzać historię przeglądania innego użytkownika. Ten mechanizm będzie działał nadal. Znam co najmniej dwa małżeństwa, których zaręczyny zostały w ten sposób… zaspoilerowane. 😉

FLoC

Do rzeczy. Dlaczego Google w końcu decyduje się na rezygnację z cookies? Oczywiście dlatego, że ma już przygotowaną alternatywę. Zastąpi je sztuczna inteligencja – tutaj także bez zaskoczeń. Na razie rozwiązanie testowane jest w reprezentacyjnej grupie 0,5% użytkowników z Australii, Brazylii, Kanady, Indii, Indonezji, Japonii, Meksyku, Nowej Zelandii, Filipin i Stanów Zjednoczonych.

Wszystko, co dotyka użytkownika końcowego – połączenia telefoniczne, numery, odwiedzane strony – to dane. Algorytmy wykorzystują dane, aby wybrać odpowiednią treść do wyświetlenia. Poprzednio przetwarzał je zewnętrzny serwer – Google – i tam też trenowany był model, na podstawie którego wyświetlano Ci reklamy.

Załóżmy, że wszedłeś na stronę internetową i wyświetla Ci się okienko z dynamiczną reklamą. Algorytm Google, opierając się na Twoich danych przeglądania, przeprowadza aukcję wśród reklamodawców i wyświetla wybraną reklamę. Opiera się na third-party cookies, które „zebrałeś”, wędrując po internecie.

Federated Learning of Cohorts, czyli FLoC to technologia, która pozwala na personalizację wyświetlanych reklam bez konieczności udostępniania szczegółowych danych do zewnętrznego źródła.

Tym razem jest nieco inaczej

Wstępnie wytrenowany algorytm Google jest pobierany na Twoją przeglądarkę, czy też na urządzenie, z którego właśnie korzystasz. To Twoje urządzenie decyduje o tym, jaki rodzaj reklam powinien Ci się wyświetlić. Wybór konkretnej kreacji dokonywany jest na podstawie Twojej kohorty.

Model jest trenowany lokalnie i nie dzieli się Twoją historią przeglądania „na zewnątrz”, ale jak najbardziej ma do niej dostęp, bo przechowywana jest ona niezależnie od cookies. To, co udostępnia, to identyfikator Twojej kohorty. Po wyświetleniu reklamy i w zależności od jej skuteczności dzieli się kilkoma hiperparametrami z modelem głównym (na serwerach Google), co pomaga całemu algorytmowi w uczeniu się, ale nie zdradza dokładnie Twojej historii. Jest więc to proces zdecentralizowany – stąd „Federated” w nazwie. Odrębne podmioty – kohorty – działając niezależnie, uczą się wspólnie.

Porozmawiajmy o kohortach

Kohorta zainteresowań to grupa przypisana użytkownikowi przez algorytm SimHash. A konkretnie użytkownik zostaje przypisany do tej kohorty, bowiem SimHash nie kieruje się konkretnymi wytycznymi, a raczej ogólnym „podobieństwem” (pierwotnie służy w Google do odnajdywania plagiaryzmu w kontekście SEO). Kohorty powinny być raczej duże (kilka tysięcy użytkowników), i maksymalnie, jak to tylko możliwe, spójne.

Ile jest kohort? Całkowita liczba nie powinna przekraczać 232 (czyli 4 294 967 296), gdyż zgodnie z (nieoficjalną) dokumentacja, chcemy przechowywać identyfikator kohorty jako 32-bitową liczbę całkowitą, a to właśnie jest największa wartość, jaką można w ten sposób przechować. Chodzi także o równowagę pomiędzy precyzją targetowania, a ochroną prywatności.

Przeglądarka nie udostępnia identyfikatorów konkretnych zainteresowań kohorty żadnej stronie i nie ujawnia historii przeglądania.
Identyfikator kohorty nie jest również powiązany z żadnymi wrażliwymi danymi.
Użytkownicy mogą w każdej chwili zablokować dostęp do kohorty zainteresowań.
Identyfikator zawiera także informację o wersji kohorty powiązanej z nazwą przeglądarki (aby uniknąć konfliktu nazw).

Dane użytkowników są zdecentralizowane, ale mimo to Google jest w stanie poznać zachowania użytkowników i prezentować spersonalizowane treści bez naruszania prywatności.

A co z efektywnością tego modelu reklamy? Google twierdzi, że zrównuje się on z 95% reklam opartych na third-party cookies. Brzmi nie najgorzej. Google deklaruje również, że FLoC będzie w całości dostępny dla innych dostawców reklam i wszystkich przeglądarek, które zechcą dołączyć się do projektu.

Jeśli jednak ktoś nadal czuje się niekomfortowo, w teorii ma możliwość wyłączenia personalizacji na wybranych lub wszystkich stronach. W praktyce jednak nie jest to tak proste, jak być powinno, z czym wiążą się – a jakże…

Kontrowersje

Przeglądarki, wymienione wcześniej, nie skorzystały zaproszenia do współtworzenia projektu. W większości skrytykowały rozwiązanie FLoC jako „jeszcze gorsze”, niestety nie podając zbyt wielu szczegółów na ten temat. W większości przypadków FLoC po prostu nie wpisuje się to w ich filozofię „nieśledzenia użytkowników”.

Przez śledzenie należy tutaj rozumieć jakąkolwiek formę wyświetlania treści w na podstawie tego, co robimy w przeglądarce. To, czy reklamodawca używa do tego cyfrowej pluskwy, czy po prostu analizuje wzorce zachowań, nie ma większego znaczenia. Śledzenie to śledzenie. Najbardziej stonowane (i moim zdanie przekonujące) oświadczenie wydała w tej sprawnie Opera. Pozwolę sobie je tutaj przytoczyć:

Jak pewnie wiesz, Opera od wielu lat wprowadza funkcjonalności mające na celu ochronę prywatności, które są doceniane przez użytkowników. Była pierwszą dużą przeglądarką, posiadającą wbudowane blokowanie reklam, VPN i inne funkcje zorientowane na prywatność. Koniec third-party cookies jest bardzo znaczący i wpłynie na skalę śledzenia użytkowników między różnymi stronami w sieci. Razem z innymi przeglądarkami wspólnie dyskutujemy nad nowymi, lepszymi, chroniącymi prywatność alternatywami ciasteczek dla reklamodawców – w tym FLoC – jednak nie mamy jak narazie w planach w obecnej formie włączać ich w Operze. Uważamy, że jest zbyt wcześnie, by móc stwierdzić, w którą stronę będzie podążał rynek i co zrobią największe przeglądarki.

Zgadzam się ze stwierdzeniem, że FLoC ma kilka wad, które leżą już w samych jego założeniach.

To, że udostępniane jest tylko ID kohorty nie znaczy tak naprawdę, że te dane o użytkownikach nie mogą zostać w pewnym stopniu odczytane. ID kohorty jak najbardziej daje informację o stronach, które odwiedził użytkownik do niej należący, jest ona tylko w pewien sposób „ukryta”, ale już nie „zaszyfrowana”.

Więcej niż potrzeba

W efekcie strony, które identyfikują i w pewien sposób profilują swoich użytkowników (na przykład te, do których się logujemy), są w stanie zrekonstruować – za pomocą technik machine learning – dokładne zainteresowania kohort. Mowa tutaj w szczególności o największych, czyli np. Facebook lub… sam Google. Twoja kohorta może w efekcie, w sposób jawny, zdradzić informacje, na których przetwarzanie – w danym serwisie – pierwotnie się nie zgodziłeś. Znacznie więcej i w sposób jeszcze bardziej niekontrolowany niż w przypadku third party cookies.

Trzeba jednak zadać sobie pytanie, czy najwięksi gracze, jak na przykład Facebook, są w stanie zyskać w ten sposób cenne dane, których już i tak by nie posiadali?

FLoC ma być dostępny dla każdego podmiotu, który wyrazi chęć uczestnictwa w projekcie. Nawet najmniejsi gracze, których raczej nie stać – przynajmniej na ten moment – na zaplecze technologiczne, mogą czerpać korzyści z FLoC użytego zgodnie z pierwotnym założeniem.

A co z tymi podmiotami, które mają zaplecze technologiczne i nie kierują się etyką w swoich działaniach (czy nawet ich legalnością)? Uśmiechną się z politowaniem na widok kolejnego podjazdowego sporu między reklamodawcami a przeglądarkami i użytkownikami. Warto bowiem wspomnieć, że third-party cookies nie były jedyną metodą śledzenia użytkowników pomiędzy witrynami. W rzeczywistości była to jedna z bardziej „przejrzystych” metod.

Browser Fingerprinting

Browser Fingerprinting jest znacznie mniej etyczny. Metoda wykorzystuje wszystkie dostępne dane: wersję przeglądarki, używane wtyczki, a także dane sprzętowe: proporcje ekranu, jego rozmiar, orientację, nazwę i wersję modelu… wszystko to, co w jakiś sposób pozwala odróżnić urządzenie od innych. Kiedy zagreguje się je, okazuje się, że wszystkie te informacje pozwalają stworzyć cyfrowy odcisk palca, który pozwala całkiem nieźle zidentyfikować użytkownika, niezależnie od tego, ile ciastek zablokuje.

Kiedy ta praktyka stała się szerzej znana, wiodące przeglądarki zaczęły walczyć na różne dostępne sposoby blokując dostęp do danych pozwalających na utworzenie tego odcisku palca.

Przede wszystkim współpraca

Mówi się, że z prawem jest jak z płotem. Kot go przeskoczy, wąż się prześlizgnie, ale najważniejsze, że owce się nie rozchodzą. Prawo i regulacje dotyczące informatyki nie są wyjątkiem.

Jeśli zakazujemy jakiejkolwiek szeroko stosowanej, moralnie dyskusyjnej technologii bez podania sensownych alternatyw, to w większości przypadków rzucamy kłody pod nogi „tym dobrym”, czyli firmom, które starają się mimo wszystko działać w granicach panującego prawa i etyki.

FLoC jest w takim razie czymś OK, czy wręcz przeciwnie? Wydaje się, że jest przynajmniej, jakąkolwiek próbą pogodzenia interesów reklamodawców, przeglądarek i użytkowników. Jeszcze nie idealną, ale potencjalnie bardzo dobrą, pod warunkiem, że będzie rozwijany we współpracy ze wszystkimi zainteresowanymi.

W przeciwnym wypadku prędzej czy później pojawi się alternatywa, która pomoże śledzić ruch w sieci. Będzie z pewnością skuteczna, ale raczej nie powinniśmy oczekiwać w jej ramach poszanowania czyjejkolwiek prywatności.