Obserwujesz rozwój sztucznej inteligencji, z naciskiem na generatywną, od ponad 2 lat. Skąd to zainteresowanie? Od razu dostrzegłeś w tym rewolucję?
Oprócz agencji prowadzę także w ramach studiów podyplomowych z marketingu zajęcia pod nazwą „Marketing przyszłości”, w związku z czym na bieżąco śledzę wiele różnych trendów w branży. Jednym z nich jest właśnie AI, którą się zainteresowałem jakoś dwa i pół roku temu. Wspominałem o niej przy różnych okazjach, jednak do kwietnia ub. r. było to na zasadzie prezentowania jej jako ciekawostki. Samemu miałem wówczas jeszcze nastawienie, że kreatywność będzie jednym z ostatnich obszarów, jakie sztuczna inteligencja zastąpi. Zmieniło się ono w wyniku m.in. rewolucji, które związane są z rozwojem Midjourney, Stable Diffusion, GPT-3 itd.
Zobacz również
Rok temu kupiłem dostęp do Jaspera i zacząłem go testować. Szybko dostrzegłem, że faktycznie AI jest pewnego rodzaju rewolucją. Jednak wiele osób dalej nie podzielało mojego entuzjazmu. Dopiero ChatGPT wszystko zmienił.
GPT-3 istnieje od dwóch i pół roku. Na bazie wykorzystania jego API powstało już wiele różnych firm i usług, jak Jasper czy Copy.ai, a samo OpenAI (twórca GPT) bezpośrednio nie chciało udostępniać swojego rozwiązania konsumentowi końcowemu. Sam Altman (CEO OpenAI) namawiał wielokrotnie partnerów zewnętrznych, żeby opracowali możliwość rozmowy i dialogu z AI, ale żadna z tych firm się na to nie zdecydowała. W końcu zrobili to sami (stąd nazwa ChatGPT), a ogromne zainteresowanie tym rozwiązaniem nawet ich samych zaskoczyło. Więc to jest ciekawe, że GPT-3 istnieje od prawie 3 lat, a dopiero po wprowadzeniu nakładki umożliwiającej rozmowę z AI stał się niezwykle popularny.
Jednak wcześniej do AI przekonały mnie możliwości graficzne, kiedy zobaczyłem w maju ub. r. pierwsze grafiki generowane w DALL-E 2. Zrobiło to na mnie ogromne wrażenie, ponieważ zauważyłem, że potrafi ona nie tylko stworzyć ciekawe i dobrej jakości obrazy, ale także odwzorować nieprawdopodobne niuanse związane z emocjami (np. obraz myszy doświadczającej pierwszy raz wirtualnej rzeczywistości). I wszystko tylko przy pomocy jedynie komendy tekstowej.
#PrzeglądTygodnia [05.11-12.11.24]: kampanie z okazji Movember, suszonki miesiąca, mindfulness w reklamach
Słuchaj podcastu NowyMarketing
A kiedy nastąpił największy przełom, jeśli chodzi o możliwości tych rozwiązań?
Największy przełom nastąpił pod koniec ub. r., kiedy to Midjourney wprowadziło wersję V4, tworzącą naprawdę wysokiej jakości grafiki. Chwilę później OpenAI wypuściło swój chat oparty na GPT-3, który pozwolił ludziom na całym świecie samemu zobaczyć i właściwie wypróbować, czym tak naprawdę jest ta technologia.
Obecnie rozwój AI jest wykładniczy i powstaje bardzo dużo nowych rozwiązań. Samemu już nie nadążam za śledzeniem tego wszystkiego, mimo że poświęcam na to codziennie sporo czasu, bo jest tego po prostu zbyt wiele. Dlatego też stworzyliśmy społeczność AI wizards na LinkedInie, aby ułatwić innym zainteresowanym znalezienie wartościowych i ciekawych informacji w jednym miejscu, zamiast szukać w natłoku treści w sieci. Bo ludzie się gubią już w tym wszystkim, nawet specjaliści z branży IT.
ChatGPT znalazł się niedawno na okładce magazynu TIME. Czy wraz z obecnie ogromnym zainteresowaniem tego typu narzędziami możemy mówić o prawdziwej rewolucji w tym kontekście?
Sztuczna inteligencja zdecydowanie będzie rewolucją na skalę elektryczności, która zmieni każdy aspekt naszego życia. Będziesz mógł wykorzystać ją do tego, żeby zrobiła dane zadanie znacznie lepiej od Ciebie. Dlatego też Sam Altman w jednym z wywiadów powiedział, że wartość kapitału intelektualnego człowieka według niego bardzo mocno spadnie w przeciągu najbliższych lat. W wielu obszarach znów zaczną się liczyć bardziej umiejętności i cechy fizyczne niż umysłowe.
Ta rewolucja zacznie się odbywać w każdej dziedzinie i właściwie większość branż doświadczy AI w mniejszym lub większym stopniu.
W branży kreatywnej w szczególności taką mocną zmianą jest to, że pracując z wieloma narzędziami, pierwszy raz w historii mamy takie, do których możemy się wprost odezwać, a one dadzą nam jakąś odpowiedź, która może być wartością dodaną. Możemy z AI zderzyć swoje pomysły, poznać inne aspekty i spojrzenia na dany temat, o których sami nie myśleliśmy.
Rozwiązania te jeszcze nie zastępują w pełni człowieka, ale nikt z nas nie wie, w którą stronę i jak daleko to zajdzie.
Jeszcze nie zastąpią, ale w perspektywie 1-3 lat, to jednak mają dużą szansę zastąpić ludzi w pracy kreatywnej?
Jeśli chodzi o prawdziwą kreatywność, to jeszcze się nie musimy obawiać, bo wynika ona z naszych emocji. A emocje są powiązane z ciałem – mamy emocje, dlatego że mamy ciało. Często futuryści z branży IT o tym zapominają, myśląc, że mózg można przenieść 1:1 do świata cyfrowego. A mózg bez ciała nie jest człowiekiem. Przez to, że mamy emocje, to jesteśmy w stanie podejmować decyzje, że np. ten obraz nam się bardziej podoba, a tamten nie. Maszyna w ten sposób nie zadziała. Przykładowo generując obrazy w Midjourney, tworzę ich czasem setki i spośród nich wybieram te, które mi się podobają. Emocje pomagają mi określić jaki element mi nie pasuje w danej kreacji albo co trzeba w niej zmienić.
Oczywiście mówię tu o bardziej wymagających pracach graficzny. Natomiast jeśli chodzi o proste prace związanych zarówno z tekstem, jak i grafiką, muzyką czy wideo, to sztuczna inteligencja z powodzeniem zastąpi w wielu kwestiach człowieka. Zapotrzebowanie zostanie na prawdziwą kreatywność, kontekstową (lub jak to określa Marcus du Sautoy – transformacyjną), szukanie naprawdę innowacyjnych pomysłów, na które AI nie wpadnie. Oprócz tego, do większości prostych prac potrzebne będą osoby nadzorujące sztuczną inteligencję, które będą podejmować ostateczne decyzje oraz dopracowywać koncepty opracowane przez AI (moim zdaniem ta grupa najbardziej urośnie w najbliższym czasie). Z pewnością będzie też jakaś grupa osób, która będzie mieścić się gdzieś pomiędzy tymi dwoma. Na koniec pozostaną jeszcze osoby wykonujące prace manualnie, które póki co nie muszą się obawiać AI. Trudno jednak w tej chwili ocenić jak szybko ta transformacja przebiegnie i jaki będzie ostatecznie podział procentowy danych grup.
Na pewno stworzy się wiele nowych stanowisk wymagających kompetencji z zakresu obsługi AI. Ale też część osób straci pracę i trzeba się wg mnie na to przygotować.
Czyli można powiedzieć, że prawie każdy specjalista w najbliższej przyszłości będzie musiał umieć pracować z AI, aby być efektywnym pracownikiem.
Uważam, że powstanie nowa kompetencja – rozmowy z AI – której ludzie będą musieli się nauczyć. Jednym wyjdzie to gorzej, innym lepiej, a jeszcze inni staną się w tym bardzo dobrzy. Już teraz na LinkedInie są osoby, które określają siebie jako prompt engineer.
Tylko obecnie sporym problemem jest to, że ludzie nie potrafią rozmawiać z AI i korzystać z narzędzi na niej opartych. Wynika to z niezrozumienia, czym jest sztuczna inteligencja i jak działa. Ta umiejętność zrozumienia, co AI miało na myśli i dlaczego generuje taki, a nie inny wynik jest i będzie niezwykle ważna.
Przykładowo, gdy pracowałem z Midjourney, w pewnym momencie zauważyłem, że gdy wpiszę komendę, aby wygenerował stojącego mężczyznę jako zdjęcie robione od dołu, to przedstawi go formie stworzonej ze stali lub kamienia – mimo że tego nie określiłem. I teraz trzeba się zastanowić, dlaczego tak się dzieje. Część osób uzna, że jest to bezsensowne działanie. Jednak jak się zastanowimy głębiej nad tym, to dojdziemy do wniosku, że ludzie sami sobie nie robią od dołu zbyt wielu zdjęć. Jest to perspektywa najczęściej używana w kontekście robienia fotografii pomników – na takich zdjęciach bazowało w tym przypadku AI (i akurat baza zdjęć na której szkolono Midjourney), stąd ta dziwna forma końcowa. Wystarczy jednak zmienić w opisie ‘mężczyznę’ na ‘kobietę’ i taki efekt się już nie pojawia. A to dlatego, że większość pomników na świecie stanowią pomniki właśnie mężczyzn.
Innym takim przykładem jest kwestia nieradzenia sobie AI z generowaniem palców u rąk czy zębami. Dlaczego tak się dzieje? Ponieważ AI zostało „nakarmione” zdjęciami, które mają różne opisy, jak np. zdjęcie człowieka stojącego wykonane od dołu. I teraz mało kto na zdjęciach pisze o palcach, nikt ich nie opisuje dokładnie, co powoduje, że AI ma problem z ich odwzorowaniem. W tym przypadku poradziłem sobie z tym, odwołując się w prompcie do układu i opisu anatomicznego. Dzięki temu AI wie, żeby samemu wziąć pod uwagę zdjęcia anatomiczne rąk, przez co generuje je poprawnie, za to z kolei zbyt eksponuje mięśnie i ścięgna. Ale ten aspekt ma być już niedługo poprawiony.
Dlatego jeśli jako użytkownik lepiej rozumiesz, skąd biorą się takie kwestie i pewne niuanse w treściach tworzonych przez AI, to jesteś w stanie to kontrolować i mieć lepsze efekty.
A jak się nauczyć tej obsługi AI? Jeśli jest taką rewolucją, to powinna iść za tym edukacja.
OpenAI niedawno wystosowało petycję informującą o tym, że firma poszukuje na całym świecie researcherów, którzy pomogą jej lepiej zrozumieć niektóre aspekty AI. Szukają kolejnych sposobów na lepsze szkolenie AI i kontrolowanie jakości wyników dostarczanych przez sztuczną inteligencję. Sam Altman przyrównał w jednym z wywiadów GPT i AI do psa, którego oni tresują. Mamy nad nią pewną kontrolę, ale tylko do pewnego stopnia. To jest dla mnie w sztucznej inteligencji niezwykle fascynujące, że nie masz do niej instrukcji obsługi i musisz samemu, często metodą prób i błędów, uczyć się jak z nią pracować.
Z tego względu samemu mocno postawiłem na naukę obsługi AI, zbieram różne informacje i chcę edukować w tym zakresie. Wystartowaliśmy właśnie z kursem z Midjourney, a w planach mamy kolejne działania w tym obszarze.
W związku z tym rozwojem sztucznej inteligencji otwiera się cały nowy obszar wiedzy. W najbliższym czasie AI będzie trendem w wielu różnych dziedzinach, w ramach których ludzie będą się specjalizować w obsłudze takich narzędzi. Przykładowo Midjourney oferuje dodatkowe możliwości kontroli, jednak musisz poznać wiele różnych parametrów, w tym związanych z grafiką. Stable Diffusion dostało ostatnio narzędzie ControlNet, a narzędzia AI do tworzenia muzyki wymagają z kolei często połączenia wiedzy o produkcji muzycznej z wiedzą o sztucznej inteligencji.
Żeby dobrze zrozumieć rozwiązania oparte na AI i pewne niuanse z nią związane, jako użytkownicy powinniśmy mieć świadomość, na jakich danych zostały one wyszkolone.
Zdecydowanie tak. Dane te są w ogóle ciekawą kwestią. W przypadku rozwiązań jak Midjourney, ludzie często błędnie myślą, że AI nawiązuje do konkretnych obrazów zamieszczonych w internecie. A tak się nie dzieje. W rzeczywistości AI na podstawie m.in. bazy obrazów LAION-5b stworzyło pewne reprezentacje różnych symboli – nazywa się to latent images. Czyli zamiast trzymać dziesiątki zdjęć różnych obrazów kota, jest jeden obraz będący reprezentacją tego „kota” – wygląda on jak nałożone na siebie wiele grafik. Dlatego Midjourney nie ma w swojej bazie wgranych tych wszystkich zdjęć i nie bazuje na nich cały czas (ani na ich prawach autorskich). Po prostu raz zostały one przeanalizowane i na tej podstawie zbudowane pewne reprezentacje symboli. Więc np. jeśli chodzi o naruszenie praw autorskich, to zostały one zapewne naruszone (tu chcę podkreślić, że w tej kwestii nie ma co do tego raczej wątpliwości), ale jeden raz, nie jest to proces ciągły (chyba że dogrywamy kolejne zdjęcia).
Wracając jednak jeszcze do Midjourney. Mając już bazę latent images, twórcy Midjourney, jak chcą coś poprawić, np. problem z poprawnym generowaniem palców, to wiedzą, że muszą trenować algorytm zdjęciami z palcami, które są bardzo dokładnie opisane. Tu jako ciekawostkę podpowiem, że jeśli tworząc prompt do Midjourney, stworzysz dokładny opis zdrowego uśmiechu z zębami, to wówczas wygeneruje on go prawie zawsze poprawnie, lub niedużo się pomyli.
Więc wiedząc, jak działa AI, jakie zdjęcia zostały wgrane i jakie to może rodzić komplikacje, potrafisz temu ewentualnie zaradzić.
To zrozumienie działania AI jest kluczowe. Np. GPT-3 w bardzo dużym uproszczeniu stworzone jest w ten sposób, by w ramach odpowiedzi przewidywać, jakie ma być kolejne słowo (chociaż chcę podkreślić, że w grę wchodzi tu wiele algorytmów i oczywiście uczenie maszynowe). Jak to wiesz, to lepiej rozumiesz, dlaczego im więcej informacji mu podasz, to tym lepszą odpowiedź uzyskasz i dlaczego czasem przy dłuższej odpowiedzi zaczyna się gubić. Z kolei, jeśli chcesz, aby GPT-3 był bardziej kreatywny, to nie możesz podać mu wszystkich informacji, musisz pozostawić pewne pole do interpretacji i następnie w umiejętny sposób prowadzić rozmowę, a nie zadać tylko jedno pytanie i na tym zakończyć (co robi zdecydowana większość osób).
Wspominasz, że jednak nastąpiło naruszenie praw autorskich. Obecnie toczą się procesy sądowe w tej kwestii, jak chociażby ten związany z Getty Images. Zdarzają się też przypadki, że zdjęcia generowane są nawet ze znakiem wodnym strony, z której AI wykorzystywało grafiki do nauki. Jak oceniasz to wykorzystanie danych i praw autorskich?
Temat jest dosyć skomplikowany. Pierwsza kwestią jest wykorzystanie grafik, treści i bazy informacji bez zgody ich właścicieli. Czyli np. stworzenie tych latent images na podstawie innego dzieła, bez zgody jego twórców. W USA prawnicy zwracają uwagę na to, że jest już kilka precedensów, które mówią, że wykorzystanie tych dzieł dla pewnego większego dobra może mieć sens. Jako przykład często podawany jest Google. Żeby udostępnić użytkownikom funkcję wyszukiwarki, również analizuje on dzieła i wykorzystuje np. okładki książek, czy treści producentów, nie pytając każdego pojedynczego twórcy i właściciela o zdanie. We wspomnianej sprawie wytoczonej Google’owi przez jednego z producentów sąd uznał, że dla dobra społeczeństwa ważniejsze jest posiadanie wyszukiwarki, a ona z kolei nie narusza tych praw autorskich 1 do 1, czyli że po prostu kopiuje treści.
Mam podobne zdanie na ten temat. Czyli że dla dobra rozwoju trzeba było nakarmić sztuczną inteligencję różnymi dziełami, żeby ona pewne rzeczy zrozumiała.
W tym procesie AI przypomina bardzo ludzi i proces inspirowania się. Jeśli nie widzieliśmy czegoś wcześniej, to tego nie odtworzymy, też nie będziemy się tym mogli zainspirować do stworzenia czegoś nowego. W tym przypadku każdy z nas trochę podświadomie korzysta już z prac i elementów, które w życiu widział, po prostu je przetwarza.
Tak, dokładnie. Jest to argument poruszany przez wiele osób, że my też, jako ludzie jesteśmy zbiorem doświadczeń. Potrzebujemy informacji, żeby tworzyć nowe rozwiązania. Naturalne jest to, że wpierw przyswoiliśmy pewne informacje, a następnie na ich podstawie tworzymy.
Natomiast mój problem ze sztuczną inteligencją jest inny, a mianowicie, że możesz wskazać jej jeden konkretny utwór, a ona go doskonale skopiuje.
Wyobraź sobie taką sytuację. Znana piosenkarka, a wraz z nią muzycy i całe studio produkcyjne, pracują wiele tygodni nad nowym utworem. Po premierze okazuje się, że stał się hitem i dociera do wielu osób. Jedna z nich słyszy go i myśli, jakie fajne, a następnie mówi do AI, zrób mi nową i przerobioną wersję tego utworu, tylko ze słowami w innym języku i z dodaniem określonych nowych instrumentów. W niedalekiej przyszłości będzie możliwe, że taka osoba w ciągu dosłownie chwili skopiuje twój utwór i pozmienia go. I teraz ta wielotygodniowa praca wszystkich osób tworzących oryginalną wersją zostanie bardzo szybko przekopiowana przez nawet miliony osób na całym świecie. Doprowadzi to do tego, że prawdziwym twórcom ciężko będzie konkurować z zalewem podobnych treści.
Z tym mam największy problem, że będzie można w ciągu kilku minut przeanalizować i skopiować właściwie wszystko i stworzyć coś podobnego. Wyobrażam sobie, że za jakiś czas będzie można nawet poprosić AI o zanalizowanie, a następnie skopiowanie strategii danej firmy, która odnosi sukces. I to już jest dosyć przerażające. Ludziom może przestać się chcieć tworzyć nowe autorskie treści, bo nie będzie to opłacalne.
Czyli czeka nas albo zalew treści średniej jakości tworzonych przy pomocy AI, albo tych dobrej jakości, co spowoduje pewną ich deprecjację ze względu na dużą liczbę.
Tak, jak mówisz. Myślę, że te problemy będą na wielu poziomach. Z jednej strony za chwilę każdy będzie mógł tworzyć treści słabej lub średniej jakości i dosyć podobne do siebie.
Z drugiej strony więcej osób będzie mogło tworzyć do tej pory nieosiągalne dla siebie dzieła. Przykładowo właśnie niedawno influencerzy z Corridor Crew opracowali technikę tworzenia animacji rodem z wielkich wytwórni Hollywood za pomocą Stable Diffusion i zrobili to w 5 osób.
Ja na przykład nigdy nie byłem ani grafikiem, ani copywriterem, ale byłem zawsze osobą kreatywną. Nie mając odpowiednich narzędzi, potrzebowałem wyspecjalizowanych pracowników. Teraz, mając, chociażby Midjourney mogą samemu tworzyć grafiki i realizować swoje pomysły.
A jak zapatrujesz się na kwestię oznaczania treści stworzonych przez AI?
Uważam, że ogólnie nie powinno być takiego wymogu. Technologia umożliwia Ci stworzenie pewnego dzieła, więc nie do końca widzę tutaj sens. Tym bardziej w perspektywie długofalowej, 10, 15, 20 lat, gdy będziemy otoczeni przez te treści. Wydaje mi się, że raczej może dojść do tego, że twórcy będą chętnie oznaczać swoje prace, że zostały stworzone przez człowieka, bo to będzie wyróżnikiem.
Z tym oznaczaniem wiążę się też wiele niuansów, jak to, czy powinno się oznaczać tylko treść w całości wygenerowaną przez AI. Jeśli lekko poprawię jakiś element na grafice, albo dotworzę do niej fragment przy pomocy DALL-E 2, to czy też powinienem już oznaczyć to jako twór AI, mimo że jest to tylko drobna zmiana? Wydaje mi się, że zbyt wiele czynników tutaj wpływa i nie da się też kontrolować treści w ten sposób.
Czy są już narzędzia zdolne ocenić, czy dana treść została stworzona przez człowieka, czy właśnie przez AI?
Nie ma narzędzia, które będzie w stanie w 100% określić, czy dana treść została stworzona przez sztuczną inteligencję. Te tworzone obecnie mogą pomóc jedynie odsiać słabej jakości content tego typu.
Oczywiście takie rozwiązania byłyby bardzo przydatne i na pewno będą próby ich stworzenia. Tym bardziej, że już możemy zauważyć w internecie pojawiające się bardzo dobrze stworzone fake video ze znanymi osobami, jak np. niedawne z popularnym podcasterem, Joe Roganem reklamującym środki na impotencję, które zebrało miliony wyświetleń.
To jest negatywny przykład tego, co nas niestety czeka. Takie materiały będzie ciężko weryfikować i powinniśmy już uczulać i edukować społeczeństwo, żeby było podwójnie czujne, co i tak może być trudne przy możliwościach AI.
Tym bardziej, jeśli czekają nas nie tylko deep fake z celebrytami, ale też z politykami czy osobami, które mają realny wpływ na nasz kraj i politykę.
Tak, to jest coś, co mnie najbardziej martwi, czyli negatywne wykorzystywanie ogólnie szeroko rozumianej technologii do tego, żeby wykorzystywać nasze słabości i emocje. Z czasem pewnie się nauczymy tego, żeby uważać i weryfikować wszystko, ale do tego długa droga i nie wszyscy się na to uodpornią.
A jak oceniasz samą świadomość społeczeństwa odnośnie AI i jego możliwości? Mam wrażenie, że w Polsce ten temat nie jest aż tak mocno poruszany w głównych mediach, jak np. w USA, przez co ta przepaść informacyjna jest spora.
Tak, jest olbrzymia. W ub. r. już spotkałem się z opiniami zagranicznych ekspertów, którzy mówili, że wszyscy powinni się skupić na rewolucji związanej z AI, bo jest to nieunikniona przyszłość i ogromna zmiana, która nas teraz czeka. W USA jest poruszenie, ale to dlatego, że tam znajduje się wiele firm technologicznych, w związku z czym jest to naturalne. U nas się o tym mało mówi i osoby spoza branży marketingowej, kreatywnej czy IT nie mają często świadomości istnienia takich rozwiązań.
Ostatnio wypuściliśmy charytatywny kalendarz z kotami, w całości wygenerowanymi w Midjourney, i byłem zdziwiony niektórymi komentarzami, że nie jest to nic innowacyjnego. A dla nas jest to pewnego rodzaju symbol tego, że każdy może już tworzyć treści na wysokim poziomie dzięki AI.
Powiedz coś więcej o tym kalendarzu. Skąd pomysł na takie wykorzystanie grafik tworzonych przez AI?
Pomysł na kalendarz pojawił się dość spontanicznie. Kilka tygodni temu opublikowałem na LinkedInie post ze zdjęciami kotów, które w całości wygenerowałem w Midjourney. Nie skupiałem się bardzo mocno na końcowym efekcie, a raczej chciałem pokazać, jak dużą kontrolę można mieć w procesie tworzenia grafiki przy pomocy AI. Post stał się hitem i szybko zacząłem otrzymywać od internautów pytania, czy mogą wykorzystać do własnego użytku niektóre z tych grafik.
Wówczas pojawił się pomysł, żeby wykorzystać te zdjęcia w celu zrobienia kalendarza charytatywnego. Tak z ciekawości sprawdziłem jeszcze, kiedy jest dzień kotów, żeby był dodatkowy kontekst i pretekst do takiej publikacji. Okazało się, że za niecałe 3 tygodnie. W związku z tym od razu ruszyłem do prac nad wygenerowaniem bardziej dopracowanych zdjęć kotów. Dodatkowo poprosiłem copywriterów z mojej agencji, aby stworzyli ciekawe imiona dla tych zwierzaków, a także napisali dedykowane dla nich wiersze.
Efekt naszej pracy okazał się niezwykły. Już mamy sprzedanych ponad 600 kalendarzy i spotkaliśmy się z bardzo przychylnymi opiniami. Co ciekawe, po skończeniu projektu oszacowałem, że samo wygenerowanie 12 zdjęć zajęło mi około 60 godzin.
Mógłbyś przybliżyć ten proces, jak on wygląda i co wpływa na długość tworzenia grafiki?
Podam Ci na przykładzie jednego z moich ulubieńców, którego wygenerowałem, czyli Fidela Wykastro. Zacząłem od zastanowienia się, jaki charakter z taką postacią jest związany. Pierwsze, co mi się skojarzyło, to oczywiście Kuba i to, że może uda mi się nawiązać do kubańskich rzeczy. Zacząłem więc szukać różnych sformułowań, które mogą bardziej dotyczyć Kuby – np. czy są jakieś określenia specyficzne dla stylu kubańskiego i różnych jego elementów czy kolorów. Znalazłem kilka takich niuansów, które pomogły mi w dookreśleniu ostateczne konceptu.
Więc research i zrozumienie tego, co się chce dokładnie wygenerować jest pierwszym krokiem. Drugim jest pomysł na to, jak to ma wyglądać. Następnie przechodzę do generowania i sprawdzam, czy AI jest w stanie dobrze stworzyć konkretne elementy, które chcę zawrzeć na obrazie. W przypadku wspomnianego Fidela Wykastro było to np. trzymanie przez kota cygara, czy sprawienie, aby konkretna rasa kota naturalnie wyglądała na uśmiechniętą. Jeśli efekt nie jest zadowalający, wówczas staram się dopracować opis tak, aby AI dokładnie zrozumiało na czym mi zależy – potrafi to zająć sporo czasu i wymaga, wspomnianego wcześniej, zrozumienia działania sztucznej inteligencji.
Kiedy już wygenerowałem wszystkie zdjęcia poddałem je upscalingowi, aby uzyskać lepszą jakość i większą rozdzielczość potrzebną do druku w formacie A2.
Które obszary Twoim zdaniem będą miały spory problem związany z upowszechnieniem się AI?
Jednym z takich obszarów jest edukacja. Na młodzież już negatywny wpływ wywarły smartfony, a teraz nadeszła jeszcze kolejna rewolucja, dzięki której już nie będą musieli tyle myśleć w szkołach. Wystarczy, że wpiszą dane zapytanie czy zadanie do AI i mają gotowe rozwiązanie. Nasze szkodnictwo, jak i w wielu innych krajach, nie jest na to zupełnie gotowe i to będzie ogromny problem.
Tak, tylko w dobie smartfonów młodzież jeszcze myślała i się uczyła, a teraz zastąpi ich w tym całkowicie AI. Z perspektywy rozwoju umysłowego może to mieć bardzo negatywny wpływ.
Niestety tak. Kiedy się uczysz, to myślisz, dedukujesz, rozwijasz się itd. A w przypadku AI tylko wpisujesz zapytania. Już teraz młodzi mocno wykorzystują ChatGPT do pisania wypracowań, a za niedługo zrozumieją, jak używać tego np. do zadań matematycznych czy rozwiązywania jakichkolwiek innych zagadnień. Może to powoli zastępować w ten sposób samodzielne myślenie i naukę. Ale są i pozytywne przykłady. Akademia Leona Koźmińskiego zaczęła zachęcać uczniów do korzystania z ChatGPT i jednocześnie opracowała ciekawą weryfikację wiedzy. Przykładowo zachęca studentów do odnajdywania błędów, jakie generuje ChatGPT przy odpowiedziach. Dlatego też uważam, że powinniśmy zastanowić się nad tym, jak ma obecnie wyglądać system edukacji w dobie AI, a rząd powinien podjąć już działania w tym kierunku.
Wspomniałeś już o możliwościach i problemach związanych z AI. Powiedz może jeszcze, do czego Wy w ramach agencji wykorzystujecie te rozwiązania.
Przede wszystkim próbujemy z powodzeniem tworzyć różne koncepty graficzne – jeden ostatnio nawet już sprzedaliśmy, a drugi najprawdopodobniej za chwilę zawiśnie w całej polsce jako kampania outdoorowa. Zachęcam też zespół do eksperymentowania z GPT-3. Copywriterzy traktują to narzędzie m.in. jako wsparcie w pisaniu, a także jako źródło inspiracji.
Czekamy też w agencji na rozwiązania, które mają się za chwilę pojawić, a które umożliwią grafikom rysowania projektu, a następnie na tej podstawie stworzenie przy pomocy AI nowej grafiki zgodnie ze wskazówkami. Będzie to swego rodzaju rewolucja właśnie dla grafików, ponieważ znowu odczują, że mają istotny wpływ na efekt końcowy i poczują, jak ważne jest zebrane przez lata doświadczenie.
A z perspektywy pracy strategicznej, jak wykorzystujecie AI i jakie możliwości tu widzisz?
W tym przypadku traktuję to na razie jako ciekawostkę. Oczywiście można wykorzystać AI, jak GPT-3 do robienia reasearchy, pozyskiwania insightów, informacji pomocnych w zrozumienia rynku i konkurencji itd. W tym dobrze się on sprawdza jako szybkie wsparcie. Oczywiście nie zawsze efekt będzie w pełni wystarczający, ale około 80% Twojej pracy, tej najbardziej mozolnej i czasochłonnej, będzie wykonane, co mocno odciąża w procesie strategicznym.
Trzeba mieć tutaj jednak na uwadze to, że GPT-3 wykorzystuje dane sprzed dwóch lat, w związku z czym najświeższych informacji nie znajdziemy przy jego pomocy. Czekamy natomiast na rewolucję w wyszukiwarkach. Wtedy znów wszystko się zmieni.
Na koniec powiedz jeszcze, jakich rad udzieliłbyś naszym czytelnikom, którzy chcieliby rozpocząć przygodę z tworzeniem treści przy pomocy AI, a nie mieli z nią w ogóle styczności?
To jest dobre pytanie, ponieważ jak wspomnieliśmy wcześniej, ta wiedza jest mocno rozproszona. Przede wszystkim proponuję poszukać np. na YouTubie filmów omawiających to, czym w ogóle jest sztuczna inteligencja.
Zrozumienie tego, czym jest AI, jak powstało i jak tworzy nowe treści, jest podstawą – jak już rozumiesz, dlaczego coś działa, to łatwiej Ci potem to wykorzystywać. Wówczas wiesz np. dlaczego i kiedy doszczegółowienie w GPT-3 ma sens, a w Midjourney jaki efekt wywoła komenda zwiększająca pole interpretacji, co pomoże Ci efektywniej wykorzystywać te narzędzia.
Natomiast jeśli zaczniesz wyłącznie kopiować prompty innych, to będziesz mieć jedynie konkretne instrukcje, ale nie zrozumiesz, jak działają i jak je modyfikować pod swoje potrzeby.
Więc najpierw musisz zrozumieć jak AI działa, a dopiero po tym uczyć się z nią pracować. Od tego bym proponował zacząć. Dalej polecam zacząć śledzić profile takich firm, jak OpenAI, a także obserwować różne hashtagi związane z AI. Na Linkedinie obecnie krąży bardzo dużo wiedzy i wiele osób postuje w tym temacie. My też w ramach społeczności AI wizards będziemy starać się publikować najważniejsze informacje w zakresie sztucznej inteligencji.
O rozmówcy:
Tomek Graszewicz, CEO Job’n’Joy i agencji Up
Jeden z najbardziej znanych praktyków AI działających w obszarze kreatywnego tworzenia ze Sztuczną Inteligencją. Specjalizuje się w Midjourney, Dall-E 2, programach opartych na GPT-3 (w tym chatGPT) oraz wielu innych rozwiązaniach generative AI. Założyciel społeczności AI wizards, skupionej wokół kreatywnych narzędzi AI. Opracował pierwszy na świecie kompleksowy kurs Midjourney V4.
Twórca pierwszego w Polsce i jednego z pierwszych na świecie fizycznych, seryjnie drukowanych produktów stworzonych przy użyciu sztucznej inteligencji – „Łap Kalendarz”. Na co dzień zarządzający agencja kreatywną Up oraz employer brandingowa Job’n’Joy. Od ponad 20 lat związany z branżą reklamową. Wykładowca akademicki, prelegent i wieloletni szkoleniowiec w zakresie technik rozwijania kreatywności.
Zdobył wiele nagród i wyróżnień w prestiżowych konkursach m.in.: EFFIE, KTR, Golden Arrow, Złote Spinacze, EBEA, Siła przyciągania, Boomerang oraz Złoty Medal Międzynarodowych Targów Poznańskich za innowacyjny produkt.