GPT-4o to nowa aktualizacja ChatGPT od OpenAI. Model nazywany jest „omni” i ma być jeszcze bliższy naturalnej interakcji na lini człowiek-komputer. Dużym uaktualnieniem dla użytkowników, którzy nie subskrybują ChataGPT, jest dostęp do wielu płatnych dotychczas funkcji, np. do analizy obrazów, dokumentów czy analityki danych.
Co nowego?
- Mowa konwersacyjna. Konwersację z chatbotem będzie można prowadzić praktycznie w czasie rzeczywistym. GPT-4o reaguje na sygnały wejściowe audio w ciągu zaledwie 232 milisekund, co jest podobne do czasu reakcji człowieka w rozmowie. Głos chatbota również uległ zmianie i jest bardziej naturalny.
- Narzędzie do tłumaczenia na żywo. Z asystentem głosowym można zarówno rozmawiać w różnych językach, jak i poprosić go o przetłumaczenie na inne języki. To świetne rozwiązanie, np. w podróży.
- Natywna funkcja widzenia. To opcja podobna do Google Lens. Dzięki niej chat może „widzieć”, co pokazuje użytkownik za pośrednictwem aparatu w telefonie. Podczas prezentacji pokazano, jak chatbot rozwiązywał zadanie matematyczne.
- Jako model multimodalny, GPT-4o może odczytywać ludzkie emocje.
- W nowym modelu można przesłać obraz czy tekst po to, by rozpocząć dyskusję z chatbotem, uzyskać szczegółowe informacje na jego temat czy inne powiązane z materiałami ciekawostki. GPT-4o nie będzie miał także problemu z utworzeniem wykresów pod dany tekst lub stworzenie podsumowania.
- GPT-4o zyskał dostęp do internetu. Pojawiła się także aplikacja komputerowa, którą mogą pobrać użytkownicy macOS.
Na stronie ChatGPT można już skorzystać z nowego modelu, jednak nie wszystkie funkcje są na ten moment dostępne. Będą one udostępniane stopniowo w nadchodzących tygodniach, ale nie jest wiadome, kiedy konkretnie. Są także limity. Jeśli dana osoba, która nie jest subskrybentem, wykorzysta dzienny limit, to dalsze korzystanie będzie prowadzone przez model GPT-3.5. Abonenci ChatGPT Plus mają 5-krotnie większy limit dzienny.
Zobacz również
Opinie ekspertów
Remigiusz Kinas
Head of AI, Grupa NEUCA
#PolecajkiNM cz. 32: czego szukaliśmy w Google’u, Kryzysometr 2024/25, rynek dóbr luksusowych w Polsce
W języku łacińskim „omni” oznacza wszystko. Jak na dłoni widać obecne kierunki rozwoju AI, które zmierzają do objęcia swoim zasięgiem jak najszerszej modalności – przetwarzanie tekstu, dźwięku, obrazu, w tym wideo. Tak powstają kolejne wielkie modele językowe (LLM), które nie tylko zachwycają nas swoimi umiejętnościami konwersacyjnymi, ale również zbliżają się do człowieka – potrafią zrozumieć, co do nich mówimy, ale też wdzięcznie odpowiadają, używając zabarwienia emocjonalnego.
Słuchaj podcastu NowyMarketing
GPT-4o, czyli „omni” to nowy model językowy stworzony przez OpenAI. Moim zdaniem w trybie „chat” generowane przez model treści są zbliżone do poprzednika GPT-4. Może troszkę lepsze, choć to bardzo subiektywna ocena, nie poparta gruntownym badaniem benchmarkowym.
Według rankingu ELO, model GPT-4o wyprzedza poprzednika i wszystkie modele, które były do tej pory stworzone (nie tylko przez OpenAI). Dodatkowo, zaobserwowałem znaczny przyrost prędkości generowanych tokenów. W niektórych przypadkach szacuję, że wygenerowanie tekstu zajmuje około połowy czasu, porównując do poprzedniej wersji modelu GPT-4.Model wyśmienicie wpiera tryb multimodal. Zrozumienie „treści” obrazu nie stanowi dla GPT-4o żadnego problemu. Możemy analizować obrazy, wykresy. GPT-4o w pełni wspiera język polski.
To, co najbardziej wpłynęło na moje postrzeganie wprowadzonych nowości to asystent OpenAI. Zmiana sposobu komunikacji człowiek-maszyna-człowiek. Po pierwsze, bieżąca komunikacja w dowolnym języku. Perfekcyjne wręcz syntetyzowanie głosu asystenta. Po drugie – wykorzystanie emocji, zarówno w kontekście odczytu zabarwienia emocjonalnego, jak i modulacji głosu asystenta. Kolejne to integracja asystenta z aplikacjami – możliwość komentowania tego, co dzieje się na ekranie. Ale by tego było mało, dodano przetwarzanie w trybie „na bieżąco” wideo lub obrazu z kamery. Takie funkcjonalności zdecydowanie zmienią świat. Tylko patrzeć kiedy asystent zostanie wbudowany w kolejne urządzenia, np. okulary, które pozwolą nam spojrzeć na świat jeszcze głębiej.
Grzegorz Dróżdż
analityk Conotoxia Ltd.
Należące do Microsoft OpenAI zaprezentowało nowe funkcje ChatGPT, skupiając się na głosowych możliwościach wersji GPT-4 oraz ogłosiło wiosenną aktualizację chata, wprowadzając model GPT-4o. Opinię publiczną szczególnie zainteresowało przetwarzanie mowy w czasie rzeczywistym, umożliwiając np. płynne tłumaczenie tekstu na inny język, a także odczytywanie emocji mówiącego. Sprawiło to, że w zaledwie 4 sesje, akcje platformy do nauki języków Duolingo spadły o 26 proc.
OpenAI ogłosiło również partnerstwo z Apple. Oczekuje się, że ChatGPT będzie częścią oferty AI Apple w iOS 18, choć jego rola w codziennym użytkowaniu iPhone’ów jest jeszcze niejasna. Apple rozwija także własne projekty związane ze sztuczną inteligencją, które mogą mieć priorytet przed integracją z ChatGPT. Szczegóły poznamy na WWDC już 10 czerwca. Mimo tych ogłoszeń, nie obserwujemy znaczących wzrostów cen akcji technologicznego giganta.
Wydaje się, że GPT-4o jeszcze bardziej wzmocni funkcjonowanie takich dziedzin jak programowanie w czasie rzeczywistym, edukacja poprzez nowe funkcje nauki z AI, telemedycyna oraz obsługa klienta. Nasuwa się pytanie, która z firm jako pierwsza wdroży nowe funkcjonalności. Jednak obecnie największymi beneficjentami pod względem biznesowym nie są firmy oferujące rozwiązania AI, lecz producenci półprzewodników i kart graficznych, które są niezbędne do obsługi ogromnej mocy obliczeniowej potrzebnej do działania sztucznej inteligencji. Stąd zauważamy zwiększanie przychodów takich firm jak Nvidia, której sprzedaż wzrosła o 265 proc. oraz tajwańskiego giganta półprzewodnikowego TSMC ze wzrostem o 60 proc. rok do roku. Fundusz iShares Semiconductor ETF, obejmujący akcje spółek z sektora półprzewodników zyskał 107 proc. w ciągu ostatnich 12 miesięcy i wydaje się, że to właśnie one mogą być największym beneficjentem boomu na AI.
Zdjęcie główne: OpenAI
PS Meta udostępnia udoskonalone funkcje i narzędzia Gen AI
Meta wprowadza udoskonalone narzędzia generatywnej AI dla reklamodawców – możliwość generowania obrazów i tekstów. Pojawią się także dodatkowe opcje i usługi biznesowe napędzające rozwój biznesu na platformach Meta. Jakie? O tym przeczytasz w artykule.
PS2 AI z ludzkim pierwiastkiem: wszystko, co potrzebne do unowocześnienia marketingu
Przestań wykonywać nużące i powtarzalne zadania i pójdź w stronę inteligentnej kreatywności. Dowiedz się, jak połączyć AI z czynnikiem ludzkim, aby osiągnąć jak najlepsze efekty. Wypowiada się Angie Gifford z Meta.