Gemini 2.0: nowy model agenta AI od Google

Gemini 2.0: nowy model agenta AI od Google
Google wprowadziło pierwszy model z serii Gemini 2.0, czyli wersję eksperymentalną Gemini 2.0 Flash. Jest to model wyróżniający się niskimi opóźnieniami i lepszą wydajnością, wykorzystujący najnowsze technologie na dużą skalę.
O autorze
5 min czytania 2024-12-12

Google podzieliło się również najnowszymi osiągnięciami w zakresie badań dotyczących agentów AI, prezentując prototypy, których działanie jest możliwe dzięki natywnym funkcjom multimodalnym Gemini 2.0.

Gemini 2.0 Flash

Gemini 2.0 Flash wykorzystuje wszystkie możliwości wersji 1.5 Flash, czyli najpopularniejszego do tej pory modelu Google dla deweloperów, który oferował jeszcze lepszą wydajność z porównywalnie szybkim czasem odpowiedzi. Model 2.0 Flash osiąga w kluczowych testach lepsze wyniki niż 1.5 Pro i działa dwukrotnie szybciej, a do tego ma nowe funkcje.

Poza multimodalnymi danymi wejściowymi, takimi jak obrazy, filmy i dźwięki, model 2.0 Flash obsługuje teraz także multimodalne dane wyjściowe – natywnie generowane obrazy połączone z tekstem oraz sterowalnym dźwiękiem TTS w wielu językach. Może również natywnie wywoływać narzędzia takie jak wyszukiwarka Google, wykonywać kod oraz uruchamiać zewnętrzne funkcje określone przez użytkownika.

LinkedIn logo
Na LinkedInie obserwuje nas ponad 100 tys. osób. Jesteś tam z nami?
Obserwuj

Model eksperymentalny Gemini 2.0 Flash jest dostępny dla deweloperów w ramach interfejsu Gemini API w Google AI Studio oraz Vertex AI. Wszyscy deweloperzy mogą korzystać z multimodalnych danych wejściowych i generowania tekstu. Partnerzy uczestniczący w programie wcześniejszego dostępu mogą natomiast używać takich funkcji jak zamiana tekstu na mowę czy natywne generowanie obrazów. Ogólne udostępnienie nowego modelu, wraz z dodatkowymi rozmiarami, planowane jest na styczeń.

Aby ułatwić deweloperom tworzenie dynamicznych i interaktywnych aplikacji, Google wprowadziło również nowy interfejs Multimodal Live API, który obsługuje w czasie rzeczywistym dane wejściowe w postaci dźwięku oraz strumieni wideo, a także pozwala na korzystanie z wielu połączonych narzędzi.

Słuchaj podcastu NowyMarketing

Gemini 2.0 w aplikacji

Użytkownicy Gemini na całym świecie mogą też korzystać ze zoptymalizowanej pod kątem czatu eksperymentalnej wersji modelu 2.0 Flash, wybierając go w menu w aplikacji internetowej na komputerze lub telefonie. Wkrótce będzie on również dostępny w aplikacji mobilnej Gemini.

NowyMarketing logo
Mamy newsletter, który rozwija marketing w Polsce. A Ty czytasz?
Rozwijaj się

Na początku przyszłego roku Gemini 2.0 pojawi się w kolejnych usługach Google.

Funkcje agentów AI w modelu Gemini 2.0

Wszystkie funkcje modelu Gemini 2.0 Flash – takie jak natywna obsługa działań w interfejsie użytkownika, analiza multimodalna, rozumienie długiego kontekstu, śledzenie i planowanie skomplikowanych instrukcji, wywoływanie złożonych funkcji, natywne wykorzystanie narzędzi czy mniejsze opóźnienia – współpracują ze sobą, aby zapewnić dostęp do nowej klasy możliwości związanych z agentami AI.

Praktyczne wdrożenie agentów AI stwarza wiele możliwości. Google prowadzi w tym zakresie badania, wykorzystując różne prototypy, które mogą ułatwić użytkownikom wykonywanie zadań i realizację celów. Wśród nich jest na przykład nowa wersja prototypu Project Astra, w którym Google bada możliwość wdrożenia w przyszłości uniwersalnego asystenta AI. Kolejne prototypy to Project Mariner, w ramach którego sprawdzane jest, jak mogą wyglądać interakcje między człowiekiem a agentem AI (na początek w przeglądarce) oraz Jules, oparty na AI agent kodujący, który może pomagać deweloperom.

Project Astra

Od zaprezentowania prototypu Project Astra na konferencji I/O Google zbiera opinie testerów korzystających z tego rozwiązania na telefonach z Androidem. Dzięki ich uwagom, udało się już lepiej zrozumieć, jak w praktyce mógłby działać uniwersalny asystent AI, biorąc pod uwagę także kwestie dotyczące bezpieczeństwa i etyki.

Oto ulepszenia, które Google wprowadziło w najnowszej wersji z Gemini 2.0:

  • Lepsze rozmowy: Project Astra może teraz rozmawiać w wielu językach oraz mieszając języki. Lepiej rozpoznaje też akcenty i nietypowe słowa.
  • Obsługa nowych narzędzi: dzięki modelowi Gemini 2.0 prototyp Project Astra może korzystać z wyszukiwarki Google, Obiektywu oraz Map, co sprawia, że może być znacznie bardziej przydatny na co dzień jako asystent.
  • Lepsza pamięć: Project Astra ma teraz rozszerzone możliwości zapamiętywania informacji, ale jednocześnie zapewnia użytkownikowi pełną kontrolę. Potrafi teraz zapamiętać informacje z 10 minut podczas sesji oraz przypominać sobie informacje z wcześniejszych rozmów, co pozwala na lepszą personalizację.
  • Mniejsze opóźnienia: nowe funkcje strumieniowania i natywnego rozpoznawania dźwięków pozwalają agentowi na rozumienie mowy w sposób zbliżony do człowieka.

Google pracuje nad wprowadzeniem tych funkcji do usług Google takich jak aplikacja Gemini, czyli do asystenta AI, ale chce je także wdrożyć na innych platformach – np. na okularach.

Project Mariner

Project Mariner to wczesny prototyp badawczy zbudowany przy użyciu Gemini 2.0, który bada przyszłość interakcji między człowiekiem a agentem, zaczynając od przeglądarki. Jako prototyp badawczy jest w stanie zrozumieć i przeanalizować informacje znajdujące się na ekranie przeglądarki, w tym piksele i elementy internetowe, takie jak tekst, kod, obrazy i formularze, a następnie wykorzystuje te informacje za pośrednictwem eksperymentalnego rozszerzenia Chrome do wykonywania zadań za użytkownika.

W teście porównawczym WebVoyager, który służy do oceny wydajności agentów w wykonywaniu kompleksowych zadań internetowych w świecie rzeczywistym, Project Mariner osiągnął znakomity wynik 83,5%, działając w trybie pojedynczego agenta.

Jest jeszcze wcześnie, ale Project Mariner pokazuje, że nawigacja w przeglądarce staje się technicznie możliwa, i chociaż obecnie agent nie zawsze jest dokładny i wykonuje zadania powoli, to z czasem jego działanie ulegnie szybkiej poprawie.

Aby budować to rozwiązanie bezpiecznie i odpowiedzialnie, Google prowadzi aktywne badania nad nowymi rodzajami ryzyka i środkami zaradczymi, jednocześnie nie wykluczając udziału ludzi. Przykładowo, Project Mariner może pisać, przewijać lub klikać tylko w aktywnej karcie przeglądarki i prosi użytkownika o ostateczne potwierdzenie przed podjęciem pewnych wrażliwych działań, takich jak zakup.

Jules

Kolejną kwestią, jaką bada Google jest to, w jaki sposób agenci AI mogą pomóc deweloperom, przy użyciu Jules – eksperymentalnego agenta kodującego, opartego na sztucznej inteligencji, który jest zintegrowany bezpośrednio z przepływem pracy platformy GitHub. Potrafi on rozwiązywać problemy, opracowywać plany i je realizować, a wszystko to pod kierunkiem i nadzorem dewelopera. Projekt ten jest częścią długoterminowego celu stworzenia agentów AI, którzy będą pomocni we wszystkich dziedzinach, w tym w kodowaniu.

Agenci w grach i innych dziedzinach

Google DeepMind ma długą historię używania gier do pomagania modelom sztucznej inteligencji w nauce przestrzegania zasad, planowania i logiki. Ostatnio Google wprowadziło Genie 2, model sztucznej inteligencji, który może tworzyć nieskończoną liczbę grywalnych światów 3D – wszystkie na podstawie jednego obrazu. Bazując na tej tradycji, stworzono agentów używających Gemini 2.0, którzy mogą pomóc użytkownikowi w poruszaniu się po wirtualnym świecie gier wideo. Agenci potrafią wyciągać wnioski na temat gry, wyłącznie w oparciu o akcję na ekranie i sugerować w rozmowie w czasie rzeczywistym. co robić dalej.

Google współpracuje z wiodącymi twórcami gier, takimi jak Supercell, aby zbadać, jak działają ci agenci, testując ich zdolność do interpretowania zasad i wyzwań w różnych grach – od strategii, takich jak „Clash of Clans”, po gry farmerskie, np. „Hay Day”

Poza pełnieniem roli wirtualnych towarzyszy w grach, agenci ci mogą korzystać z wyszukiwarki Google, aby zapewnić graczowi dostęp do bogatej wiedzy na temat gier w Internecie.

Oprócz badania możliwości agentów w świecie wirtualnym Google eksperymentuje z agentami, którzy mogą pomóc w świecie fizycznym, stosując możliwości rozumowania przestrzennego Gemini 2.0 w robotyce.

Odpowiedzialne budowanie w erze agentów

Gemini 2.0 Flash i prototypy badawcze pozwalają Google testować i ulepszać nowe funkcje w czołówce badań nad sztuczną inteligencją, które ostatecznie sprawią, że produkty Google będą bardziej pomocne.

Rozwijając te nowe technologie, Google zdaje sobie sprawę z odpowiedzialności, jaka się z tym wiąże, a także z wielu pytań, jakie korzystanie z agentów AI nasuwa w zakresie bezpieczeństwa i ochrony. Dlatego też przyjęto eksploracyjne i stopniowe podejście do rozwoju, prowadząc badania nad wieloma prototypami, wdrażając kolejne szkolenia w zakresie bezpieczeństwa, współpracując z zaufanymi testerami i ekspertami zewnętrznymi, a także przeprowadzając szeroko zakrojone oceny ryzyka i bezpieczeństwa.

Na przykład:

  • W ramach procesu bezpieczeństwa Google współpracuje z Komitetem ds. Odpowiedzialności i Bezpieczeństwa (RSC), istniejącą od wielu lat wewnętrzną grupą kontrolną, aby zidentyfikować i zrozumieć potencjalne zagrożenia.
  • Możliwości rozumowania Gemini 2.0 umożliwiły znaczny postęp w podejściu Google opartym na red teamingu z wykorzystaniem sztucznej inteligencji, w tym poszerzenie zwykłego wykrywania zagrożeń o automatyczne generowanie ocen i danych szkoleniowych w celu ich ograniczenia. Oznacza to, że Google może skuteczniej optymalizować model pod kątem bezpieczeństwa na dużą skalę.
  • Ponieważ multimodalność Gemini 2.0 zwiększa złożoność potencjalnych danych wyjściowych, Google będzie nadal oceniać i szkolić dane wyjściowe obrazu i dźwięku modeli, aby zwiększać bezpieczeństwo.
  • W ramach projektu Project Astra Google bada potencjalne środki zaradcze przeciwko niezamierzonemu udostępnianiu przez użytkowników wrażliwych informacji agentowi. Wbudowano także mechanizmy kontroli prywatności, które ułatwiają użytkownikom usuwanie sesji. Kontynuowane są również badania nad sposobami zapewnienia, że agenci AI działają jako wiarygodne źródła informacji i nie podejmują niezamierzonych działań w imieniu użytkownika.
  • W ramach projektu Project Mariner Google pracuje nad tym, aby model nauczył się nadawać priorytet instrukcjom użytkownika nad próbami wstrzyknięcia monitu przez osoby trzecie, aby potrafił zidentyfikować potencjalnie złośliwe instrukcje ze źródeł zewnętrznych i zapobiegał nadużyciom. Pozwala to uniknąć narażenia użytkowników na oszustwa i próby phishingu przez m.in. złośliwe instrukcje ukryte w wiadomościach e-mail, dokumentach lub witrynach internetowych.

źródło: mat. prasowe, opracowanie: Agata Drynko