Bielik v2 – polski model językowy - NowyMarketing

Rozmiar i poziom zaawanasowania rozwoju modelu umiejscawia Bielika we wciąż niewielkim gronie narodowych modeli językowych będących w stanie zasilić rozwiązania sztucznej inteligencji (SI).

SpeakLeash – grupa pasjonatów i twórców Bielika

SpeakLeash to fundacja, która połączyła ludzi bardzo różnych profesji – zarówno technicznych, jak i nie operujących kodem. Ta grupa entuzjastów technologii, wzorując się na zagranicznych inicjatywach typu The Pile, początkowo postawiła sobie za cel stworzenie największego polskiego zbioru danych tekstowych wykorzystywanych przez modele sztucznej inteligencji. Z czasem, projekt rozrósł się do skali widzianej dzisiaj – tworzenia pełnoprawnego, polskiego, dużego modelu językowego.

Zobacz również

W skład zespołu projektowego wchodzą przede wszystkim pracownicy polskich przedsiębiorstw wszelkiego rozmiaru, badacze z ośrodków naukowych, oraz studenci kierunków związanych z obszarami sztucznej inteligencji i językoznastwa. Prace zespołu trwały ponad rok. Ich pierwotny zakres obejmował m.in. zbieranie danych, ich przetwarzanie oraz klasyfikację. Następnie poszerzył się on o kompletne budowanie i trenowanie modelu.

– Najtrudniejsze zadanie polegało na pozyskaniu danych w języku polskim. Musimy operować wyłącznie na danych źródłowych, co do których mamy pewność, jakie jest ich pochodzenie – tłumaczy pomysłodawca Bielika, Sebastian Kondracki ze SpeakLeash.

Aktualnie, zasoby fundacji SpeakLeash są największym, najlepiej opisanym i udokumentowanym zbiorem danych tekstowych w języku polskim.

Iga Świątek wraca w nowej odsłonie OSHEE „Hydrate for Great Moments”

Helios i Athena – moce obliczeniowa dla nauki

Superkomputery z Akademickiego Centrum Komputerowego Cyfronet AGH pozwoliły projektowi Bielik rozwinąć skrzydła. Współpraca kadry z Akademii Górniczo-Hutniczej w Krakowie z fundacją SpeakLeash polega nie tylko na udostępnieniu zasobów superkomputerów do przetwarzania dużych ilości danych tekstowych, ale także uwzględnia m.in. testowanie modelu językowego we współpracy z zespołem ACK.

Słuchaj podcastu NowyMarketing

Moc obliczeniowa Heliosa i Atheny w tradycyjnych symulacjach komputerowych wynosi łącznie ponad 44 PFLOPS, a dla obliczeń z zakresu sztucznej inteligencji w niższej precyzji aż 2 EFLOPS. Jest to wynik znacznie przewyższający zdolności większości europejskkich superkomputerów – z Niemiec, Szwajcarii, czy Luksemburgu. Jedynie Hiszpania, Włochy, oraz Finlandia mają do dyspozycji potężniejsze maszyny.

Bielik a chat GPT – podstawowe różnice

Zbiór danych zasilających Bielika cały czas rośnie, jednak trudno będzie nam się ścigać z zasobami wykorzystywanymi przez inne modele, które funkcjonują w języku angielskim. Poza tym liczba treści w internecie, która funkcjonuje w języku polskim jest znacznie mniejsza niż w angielskim – wyjaśniają twórcy.

Wersja Bielika, którą otrzymują do testów użytkownicy jest utrzymywana nieodpłatnie w domenie publicznej (czyli przeciwieństwie „closed source” – Open Source). Oznacza to, że każda zainteresowana strona posiada pełen dostęp do kodu źródłowego oraz instrukcji, wobec których operuje. Autorzy, stale pracując nad udoskonaleniem Bielika, udostępnili, oprócz pełnych wersji opracowanych modeli, także całą gamę wersji skwantyzowanych, które umożliwiają uruchomienie modelu na własnym komputerze. Instalacja Bielika i przetwarzanie danych na dedykowanej maszynie daje pewność, że żadna trzecia strona nie otrzyma do nich dostępu. Co więcej, wytrenowanie modelu głównie na treściach polskojęzycznych zwiększa możliwości rozumienia i przetwarzania naszego języka narodowego i zawartego w nim rodzimej kultury oraz charakterystyki społeczeństwa.

– Warto wiedzieć, że Bielik będzie bardzo dobrze sprawdzał się w zakresie np. streszczania treści. Już w tym momencie nasz model ma swoją użyteczność w obszarze naukowym oraz biznesowym. Może służyć na przykład do usprawnienia komunikacji z użytkownikami podczas obsługi zgłoszeń w Helpdesku – wyjaśnia Szymon Mazurek z ACK Cyfronet AGH.

Zdjęcie główne: LinkedIn