Bielik v2 – polski model językowy

Bielik v2 – polski model językowy
W wyniku prac zespołu Fundacji SpeakLeash oraz Akademickiego Centrum Komputerowego Cyfronet AGH, powstał Bielik. Polski duży model językowy kategorii LLM (ang. Large Language Model) posiadający już 11 miliardów parametrów.
O autorze
2 min czytania 2024-08-30

Rozmiar i poziom zaawanasowania rozwoju modelu umiejscawia Bielika we wciąż niewielkim gronie narodowych modeli językowych będących w stanie zasilić rozwiązania sztucznej inteligencji (SI).

SpeakLeash – grupa pasjonatów i twórców Bielika

SpeakLeash to fundacja, która połączyła ludzi bardzo różnych profesji – zarówno technicznych, jak i nie operujących kodem. Ta grupa entuzjastów technologii, wzorując się na zagranicznych inicjatywach typu The Pile, początkowo postawiła sobie za cel stworzenie największego polskiego zbioru danych tekstowych wykorzystywanych przez modele sztucznej inteligencji. Z czasem, projekt rozrósł się do skali widzianej dzisiaj – tworzenia pełnoprawnego, polskiego, dużego modelu językowego.

W skład zespołu projektowego wchodzą przede wszystkim pracownicy polskich przedsiębiorstw wszelkiego rozmiaru, badacze z ośrodków naukowych, oraz studenci kierunków związanych z obszarami sztucznej inteligencji i językoznastwa. Prace zespołu trwały ponad rok. Ich pierwotny zakres obejmował m.in. zbieranie danych, ich przetwarzanie oraz klasyfikację. Następnie poszerzył się on o kompletne budowanie i trenowanie modelu.

– Najtrudniejsze zadanie polegało na pozyskaniu danych w języku polskim. Musimy operować wyłącznie na danych źródłowych, co do których mamy pewność, jakie jest ich pochodzenie – tłumaczy pomysłodawca Bielika, Sebastian Kondracki ze SpeakLeash.

LinkedIn logo
Na LinkedInie obserwuje nas ponad 100 tys. osób. Jesteś tam z nami?
Obserwuj

Aktualnie, zasoby fundacji SpeakLeash są największym, najlepiej opisanym i udokumentowanym zbiorem danych tekstowych w języku polskim.

Helios i Athena – moce obliczeniowa dla nauki

Superkomputery z Akademickiego Centrum Komputerowego Cyfronet AGH pozwoliły projektowi Bielik rozwinąć skrzydła. Współpraca kadry z Akademii Górniczo-Hutniczej w Krakowie z fundacją SpeakLeash polega nie tylko na udostępnieniu zasobów superkomputerów do przetwarzania dużych ilości danych tekstowych, ale także uwzględnia m.in. testowanie modelu językowego we współpracy z zespołem ACK.

Słuchaj podcastu NowyMarketing

Moc obliczeniowa Heliosa i Atheny w tradycyjnych symulacjach komputerowych wynosi łącznie ponad 44 PFLOPS, a dla obliczeń z zakresu sztucznej inteligencji w niższej precyzji aż 2 EFLOPS. Jest to wynik znacznie przewyższający zdolności większości europejskkich superkomputerów – z Niemiec, Szwajcarii, czy Luksemburgu. Jedynie Hiszpania, Włochy, oraz Finlandia mają do dyspozycji potężniejsze maszyny.

NowyMarketing logo
Mamy newsletter, który rozwija marketing w Polsce. A Ty czytasz?
Rozwijaj się

Bielik a chat GPT – podstawowe różnice

Zbiór danych zasilających Bielika cały czas rośnie, jednak trudno będzie nam się ścigać z zasobami wykorzystywanymi przez inne modele, które funkcjonują w języku angielskim. Poza tym liczba treści w internecie, która funkcjonuje w języku polskim jest znacznie mniejsza niż w angielskim – wyjaśniają twórcy.

Wersja Bielika, którą otrzymują do testów użytkownicy jest utrzymywana nieodpłatnie w domenie publicznej (czyli przeciwieństwie „closed source” – Open Source). Oznacza to, że każda zainteresowana strona posiada pełen dostęp do kodu źródłowego oraz instrukcji, wobec których operuje. Autorzy, stale pracując nad udoskonaleniem Bielika, udostępnili, oprócz pełnych wersji opracowanych modeli, także całą gamę wersji skwantyzowanych, które umożliwiają uruchomienie modelu na własnym komputerze. Instalacja Bielika i przetwarzanie danych na dedykowanej maszynie daje pewność, że żadna trzecia strona nie otrzyma do nich dostępu. Co więcej, wytrenowanie modelu głównie na treściach polskojęzycznych zwiększa możliwości rozumienia i przetwarzania naszego języka narodowego i zawartego w nim rodzimej kultury oraz charakterystyki społeczeństwa.

– Warto wiedzieć, że Bielik będzie bardzo dobrze sprawdzał się w zakresie np. streszczania treści. Już w tym momencie nasz model ma swoją użyteczność w obszarze naukowym oraz biznesowym. Może służyć na przykład do usprawnienia komunikacji z użytkownikami podczas obsługi zgłoszeń w Helpdesku – wyjaśnia Szymon Mazurek z ACK Cyfronet AGH.

Zdjęcie główne: LinkedIn