PLLuM - Instytut Slawistyki Polskiej Akademii Nauk

Aktualności

Pierwszy otwarty polski wielki model językowy

29 listopada 2023 roku sześć wiodących polskich instytucji naukowych, skupiających ekspertów z wielu dziedzin, utworzyło konsorcjum PLLuM, którego nadrzędnym celem jest stworzenie pierwszego polskiego wielkiego i zarazem otwartego modelu językowego. W skład konsorcjum wchodzą: Politechnika Wrocławska (PWr, lider projektu), Państwowy Instytut Badawczy NASK (PIB NASK), Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy (OPI PIB), Instytut Podstaw Informatyki Polskiej Akademii Nauk (IPI PAN), Uniwersytet Łódzki (UŁ) oraz Instytut Slawistyki Polskiej Akademii Nauk (IS PAN).

Prace nad modelem ruszyły w styczniu 2024 na mocy Decyzji Prezesa Rady Ministrów DGT.06124.6.2023 z dnia 8-1-2024 w sprawie realizacji projektu „Odpowiedzialny rozwój otwartego dużego modelu językowego PLLuM (Polish Large Language Universal Model) w celu wspierania technologii przełomowych w sektorze publicznym i gospodarczym, w tym otwartego, polskojęzycznego inteligentnego asystenta petenta”. Udostępnienie pierwszych efektów prac jest planowane na koniec roku 2024.

Wielkie generatywne modele językowe (LLMs) są na ustach wszystkich, którzy zachłysnęli się możliwościami oferowanymi przez platformy sztucznej inteligencji. Tego typu modele (jak ChatGPT) są płatne i zamknięte. Charakteryzują się ograniczoną funkcjonalność wynikającą z niedostatecznego treningu na konkretnych modelach dla poszczególnych języków. Dlatego alternatywą dla tego typu modeli może być powstający model PLLuM, narzędzie, które nauczy maszyny cyfrowe „myśleć” i odpowiadać po polsku. Nasz w pełni otwarty model PLLuM zostanie „nakarmiony” wiarygodnymi polskimi danymi językowymi silnie posadowionymi na polskich realiach kulturowych czy historycznych. PLLuM, w odróżnieniu od innych modeli, nie będzie zawierać danych wrażliwych, treści szkodliwych, wulgarnych, obraźliwych czy nieprawdziwych.

Naszym bezpiecznym modelem zamierzamy zwiększyć innowacyjność i konkurencyjność polskiego sektora naukowego, technologicznego, administracyjnego oraz biznesowego. W pierwszej kolejności – zgodnie z zaleceniem Ministerstwa Cyfryzacji – przystosujemy nasz model do zastosowań w administracji publicznej (inteligentne wsparcie petenta i administracji publicznej), a każdy zainteresowany modelem PLLuM będzie miał dostęp do niego dostęp na otwartej licencji za pośrednictwem interfejsów: programistycznego API i graficznego GUI.

Koordynatorem prac z ramienia Instytutu Slawistyki PAN jest prof. IS PAN dr hab. Roman Roszko, członek Rady Konsorcjum PLLuM, kierujący międzynarodowym Zespołem Semantyki i Lingwistyki Korpusowej.

Czym są modele językowe?

Są to matematyczne obrazy języków naturalnych, definiujące prawdopodobieństwo wystąpienia różnych sekwencji słów w języku (mówionym / pisanym). Oznacza to, że modele językowe pozwalają kontekstowo i sytuacyjnie przewidywać wystąpienie sekwencji słów w zdaniach, zdań – w akapitach, akapitów – w tekście. W efekcie odbiorca / człowiek generowanych w oparciu o modele językowe tekstów odnosi wrażenie, że maszyna „myśli” i zachowuje się jak człowiek. A tak naprawdę maszyna w ściśle zdefiniowanym procesie dokonuje kompilacji na poziomie formalnym, warunkowanych wcześniej ustalonymi w samym modelu algorytmami, schematami czy instrukcjami.