Premiera nowych modeli językowych PLLuM - Instytut Slawistyki Polskiej Akademii Nauk

Z radością informujemy o udostępnieniu 11 nowych modeli PLLuM. Ich największą zaletą jest znakomita znajomość języka polskiego, w tym stylu urzędowego, a także głębokie rozumienie rodzimego kontekstu kulturowego, historycznego i prawnego. Modele stanowią wsparcie dla administracji publicznej, biznesu oraz użytkowników indywidualnych. Co ważne, zostały one opublikowane na otwartych licencjach, w pełni zgodnych z wymogami AI Act.

Specyfika nowych modeli PLLuM

Nowe warianty PLLuM mogą znacząco zwiększyć efektywność pracy administracji publicznej. Potrafią generować teksty w ponad 20 gatunkach urzędowych, wspierać zadania biurowe i operacyjne, interpretować kontekst procedur administracyjnych, upraszczać skomplikowany język pism oraz pracować na wzorach dokumentów prawnych.

Na podstawie analizy rzeczywistych interakcji użytkowników z PLLuM Chat opracowano również mechanizmy pozwalające na generowanie bezpieczniejszych i bardziej precyzyjnych odpowiedzi.

Cztery wielkości modeli

Nowa rodzina modeli obejmuje cztery rozmiary, w tym odświeżone wersje 8B, 12B i 70B oraz zupełnie nową kategorię 4B:

4B – najmniejsze i najszybsze o niskich wymaganiach obliczeniowych, które najlepiej sprawdzą się przy dostosowaniu do konkretnego zadania.
8B i 12B – stanowią dobry kompromis między szybkością działania a jakością odpowiedzi, dzięki czemu są zalecane do wdrożeń produkcyjnych, np. jako silnik systemów RAG-owych.
70B – największy i najbardziej zaawansowany model, który najlepiej radzi sobie ze złożonymi zadaniami bez konieczności dodatkowego dostosowania.

Wszystkie wersje udostępniono na otwartych licencjach z pełną dokumentacją zgodną z AI Act, obejmującą opis modeli, źródła danych oraz metody treningu i oceny jakości.

Trening modeli

Modele zostały opracowane w 2025 roku na zlecenie i ze środków Ministerstwa Cyfryzacji w ramach projektu HIVE AI, który realizowało konsorcjum w składzie: NASK PBI (lider), (alfabetycznie) ACK Cyfronet AGH, Centralny Ośrodek Informatyki, Instytut Podstaw Informatyki PAN, Instytut Slawistyki PAN, OPI PIB, Politechnika Wrocławska oraz Uniwersytet Łódzki.

Proces treningowy oparto na nowym, bogatym i zróżnicowanym zbiorze materiałów tekstowych. Dane te zgromadzono legalnie – pozyskano je na podstawie umów licencyjnych, z domeny publicznej oraz zasobów dostępnych na licencjach Creative Commons.

Z ramienia Instytutu Slawistyki PAN projekt koordynował dr hab. Roman Roszko, prof. IS PAN, a w skład zespołu realizującego zadania weszli mgr Tomasz Bernaś oraz mgr Valéry Trân Thiên, łączący kompetencje informatyczne i językoznawcze.

Informacja o premierze nowych modeli dostępna jest również na stronie Ministerstwa Cyfryzacji.