Języki o niskich zasobach w cyfrowej rzeczywistości – relacja z międzynarodowej konferencji w Wilnie

W dniach 16–17 kwietnia 2026 roku w Wilnie odbyła się międzynarodowa konferencja naukowa pt. „Linguistic Variation in the Contemporary Sociocultural Context”. Wydarzenie to stało się platformą wymiany myśli dla językoznawców i socjologów, jednak z perspektywy współczesnych wyzwań technologicznych, dwa wystąpienia naszych badaczy nabrały szczególnego znaczenia. Były to jedyne referaty podczas całego wydarzenia, które bezpośrednio dotyczyły problematyki języków o niskich zasobach (low-resource languages).

Wyzwania technologiczne, czyli ochrona przed „homogenizacją językową”

Zespół badawczy w składzie dr hab. Roman Roszko, prof. IS PAN, dr hab. Danuta Roszko oraz dr Piotr Szatkowski zaprezentował wyniki prac nad budową specjalistycznych korpusów dla mazurskiego etnolektu oraz litewskiej gwary puńskiej w Polsce.

W dobie gwałtownej ekspansji dużych modeli generatywnych (LLM), badacze zwrócili uwagę na zjawisko „homogenizacji językowej”. Dominacja języków wysokozasobowych w zbiorach treningowych AI sprawia, że specyficzne struktury mniejszych odmian są wypierane przez kalki i uproszczenia.

Kluczowe aspekty projektu to:

  • Problemy normalizacji zasobów oraz utworzenie właściwych potoków przetwarzania

Ze względu na brak ujednoliconej ortografii w tekstach dialektalnych, konieczne było stworzenie zaawansowanych potoków przetwarzania (pipelines), obejmujących m.in. czyszczenie tzw. szumu ortograficznego i pełną korektę merytoryczną.

  • Infrastruktura CLARIN-PL i CLARIN-PL-BIZ-Bis

Prace są realizowane w ramach rozszerzonej infrastruktury CLARIN-PL, co pozwala na przygotowanie danych w standardach interoperacyjnych (TMX, TSV, JSON), gotowych do integracji z systemami takimi jak „KonText”.

  • Benchmarking

Projekt zakłada stworzenie zamkniętych zestawów testowych, które pozwolą obiektywnie ocenić, jak współczesne modele AI radzą sobie z rozumieniem i generowaniem tekstów w tych konkretnych odmianach języka.

Perspektywa socjolingwistyczna, czyli czy szkoła uratuje język?

Dopełnieniem technologicznego spojrzenia na wielojęzyczność była analiza mgr. Andrzeja Żaka, dotycząca sytuacji języka kaszubskiego. Badacz posłużył się terminem języka kolateralnego – odmiany, której status językowy był historycznie kwestionowany, a dziś, mimo uznania prawnego, zmaga się z wyzwaniami rewitalizacyjnymi.

Główne wnioski z badań to:

  • Paradoks edukacyjny

Mimo 30 lat nauczania kaszubszczyzny w szkołach i posiadania statusu jedynego języka regionalnego w Polsce, statystyki wskazują na spadek liczby aktywnych użytkowników.

  • Bariery pozasystemowe

Analiza wywiadów socjolingwistycznych wykazała, że kluczowymi przeszkodami są czynniki psychologiczne i ideologiczne, takie jak niski prestiż społeczny języka oraz głęboko zakorzenione poczucie wstydu u starszych pokoleń.

  • Strategia na przyszłość

Badanie dowodzi, że sama instytucjonalizacja (szkoła, urzędy) jest niewystarczająca. Do przetrwania języka niezbędna jest zmiana postaw społecznych i budowanie nowej, pozytywnej tożsamości językowej.

Wyjazd mgr. A. Żaka był finansowany z grantu NCN SONATA BIS prof. Nicole Dołowy „Różnorodność językowa w Polsce: języki kolateralne, działania na rzecz języków i konceptualizacja tożsamości zbiorowej” (2020/38/E/HS2/00006).

Podsumowanie, czyli o roli projektów CLARIN-PL i CLARIN-PL-BIZ-Bis w ochronie dziedzictwa

Wystąpienia te wyraźnie pokazały, że ochrona mniejszych odmian języka w XXI wieku musi przebiegać dwutorowo. Z jednej strony niezbędna jest zaawansowana inżynieria językowa, realizowana w ramach projektów takich jak CLARIN-PL-BIZ-Bis, która wprowadza te języki do obiegu cyfrowego. Z drugiej strony konieczna jest refleksja socjolingwistyczna, która pozwoli zrozumieć ludzki kontekst ich używania.

Fakt, że tematyka języków o niskich zasobach została podjęta w Wilnie niemal wyłącznie przez naszych przedstawicieli, podkreśla wiodącą rolę Instytutu Slawistyki PAN i konsorcjum CLARIN-PL oraz CLARIN-PL-BIZ-Bis w definiowaniu kierunków nowoczesnej humanistyki cyfrowej. Bez aktywnego tworzenia zasobów danych, mniejsze etnolety są narażone na cyfrowe wykluczenie i rozpłynięcie się w niebycie w świecie rządzonym przez algorytmy.

Projekt „CLARIN – Wspólne zasoby językowe i infrastruktura technologiczna” jest finansowany z Drugiego Priorytetu Programu Fundusze Europejskie dla Nowoczesnej Gospodarki 2021–2027 (FENG). Skład konsorcjum: Politechnika Wrocławska (lider), Instytut Podstaw Informatyki PAN, Instytut Slawistyki PAN, Uniwersytet Łódzki, Uniwersytet Wrocławski.

Prof. Roman Roszko podczas wygłaszania referatu. Fot. archiwum prywatne.
Mgr Andrzej Żak podczas wygłaszania referatu. Fot. archiwum prywatne.
Instytut Slawistyki Polskiej Akademii Nauk

Korzystając z witryny wyrażasz zgodę na używanie tzw. ciasteczek (cookies), zgodnie z aktualnymi ustawieniami przeglądarki. Polityka prywatności

The cookie settings on this website are set to "allow cookies" to give you the best browsing experience possible. If you continue to use this website without changing your cookie settings or you click "Accept" below then you are consenting to this.

Close