CLARIN-PL-BIZ - Instytut Slawistyki Polskiej Akademii Nauk

CLARIN-PL-BIZ

Projekt „CLARIN – Wspólne zasoby językowe i infrastruktura technologiczna” (Nr FENG.02.04-IP.04-0004/24) finansowany z Drugiego Priorytetu Programu Funduszy Europejskich dla Nowoczesnej Gospodarki 2021–2027 (FENG)

Instytut Slawistyki PAN realizuje w ramach konsorcjum CLARIN-PL-BIZ projekt „CLARIN – Wspólne zasoby językowe i infrastruktura technologiczna” (Nr FENG.02.04-IP.04-0004/24) finansowany z Drugiego Priorytetu Programu Funduszy Europejskich dla Nowoczesnej Gospodarki 2021–2027 (FENG). Całkowita wartość projektu wynosi 61.141.241,03 zł, w tym wysokość wkładu Funduszy Europejskich to 48.669.499,44 zł. Do prac nad projektem Instytut Slawistyki przystąpił 1 stycznia 2025 r.

W skład konsorcjum naukowego CLARIN-PL-BIZ wchodzą następujące instytucje badawcze:

Politechnika Wrocławska (Lider Projektu; osoba odpowiedzialna: prof. PWr Maciej Piasecki)
Instytut Podstaw Informatyki PAN (prof. IPI PAN Maciej Ogrodniczuk)
Instytut Slawistyki PAN ( Dr hab. Roman Roszko, prof. IS PAN )
Uniwersytet Łódzki (prof. UŁ Piotr Pęzik)
Uniwersytet Wrocławski (prof. Adam Pawłowski)

Aktualności

Zespół Semantyki i Lingwistyki Komputerowej w Katowicach

Cele CLARIN-PL-BIZ

Celem Projektu jest rozwój narzędzi i rozwiązań wspierających zarówno naukowców, jak i przedsiębiorców w dostępie do zaawansowanych zasobów językowych i technologicznych. Trzonem wszystkich zadań projektowych jest rozszerzenie infrastruktury badawczej CLARIN-PL powstałej w wyniku poprzednich projektów: CLARIN-PL-BIZ (POIR 4.2, zakończony w roku 2023), CLARIN-PL I, CLARIN-PL II, CLARIN-PL IIII, CLARIN-PL IV oraz obecnie realizowanego CLARIN-PL V (2024–2026).

Prace projektowe są zogniskowane na dalszym usprawnianiu wsparcia dla badaczy w obszarach badań naukowych i działań innowacyjnych. Obejmują między innymi:

Analitykę zbiorów – rozwój narzędzi i metod do analizy dużych zbiorów danych.
Dane językowe – rozbudowę i ulepszenie istniejących danych językowych oraz zwiększenie dostępności do zawartej w nich wiedzy.
Wydobywanie informacji – rozwinięcie technik wydobywania kluczowych informacji.
Rozwiązania spersonalizowane – tworzenie rozwiązań uwzględniających różnorodne perspektywy postrzegania.
Naturalna i efektywna komunikacja – opracowanie rozwiązań dla naturalnej i skutecznej komunikacji w języku naturalnym.
Tworzenie korpusów językowych – tworzenie baz danych z tekstami w różnych językach.

Zadania Zespołu Instytutu Slawistyki PAN w CLARIN-PL-BIZ

Zespół Semantyki i Lingwistyki Komputerowej Instytutu Slawistyki PAN (Zespół SiLK) pod kierunkiem dr. hab. Romana Roszko, prof. IS PAN, w ramach Projektu realizuje szereg zadań, stosując nowoczesne technologie do głębszego zrozumienia języka oraz poprawy jakości komunikacji w przestrzeni cyfrowej. Skupia się na tworzeniu zaawansowanych danych ewaluacyjnych i testowych (referencyjnych), przeznaczonych do oceny i testowania generatywnych modeli językowych z dziedzin takich jak: weterynaria, indoeuropeistyka, literatura, historia, dialektologia polska i inne.

Praktyczne zastosowanie tworzonych przez Zespół SiLK organicznych zasobów danych tekstowych to przede wszystkim wykorzystanie ich w benchmarkach do głębokiego testowania jakości generatywnych modeli językowych. Te dane są kluczowe dla ewaluacji i rozwoju nowoczesnych rozwiązań w dziedzinie przetwarzania języka naturalnego.

Skład Zespołu Semantyki i Lingwistyki Komputerowej Instytutu Slawistyki PAN:

Roman Roszko (kierownik, lingwista),
Karolina Bernaś (lekarka weterynarii),
Tomasz Bernaś (informatyk i lingwista),
Magdalena Gardias (lingwistka),
Karol Kościelniak (historyk),
Piotr Szatkowski (lingwista),
Valéry Trân Thiên (informatyk i lingwista).