Clarin-PL jest częścią ogólnoeuropejskiej infrastruktury naukowej CLARIN (Common Language Resources & Technology Infrastructure).
Celem Clarin-PL jest budowa infrastruktury badawczej, przynoszącej konkretne rezultaty naukowcom z dziedzin nauk humanistycznych i społecznych, rozbudowa i utrzymanie polskiego węzła infrastruktury Clarin ERIC, rozbudowa podstawowych technologii dla języka polskiego oraz badania w zakresie inżynierii języka i lingwistyki informatycznej.

 

Szczegółowa informacja na temat projektu, zadań, narzędzi znajduje się na stronach Clarin-PL.

 

***

 

Instytut Slawistyki PAN wraz z Politechniką Wrocławską (instytucja koordynująca), Instytutem Podstaw Informatyki PAN, Polsko-Japońską Wyższą Szkołą Technik Komputerowych, Uniwersytetem Łódzkim oraz Uniwersytetem Wrocławskim tworzy polską część struktury Clarin.

Pracownicy Instytutu Slawistyki PAN dotychczas stworzyli wielojęzyczne bazy tekstów współczesnych dla języków: polskiego, bułgarskiego, litewskiego i rosyjskiego.

 

Bazy o łącznej objętości 18MB są udostępnione w cyfrowym repozytorium Clarin-PL:

 

Polish-Bulgarian-Russian Parallel Corpus
Polish-Lithuanian Parallel Corpus

 

W pracach nad polsko-bułgarsko-rosyjską bazą tekstów współczesnych uczestniczyli: Anna Kisiel, Violetta Koseska-Toszewa, Natalia Kotsyba, Joanna Satoła-Staśkowiak i Wojciech Sosnowski. W pracach nad polsko-litewską bazą tekstów współczesnych uczestniczyli: Danuta Roszko i Roman Roszko.

Obecnie zespół Instytutu Slawistyki PAN w składzie Maksim Duškin, Joanna Satoła-Staśkowiak, Danuta Roszko, Roman Roszko, Wojciech Sosnowski i Roman Tymoshuk opracowują rozszerzoną wersję wielojęzycznego anotowanego korpusu, którego trzon stanowi język polski. Głównym celem zespołu Instytutu Slawistyki PAN na lata 2016-2018 jest integracja zasobów wielojęzycznych zbudowanych w CLARIN-PL z zasobami światowymi, ich dalszy rozwój i dostosowanie ich funkcjonalności na potrzeby tłumaczenia ręcznego i maszynowego, językoznawczych badań konfrontatywnych oraz wielojęzycznego wyszukiwania informacji w ramach otwartej, wieloaspektowej Platformy Wielojęzycznej.