CLARIN-PL

http://clarin-pl.eu/

Instytut Slawistyki PAN to jedna z sześciu polskich instytucji naukowych (obok Instytutu Podstaw Informatyki PAN, Polsko-Japońskiej Akademii Technik Komputerowych, Politechniki Wrocławskiej, Uniwersytetu Łódzkiego i Uniwersytetu Wrocławskiego), które wchodzą w skład Konsorcjum CLARIN-PL. Polska jest członkiem CLARIN ERIC. Jest również jednym z siedmiu członków-założycieli CLARIN-ERIC.

Skład Rady Konsorcjum CLARIN-PL: dr inż. Maciej Piasecki (PWr; koordynator), prof. dr hab. Krzysztof Marasek (PJATK), prof. dr hab. Adam Pawłowski (UWr), dr Piotr Pęzik (UŁ), dr Maciej Ogrodniczuk (IPI PAN), dr hab. Roman Roszko, prof. IS PAN.

Co to jest CLARIN ERIC?

CLARIN ERIC – Common Language Resources & Technology Infrastructure (pol. Wspólne zasoby językowe i infrastruktura technologiczna) European Research Infrastructure Consortium – to ogólnoeuropejska infrastruktura naukowa, która stawia sobie za cel udostępnianie zasobów i narzędzi językowych dla wszystkich języków europejskich w ramach jednej wspólnej infrastruktury badawczej, stanowiącej warsztat pracy naukowców z nauk społecznych i humanistycznych.

Czym są zasoby językowe?

Zasoby językowe to bazy danych opisujące w sposób sformalizowany język naturalny w różnych jego aspektach. Na przykład mogą to być korpusy tekstów jedno-, dwu-, wielojęzycznych (dostępne online i przeszukiwalne zbiory tekstów opisane metadanymi lingwistycznymi), słowniki, pamięci tłumaczeniowe, glosariusze, gramatyki, stochastyczne modele językowe i inne.

Czym są narzędzia językowe?

Narzędzia językowe to programy do automatycznej analizy tekstu i mowy na różnych poziomach opisu: formalnym (morfologicznym, składniowym), semantycznym i pragmatycznym. Narzędzia językowe to również wyspecjalizowane programy przeznaczone do określonych zadań w przetwarzaniu tekstów. Można tu wymienić chociażby programy do rozpoznawania wystąpień nazw własnych, ich klasyfikacji semantycznej czy automatycznego nanoszenia na mapę danych językowych.

Istota zasobów i narzędzi językowych

Wiele typów zasobów i narzędzi językowych – to podstawowe komponenty budowy systemów przetwarzających język. Brak tych zasobów i narzędzi dla określonego języka bardzo ogranicza możliwe zastosowania inżynierii języka naturalnego dla do danego języka.

Struktura CLARIN ERIC

W praktyce CLARIN ERIC to rozproszona infrastruktura naukowa składająca się z kilkudziesięciu centrów technologicznych zlokalizowanych w 19 krajach członkowskich i jednej organizacji międzynarodowej (stan na styczeń 2018). Z CLARIN ERIC współpracują dwa kraje na prawach obserwatora (Francja i Wielka Brytania). Do certyfikowanych centrów CLARIN ERIC zalicza się również centra utrzymywane w USA i w Hiszpanii, w krajach nienależących do CLARIN ERIC. Liczba państw członkowskich systematycznie rośnie, co potwierdza, że CLARIN ERIC jest jedną z najbardziej dynamicznie rozwijających się infrastruktur ESFRI. Struktura CLARIN jest określana jako federacyjna. Ciało szczebla centralnego to w sumie kilka osób. Zdecydowana większość działań jest podejmowana bezpośrednio na poziomie członków i jest finansowana z ich budżetów. Budżet centralny CLARIN ERIC pochodzi ze składek członków i – w odniesieniu do zakresu podejmowanych zadań – uważa się go za niski. Funkcjonowanie całości infrastruktury zapewnia wkład własny rzeczowy poszczególnych członków. Główną rolą systemów centralnych jest integracja usług dostarczanych przez centra lokalne utrzymane przez członków. Infrastruktura CLARIN ERIC opiera się na wspólnych standardach oraz ograniczonym, lecz dobrze określonym zestawie centralnych funkcjonalności. Ponadto koncentruje się w kolejnych latach na realistycznie wskazywanych, wspólnych obszarach tematycznych i wybranych funkcjonalnościach. Dzięki temu różnorodny wkład własny rzeczowy członków jest dobrze zintegrowany i zharmonizowany w ramach dynamicznie rozwijającego się systemu paneuropejskiej infrastruktury naukowej. CLARIN ERIC był jednym z pierwszych konsorcjów ERIC w dziedzinie nauk humanistycznych i społecznych (pierwszym, w którym uczestniczy Polska). Obecnie jest jednym z najlepiej ocenianych przez Komisję Europejską i środowisko naukowe infrastruktur ESFRI (co potwierdza chociażby uzyskanie przez CLARIN ERIC statusu „Landmark” w ramach ESFRI).

Cele CLARIN ERIC

Strategicznym celem infrastruktury CLARIN ERIC jest konsolidacja w jednym sieciowym systemie rozproszonych zasobów i narzędzi językowych dla wszystkich języków naturalnych stosowanych w Europie. System jest oparty na wspólnych standardach opisu i dostępu oraz udostępniania zebranych (i/lub utworzonych) zasobów i narzędzi językowych naukowcom z obszarów humanistyki i nauk społecznych. Dlatego naukowcy z w/w obszarów i dziedzin naukowych są podstawowymi użytkownikami CLARIN.

Infrastruktura CLARIN ERIC nie tylko konsoliduje zasoby i narzędzia językowe, lecz udostępnia również gotowe do użycia usługi sieciowe umożliwiające skorzystanie z tychże zasobów i narzędzi językowych. W oparciu o potrzeby konkretnych zadań CLARIN projektuje, buduje i udostępnia aplikacje badawcze do pracy ze zbiorami tekstów. Takim działaniom CLARIN można przypisać cechę praktycznego i aktywnego działania na rzecz rozwoju nowych metod humanistyki cyfrowej i cyfrowych nauk społecznych w wymiarze paneuropejskim, wielojęzycznym i wielokulturowym.

Infrastruktura CLARIN ERIC składa się z centrów CLARIN połączonych siecią Internetu. Ta infrastruktura zapewnia jednolity federacyjny system logowania i autoryzacji, w którym każdy użytkownik posługuje się własnym kontem z rodzimej jednostki naukowej. CLARIN promuje otwarty dostęp i otwarte licencje. Sam też tylko takie zasoby i narzędzia tworzy. Nie wszystkie jednak zasoby i narzędzia zdeponowane (np. w repozytorium DSpace https://clarin-pl.eu/dspace/ na stronach CLARIN-PL http://clarin-pl.eu/en/home-page/) przez samych użytkowników mogą znajdować się w wolnym dostępie. Bowiem o dostępie do zamieszczanych przez użytkowników w repozytorium zasobów lub narzędzi językowych decydują sami twórcy. CLARIN jednak wymaga, aby wszystkie zasoby i narzędzia były opisane w jednolitym, wspólnym standardzie metadanych o nazwie CMDI (Component MetaData Infrastructure). Podstawowe funkcje związane z wyszukiwaniem i przeszukiwaniem zasobów są zapewnione na poziomie centralnym, natomiast wszystkie usługi i aplikacje badawcze są wytwarzane i oferowane przez poszczególne narodowe konsorcja w ramach jednej połączonej infrastruktury.

Infrastruktura CLARIN

Na infrastrukturę CLARIN składa się sieć centrów. Są to centra:

  • typu A: tu powstają podstawy technologiczne i usługi do funkcjonowania sieci;
  • typu B: Centrum Technologii Językowych, tu użytkownikom dostarczane są narzędzia i zasoby związane z przetwarzaniem języka naturalnego (są to podstawowe elementy sieci);
  • typu C: tu zawarte są opisy zasobów, czyli metadane;
  • typu K: tu użytkownicy otrzymują wsparcie i dostęp do wiedzy oraz ekspertów.

Zadania Zespołu Instytutu Slawistyki PAN w CLARIN-PL

Skład Zespołu (2018): dr hab. Roman Roszko, prof. IS PAN (kierownik Zespołu), dr Maksim Duškin (od 2016), dr hab. Danuta Roszko (Uniwersytet Warszawski), dr Wojciech Sosnowski, dr Roman Tymoshuk (od 2016).

Do roku 2016 Zespołem IS PAN kierowała prof. dr hab. Violetta Koseska. Inni naukowcy współpracujący z Zespołem do 2016 roku (alfabetycznie): dr Anna Kisiel, dr Natalia Kotsyba, dr hab. Joanna Satoła-Staśkowiak.

Podstawowym zadaniem Zespołu IS PAN jest budowa wielojęzycznych baz pamięci tłumaczeniowych, glosariuszy i korpusów dla języków słowiańskich i bałtyckich (zadanie opisane numerem 7.3).

W połowie 2016 roku została zakończona budowa bazy pamięci tłumaczeniowych dla języków polskiego, bułgarskiego, litewskiego i rosyjskiego o łącznej objętości blisko 17500000 słowoform. Również w tym okresie opracowano podstawy anotacji semantycznej zasobów korpusowych, por.

  • Koseska, V., & Roszko, R. (2015). On semantic annotation in CLARIN-PL parallel corpora. Cognitive Studies | Études cognitives, 2015(15), 211–236. https://doi.org/10.11649/cs.2015.016
  • Koseska, V., & Roszko, R. (2016). Języki słowiańskie i litewski w korpusach równoległych Clarin-PL. Studia z Filologii Polskiej i Słowiańskiej, 51, 191–217. https://doi.org/10.11649/sfps.2016.011
  • Roszko, D., & Roszko, R. (2016). Polsko-litewskie korpusy równoległe. Elementy anotacji semantycznej z zakresu modalności możliwościowej i kwantyfikacji zakresowej. In E. Gruszczyńska & A. Leńko-Szymańska (Eds.), Polskojęzyczne korpusy równoległe. Polish language Parallel Corpora (pp. 119–132). Warszawa: Instytut Lingwistyki Stosowanej WLS. Retrieved from http://rownolegle.blog.ils.uw.edu.pl/files/2016/03/0000_Korpusy.pdf

Po roku 2016 (obecnie) Zespół IS PAN pracuje nad rozbudową pamięci tłumaczeniowych oraz budową dwujęzycznych korpusów tekstów anotowanych i zrównoleglonych z językiem polskim jako językiem scalającym wszystkie korpusy: Polsko-Litewski, Polsko-Bułgarski, Polsko-Rosyjski, Polsko-Ukraiński. Efekty postępujących prac można obserwować na stronach CLARIN-PL z wykorzystaniem narzędzia do przeszukiwania zasobów językowych KonText. Aby uzyskać dostęp do tworzonych przez Zespół IS PAN korpusów, należy na stronie CLARIN-PL zarejestrować się jako użytkownik a następnie zalogować, by uzyskać pełny dostęp do zasobów. Niezalogowany użytkownik ma ograniczony dostęp do zasobów, a niektóre zasoby mogą być niewidoczne.

Objętość obecnie budowanych korpusów dwujęzycznych z językiem polskim jako językiem scalającym ma osiągnąć wielkość przekraczającą 22000000 słowoform. Obecnie budowane korpusy tylko w niewielkiej części bazują na zasobach opracowanych do roku 2016. W odpowiedzi na życzenia i sugestie użytkowników wcześniej opublikowanych zasobów (w głównej mierze przedstawicieli nauk humanistycznych) oraz nowych użytkowników obecnie tworzonych Korpusów (tu głównie zgłaszają swe sugestie tłumacze, doktoranci, wykładowcy uniwersyteccy, wydawnictwa i firmy mające swe przedstawicielstwa na Litwie, Ukrainie, w Rosji i Bułgarii) rozbudowę zasobów wielojęzycznych nakierowano na teksty zawierające nową leksykę, odzwierciedlającą obecny rozwój technologiczny i cywilizacyjny (np. teksty prawne, procesowe, medyczne, umowy, dokumentację techniczną, przetargową, wykazy produktów, zawodów, leków i in.). Zdecydowanie nowym zjawiskiem w budowanych przez Zespół IS PAN jest włączenie – również na życzenie nowych użytkowników – tekstów zbliżonych swym charakterem do mowy potocznej. Pozornie niewykonalne zadanie, polegające na włączeniu do wielojęzycznych Korpusów równoległych zasobów języka mówionego (nie zachodzi bowiem zjawisko jednoczesnej wypowiedzi w dwóch językach!), zostało częściowo spełnione poprzez opracowanie i włączenie do zasobów dialogów filmowych.

Wybrane prace z roku 2017, których autorzy korzystali z wielojęzycznych Korpusów CLARIN-PL:

  • Jaskot, M., Ganoszenko, Ju., Sosnowski, W., & Tymoshuk, R. (2017). Leksykon aktywnej frazeologii polskiej i ukraińskiej. Warszawa: KJV Digital.
  • Jaskot, M., & Sosnowski, W. (2017). O fałszywych przyjaciołach tłumacza na przykładzie Leksykonu aktywnej frazeologii polskiej i ukraińskiej. In B. Borkowska-Kępska & G. Gwóźdź (Eds.), LSP Perspectives 2. Języki specjalistyczne – nowe perspektywy 2 (pp. 55–62). Dąbrowa Górnicza: Wyższa Szkoła Biznesu w Dąbrowie Górniczej.
  • Łukasik, M. (2017). Contrastive terminography. Cognitive Studies | Études cognitives, 2017(17). https://doi.org/10.11649/cs.1378
  • Sosnowski, W., & Tymoshuk, R. (2017). Konfrontacja językowa polskich i ukraińskich jednostek frazeologicznych na przykładzie materiału z leksykonu aktywnej frazeologii polskiej i ukraińskiej. In D. Blagoeva & L. Andreĭchin (Eds.), Bylgarsko-polski studii (pp. 91–108). Sofiia: Bylgarska akademiia na naukite instytut za b”lgarski ezik.
  • Tymoshuk, R, & Sosnowski, W. (2017). Novi pidkhody do stvorennia suchasnykh frazeolohichnykh slovnykiv (na materiali “Leksykona pol’s’koï ta ukraïns’koï aktivnoï frazeolohiï”). Movoznavstvo, 2017(2), 69–77.
  • Satoła-Staśkowiak, J. (2017). Badania nad najmłodszą leksyką słowiańską w oparciu o korpusy językowe. In D. Blagoeva & L. Andreĭchin (Eds.), Bylgarsko-polski studii (pp. 32–45). Sofiia: Bylgarska akademiia na naukite instytut za b”lgarski ezik.
  • Sosnowski, W., & Tymoshuk, R. (2017). On the dictionary of active Polish and Ukrainian phraseology. Cognitive Studies | Études cognitives, 2017(17). https://doi.org/10.11649/cs.1317
  • Tymoshuk, R, & Sosnowski, W. (2017). O rabote nad “Leksikonom pol’skoĭ i ukrainskoĭ aktivnoĭ frazeologii”. In L. Janovec, R. Kvapilová-Brabcová, V. Skibina & Z. Wildová (Eds.), Svet v obrazech a ve frazeologii / World in Pictures and in Phraseology (pp. 269–277). Praga: Pedagogická fakulta.

Wybrane zasoby CLARIN-PL

Polish-Bulgarian-Russian Parallel Corpus

Trójjęzyczna baza tekstów zrównoleglonych na poziomie zdania; cytowanie: Anna Kisiel, Violetta Koseska-Toszewa, Natalia, Kotsyba; Joanna Satoła-Staśkowiak, and Wojciech Sosnowski (2016). Polish-Bulgarian-Russian Parallel Corpus, CLARIN-PL digital repository, http://hdl.handle.net/11321/308)

BIBTEX:
@misc{11321/308,
title = {Polish-Bulgarian-Russian Parallel Corpus},
author = {Kisiel, Anna and Koseska-Toszewa, Violetta and Natalia, Kotsyba and Sato{\l}a-Sta{\'s}kowiak, Joanna and Sosnowski, Wojciech},
url = {http://hdl.handle.net/11321/308},
note = {{CLARIN}-{PL} digital repository},
copyright = {{IS} {PAS} corpora license},
year = {2016}
}

Polish-Lithuanian Parallel Corpus

Dwujęzyczna baza tekstów zrównoleglonych na poziomie zdania; cytowanie: Danuta Roszko, and Roman Roszko (2016). Polish-Lithuanian Parallel Corpus, CLARIN-PL digital repository, http://hdl.handle.net/11321/309

BIBTEX:
@misc{11321/309,
title = {Polish-Lithuanian Parallel Corpus},
author = {Roszko, Danuta and Roszko, Roman},
url = {http://hdl.handle.net/11321/309},
note = {{CLARIN}-{PL} digital repository},
copyright = {{IS} {PAS} corpora license},
year = {2016}
}

Inne zasoby

ChronoPress – Portal tekstów prasowych
Paralela – wyszukiwarka polsko-angielskich anotowanych korpusów równoległych
Słowa dnia – zawiera listę słów o najwyższej frekwencji w dyskursie medialnym
Słowosieć – wielka sieć wyrazów (191000 słów) i baza danych leksykalno-semantycznych (285000 znaczeń i ponad 600000 relacji) dla języka polskiego z funkcją słownika polsko-angielskiego (239000 haseł)
Spokes – wyszukiwarka danych konwersacyjnych zbudowany na bazie 232756 wypowiedzi liczących łącznie ponad 2 miliony słowoform
Walenty – słownik walencyjny języka polskiego
KonText – jedno- i wielojęzyczne korpusy, w tym korpusy budowane przez Zespół IS PAN, np. polsko-bułgarski i in.

Wybrane narzędzia CLARIN-PL

Chunker – program do płytkiej analizy składniowej
Websty – interfejs webowy do grupowania tekstów w języku polskim
Nowy Morfeusz – analizator morfologiczny
Liner2 – rozpoznawanie jednostek identyfikacyjnych i wyrażeń temporalnych
Inforex – system do edycji anotowanych korpusów
WiKNN – (= Wikipedia K-Nearest Neighbours) klasyfikator tematyczny tekstów polskich i angielskich
Kuźnia – narzędzie do (współ)tworzenia fleksyjnych słowników dziedzinowych
WNLoom-Viewer – aplikacja do przeglądania Słowosieci
Mapa Literacka – rozpoznawanie odniesień do nazw geograficznych i miejscowych
MeWeX – aplikacja do wydobywania z korpusu słowników kolokacji oraz tworzenia słowników jednostek leksykalnych
Mowa – narzędzia i usługi do przetwarzania mowy
Transkrypcja fonetyczna – narzędzie do konwersji zapisu ortograficznego na fonetyczny
Morpho – bezkontekstowa analiza morfologiczna
Tagger WCRFT2 – tokenizacja i tagowanie morfosyntaktyczne
Serel – wyznaczanie relacji między nazwami własnymi
Spatial – narzędzie do rozpoznawania relacji przestrzennych w tekście
WSD – narzędzie do ujednoznaczniania znaczeń leksykalnych
NER – wyszukiwanie i klasyfikacja nazw własnych
Parser – parser zależnościowy języka polskiego
Spejd – parser składniowy
POLFIE – parser LFG języka polskiego
POLFIE-OT – parser LFG języka polskiego (z modułem OT: automatyczne ujednoznacznienie)
WoSeDon – wydobywanie z tekstów list frekwencyjnych znaczeń leksykalnych
NoSketch – prosta aplikacja do przeszukiwania korpusów
Summarize – narzędzie do streszczania tekstów
Słowa kluczowe – ReSpa – narzędzie do wyznaczania słów kluczowych w tekście
Inkluz – narzędzie do wykrywania obcojęzycznych wtrąceń w polskim tekście
TermoPL – narzędzie do wykrywania terminów w tekście

Wybrane narzędzia dla języków angielskiego i niemieckiego

Tager – język angielski / niemiecki
Tager NLTK – język angielski
NER – język angielski / niemiecki
NER NLTK – język angielski
Parser – język angielski / niemiecki

 

Więcej zasobów CLARIN-PL, por. https://clarin-pl.eu/dspace/