CLARIN-PL 

http://clarin-pl.eu/

 

Instytut Slawistyki PAN to jedna z sześciu polskich instytucji naukowych (obok Instytutu Podstaw Informatyki PAN, Polsko-Japońskiej Akademii Technik Komputerowych, Politechniki Wrocławskiej, Uniwersytetu Łódzkiego i Uniwersytetu Wrocławskiego), które wchodzą w skład Konsorcjum CLARIN-PL. Polska jest członkiem CLARIN ERIC. Jest również jednym z siedmiu członków-założycieli CLARIN-ERIC.
Skład Rady Konsorcjum CLARIN-PL: dr inż. Maciej Piasecki (PWr, koordynator), prof. dr hab. Krzysztof Marasek (PJATK), prof. dr hab. Adam Pawłowski (UWr), dr Piotr Pęzik (UŁ), dr Maciej Ogrodniczuk (IPI PAN), dr hab. (prof. IS PAN) Roman Roszko (IS PAN).

 

Co to jest CLARIN ERIC?


CLARIN ERIC – Common Language Resources & Technology Infrastructure (pol. Wspólne zasoby językowe i infrastruktura technologiczna) European Research Infrastructure Consortium – to ogólnoeuropejska infrastruktura naukowa, która stawia sobie za cel udostępnianie zasobów i narzędzi językowych dla wszystkich języków europejskich w ramach jednej wspólnej infrastruktury badawczej, stanowiącej warsztat pracy naukowców z nauk społecznych i humanistycznych.

 

Czym są zasoby językowe?
Zasoby językowe to bazy danych opisujące w sposób sformalizowany język naturalny w różnych jego aspektach. Na przykład mogą to być korpusy tekstów jedno-, dwu-, wielojęzycznych (dostępne online i przeszukiwalne zbiory tekstów opisane metadanymi lingwistycznymi), słowniki, pamięci tłumaczeniowe, glosariusze, gramatyki, stochastyczne modele językowe i inne.

 

Czym są narzędzia językowe?
Narzędzia językowe to programy do automatycznej analizy tekstu i mowy na różnych poziomach opisu: formalnym (morfologicznym, składniowym), semantycznym i pragmatycznym. Narzędzia językowe to również wyspecjalizowane programy przeznaczone do określonych zadań w przetwarzaniu tekstów. Można tu wymienić chociażby programy do rozpoznawania wystąpień nazw własnych, ich klasyfikacji semantycznej czy automatycznego nanoszenia na mapę danych językowych.

 

Istota zasobów i narzędzi językowych
Wiele typów zasobów i narzędzi językowych – to podstawowe komponenty budowy systemów przetwarzających język. Brak tych zasobów i narzędzi dla określonego języka bardzo ogranicza możliwe zastosowania inżynierii języka naturalnego dla do danego języka.

 

Struktura CLARIN ERIC


W praktyce CLARIN ERIC to rozproszona infrastruktura naukowa składająca się z kilkudziesięciu centrów technologicznych zlokalizowanych w 19 krajach członkowskich i jednej organizacji międzynarodowej (stan na styczeń 2018). Z CLARIN ERIC współpracują dwa kraje na prawach obserwatora (Francja i Wielka Brytania). Do certyfikowanych centrów CLARIN ERIC zalicza się również centra utrzymywane w USA i w Hiszpanii, w krajach nienależących do CLARIN ERIC. Liczba państw członkowskich systematycznie rośnie, co potwierdza, że CLARIN ERIC jest jedną z najbardziej dynamicznie rozwijających się infrastruktur ESFRI. Struktura CLARIN jest określana jako federacyjna. Ciało szczebla centralnego to w sumie kilka osób. Zdecydowana większość działań jest podejmowana bezpośrednio na poziomie członków i jest finansowana z ich budżetów. Budżet centralny CLARIN ERIC pochodzi ze składek członków i – w odniesieniu do zakresu podejmowanych zadań – uważa się go za niski. Funkcjonowanie całości infrastruktury zapewnia wkład własny rzeczowy poszczególnych członków. Główną rolą systemów centralnych jest integracja usług dostarczanych przez centra lokalne utrzymane przez członków. Infrastruktura CLARIN ERIC opiera się na wspólnych standardach oraz ograniczonym, lecz dobrze określonym zestawie centralnych funkcjonalności. Ponadto koncentruje się w kolejnych latach na realistycznie wskazywanych, wspólnych obszarach tematycznych i wybranych funkcjonalnościach. Dzięki temu różnorodny wkład własny rzeczowy członków jest dobrze zintegrowany i zharmonizowany w ramach dynamicznie rozwijającego się systemu paneuropejskiej infrastruktury naukowej. CLARIN ERIC był jednym z pierwszych konsorcjów ERIC w dziedzinie nauk humanistycznych i społecznych (pierwszym, w którym uczestniczy Polska). Obecnie jest jednym z najlepiej ocenianych przez Komisję Europejską i środowisko naukowe infrastruktur ESFRI (co potwierdza chociażby uzyskanie przez CLARIN ERIC statusu „Landmark" w ramach ESFRI).

 

Cele CLARIN ERIC


Strategicznym celem infrastruktury CLARIN ERIC jest konsolidacja w jednym sieciowym systemie rozproszonych zasobów i narzędzi językowych dla wszystkich języków naturalnych stosowanych w Europie. System jest oparty na wspólnych standardach opisu i dostępu oraz udostępniania zebranych (i/lub utworzonych) zasobów i narzędzi językowych naukowcom z obszarów humanistyki i nauk społecznych. Dlatego naukowcy z w/w obszarów i dziedzin naukowych są podstawowymi użytkownikami CLARIN.
Infrastruktura CLARIN ERIC nie tylko konsoliduje zasoby i narzędzia językowe, lecz udostępnia również gotowe do użycia usługi sieciowe umożliwiające skorzystanie z tychże zasobów i narzędzi językowych. W oparciu o potrzeby konkretnych zadań CLARIN projektuje, buduje i udostępnia aplikacje badawcze do pracy ze zbiorami tekstów. Takim działaniom CLARIN można przypisać cechę praktycznego i aktywnego działania na rzecz rozwoju nowych metod humanistyki cyfrowej i cyfrowych nauk społecznych w wymiarze paneuropejskim, wielojęzycznym i wielokulturowym.
Infrastruktura CLARIN ERIC składa się z centrów CLARIN połączonych siecią Internetu. Ta infrastruktura zapewnia jednolity federacyjny system logowania i autoryzacji, w którym każdy użytkownik posługuje się własnym kontem z rodzimej jednostki naukowej. CLARIN promuje otwarty dostęp i otwarte licencje. Sam też tylko takie zasoby i narzędzia tworzy. Nie wszystkie jednak zasoby i narzędzia zdeponowane (np. w repozytorium DSpace https://clarin-pl.eu/dspace/ na stronach CLARIN-PL http://clarin-pl.eu/en/home-page/) przez samych użytkowników mogą znajdować się w wolnym dostępie. Bowiem o dostępie do zamieszczanych przez użytkowników w repozytorium zasobów lub narzędzi językowych decydują sami twórcy. CLARIN jednak wymaga, aby wszystkie zasoby i narzędzia były opisane w jednolitym, wspólnym standardzie metadanych o nazwie CMDI (Component MetaData Infrastructure). Podstawowe funkcje związane z wyszukiwaniem i przeszukiwaniem zasobów są zapewnione na poziomie centralnym, natomiast wszystkie usługi i aplikacje badawcze są wytwarzane i oferowane przez poszczególne narodowe konsorcja w ramach jednej połączonej infrastruktury.

 

Infrastruktura CLARIN
Na infrastrukturę CLARIN składa się sieć centrów. Są to centra:
­ typu A: tu powstają podstawy technologiczne i usługi do funkcjonowania sieci;
­ typu B: Centrum Technologii Językowych, tu użytkownikom dostarczane są narzędzia i zasoby związane z przetwarzaniem języka naturalnego (są to podstawowe elementy sieci);
­ typu C: tu zawarte są opisy zasobów, czyli metadane;
­ typu K: tu użytkownicy otrzymują wsparcie i dostęp do wiedzy oraz ekspertów.

 

Zadania Zespołu Instytutu Slawistyki PAN w CLARIN-PL
Skład Zespołu (2018): dr hab., prof. nadzw. Roman ROSZKO (kierownik Zespołu) + dr Maksim DUŠKIN (od 2016), dr hab. Danuta ROSZKO (Uniwersytet Warszawski), dr Wojciech SOSNOWSKI, dr Roman TYMOSHUK (od 2016))
Do roku 2016 Zespołem IS PAN kierowała prof. dr hab. Violetta KOSESKA. Inni naukowcy współpracujący z Zespołem do 2016 roku (alfabetycznie): dr Anna KISIEL, dr Natalia KOTSYBA, dr hab. Joanna SATOŁA-STAŚKOWIAK.

 

Podstawowym zadaniem Zespołu IS PAN jest budowa wielojęzycznych baz pamięci tłumaczeniowych, glosariuszy i korpusów dla języków słowiańskich i bałtyckich (zadanie opisane numerem 7.3).
W połowie 2016 roku została zakończona budowa bazy pamięci tłumaczeniowych dla języków polskiego, bułgarskiego, litewskiego i rosyjskiego o łącznej objętości blisko 17.500.000 słowoform. Również w tym okresie opracowano podstawy anotacji semantycznej zasobów korpusowych, por.

 

 

Po roku 2016 (obecnie) Zespół IS PAN pracuje nad rozbudową pamięci tłumaczeniowych oraz budową dwujęzycznych korpusów tekstów anotowanych i zrównoleglonych z językiem polskim jako językiem scalającym wszystkie korpusy: Polsko-Litewski, Polsko-Bułgarski, Polsko-Rosyjski, Polsko-Ukraiński. Efekty postępujących prac można obserwować na stronach CLARIN-PL z wykorzystaniem narzędzia do przeszukiwania zasobów językowych KonText. Aby uzyskać dostęp do tworzonych przez Zespół IS PAN korpusów, należy na stronie CLARIN-PL zarejestrować się jako użytkownik a następnie zalogować, by uzyskać pełny dostęp do zasobów. Niezalogowany użytkownik ma ograniczony dostęp do zasobów, a niektóre zasoby mogą być niewidoczne.
Objętość obecnie budowanych korpusów dwujęzycznych z językiem polskim jako językiem scalającym ma osiągnąć wielkość przekraczającą 22 000 000 słowoform. Obecnie budowane korpusy tylko w niewielkiej części bazują na zasobach opracowanych do roku 2016. W odpowiedzi na życzenia i sugestie użytkowników wcześniej opublikowanych zasobów (w głównej mierze przedstawicieli nauk humanistycznych) oraz nowych użytkowników obecnie tworzonych Korpusów (tu głównie zgłaszają swe sugestie tłumacze, doktoranci, wykładowcy uniwersyteccy, wydawnictwa i firmy mające swe przedstawicielstwa na Litwie, Ukrainie, w Rosji i Bułgarii) rozbudowę zasobów wielojęzycznych nakierowano na teksty zawierające nową leksykę, odzwierciedlającą obecny rozwój technologiczny i cywilizacyjny (np. teksty prawne, procesowe, medyczne, umowy, dokumentację techniczną, przetargową, wykazy produktów, zawodów, leków i in.). Zdecydowanie nowym zjawiskiem w budowanych przez Zespół IS PAN jest włączenie — również na życzenie nowych użytkowników — tekstów zbliżonych swym charakterem do mowy potocznej. Pozornie niewykonalne zadanie, polegające na włączeniu do wielojęzycznych Korpusów równoległych zasobów języka mówionego (nie zachodzi bowiem zjawisko jednoczesnej wypowiedzi w dwóch językach!), zostało częściowo spełnione poprzez opracowanie i włączenie do zasobów dialogów filmowych.

 

Wybrane prace z roku 2017, których autorzy korzystali z wielojęzycznych Korpusów CLARIN-PL

 

  • W. Sosnowski, W., R. Tymoshuk (2017). Konfrontacja językowa polskich i ukraińskich jednostek frazeologicznych na przykładzie materiału z leksykonu aktywnej frazeologii polskiej i ukraińskiej. In Diana Blagoeva, Любомир Андрейчин (Eds.), Былгарско-полски студии. Българска академия на науките институт за български език, p. 91-108, ISBN 978-619-160-903-1.
  • R. Tymoshuk, W. Sosnowski (2017). Нові підходи до створення сучасних фразеологічних словників (на матеріалі «Лексикона польської та української активної фразеології»), Movoznavstvo, 2, Instytut movoznavstva UAN, 2017, 69–77.
  • W. P. Sosnowski, and R. Tymoshuk (2017). On the dictionary of active Polish and Ukrainian phraseology, Cognitive Studies|Études cognitives, 2017(17), 1-14. https://doi.org/10.11649/cs.1317.
  • R. Tymoshuk, W. Sosnowski (2017). О работе над „Лексиконом польской и украинской активной фразеологии" In Ladislav Janovec, Radoslava Kvapilová Brabcová , Varvara Skibina, Zuzana Wildová (Eds.), Svet v obrazech a ve frazeologii / World in Pictures and in Phraseology. Univerzita Karlova, Pedagogická fakulta, 2017, p. 269–276. ISBN 978-80-7290-964-3
  • M. Jaskot, Ju. Ganoszenko, W. Sosnowski, and R. Tymoshuk (2017). Leksykon aktywnej frazeologii polskiej i ukraińskiej. KJV Digital 2017, pp. 312. Warszawa. ISBN 978-83-946640-2-2.
  • M. Jaskot, and W. Sosnowski, W. O fałszywych przyjaciołach tłumacza na przykładzie Leksykonu aktywnej frazeologii polskiej i ukraińskiej. In Barbara Borkowska-Kępska, Grzegorz Gwóźdź (Eds.), LSP Perspectives 2. Języki specjalistyczne – nowe perspektywy 2. Wyższa Szkoła Biznesu w Dąbrowie Górniczej, p. 55-62. ISBN 978-83-65621-30-6.
  • J. Satoła-Staśkowiak, J. (2017). Badania nad najmłodszą leksyką słowiańską w oparciu o korpusy językowe. In Diana Blagoeva, Любомир Андрейчин (Eds.), Былгарско-полски студии, Българска академия на науките институт за български език, p. 32-45. ISBN 978-619-160-903-1
  • M. Łukasik (2017). Contrastive terminography. Cognitive Studies | Études cognitives, 2017(17), 1–14. https://doi.org/10.11649/cs.1378.

 

Wybrane zasoby CLARIN-PL


Polish-Bulgarian-Russian Parallel Corpus (trójjęzyczna baza tekstów zrównoleglonych na poziomie zdania, cytowanie: Anna Kisiel, Violetta Koseska-Toszewa, Natalia, Kotsyba; Joanna Satoła-Staśkowiak, and Wojciech Sosnowski (2016). Polish-Bulgarian-Russian Parallel Corpus, CLARIN-PL digital repository, http://hdl.handle.net/11321/308)


BIBTEX:
@misc{11321/308,
title = {Polish-Bulgarian-Russian Parallel Corpus},
author = {Kisiel, Anna and Koseska-Toszewa, Violetta and Natalia, Kotsyba and Sato{\l}a-Sta{\'s}kowiak, Joanna and Sosnowski, Wojciech},
url = {http://hdl.handle.net/11321/308},
note = {{CLARIN}-{PL} digital repository},
copyright = {{IS} {PAS} corpora license},
year = {2016}
}


Polish-Lithuanian Parallel Corpus, dwujęzyczna baza tekstów zrównoleglonych na poziomie zdania, cytowanie: Danuta Roszko, and Roman Roszko (2016). Polish-Lithuanian Parallel Corpus, CLARIN-PL digital repository, http://hdl.handle.net/11321/309 


BIBTEX:
@misc{11321/309,
title = {Polish-Lithuanian Parallel Corpus},
author = {Roszko, Danuta and Roszko, Roman},
url = {http://hdl.handle.net/11321/309},
note = {{CLARIN}-{PL} digital repository},
copyright = {{IS} {PAS} corpora license},
year = {2016}
}


ChronoPress — (Portal tekstów prasowych)
Paralela— (wyszukiwarka polsko-angielskich anotowanych korpusów równoległych)
Słowa dnia — (zawiera listę słów o najwyższej frekwencji w dyskursie medialnym)
Słowosieć — (wielka sieć wyrazów (191.000 słów) i baza danych leksykalno-semantycznych (285.000 znaczeń i ponad 600.000 relacji) dla języka polskiego z funkcją słownika polsko-angielskiego (239.000 haseł))
Spokes — (wyszukiwarka danych konwersacyjnych zbudowany na bazie 232 756 wypowiedzi liczących łącznie ponad 2 miliony słowoform)
Walenty — (słownik walencyjny języka polskiego)
KonText — (jedno- i wielojęzyczne korpusy, w tym korpusy budowane przez Zespół IS PAN, np. polsko-bułgarski i in.)

 

Wybrane narzędzia CLARIN-PL


Chunker — (program do płytkiej analizy składniowej)
Websty — (interfejs webowy do grupowania tekstów w języku polskim)
Nowy Morfeusz — (analizator morfologiczny)
Liner2 — (rozpoznawanie jednostek identyfikacyjnych i wyrażeń temporalnych)
Inforex — (system do edycji anotowanych korpusów)
WiKNN — (=Wikipedia K-Nearest Neighbours, klasyfikator tematyczny tekstów polskich i angielskich)
Kuźnia — (narzędzie do (współ)tworzenia fleksyjnych słowników dziedzinowych)
WNLoom-Viewer — (aplikacja do przeglądania Słowosieci)
Mapa Literacka — (rozpoznawanie odniesień do nazw geograficznych i miejscowych, /)
MeWeX — (aplikacja do wydobywania z korpusu słowników kolokacji oraz tworzenia słowników jednostek leksykalnych)
Mowa — (narzędzia i usługi do przetwarzania mowy)
Transkrypcja fonetyczna — (narzędzie do konwersji zapisu ortograficznego na fonetyczny)
Morpho — (bezkontekstowa analiza morfologiczna)
Tagger WCRFT2 — (tokenizacja i tagowanie morfosyntaktyczne)
Serel — (wyznaczanie relacji między nazwami własnymi)
Spatial — (narzędzie do rozpoznawania relacji przestrzennych w tekście)
WSD — (narzędzie do ujednoznaczniania znaczeń leksykalnych)
NER — (wyszukiwanie i klasyfikacja nazw własnych)
Parser — (parser zależnościowy języka polskiego)
Spejd — (parser składniowy)
POLFIE — (parser LFG języka polskiego)
POLFIE-OT — (parser LFG języka polskiego (z modułem OT: automatyczne ujednoznacznienie))
WoSeDon — (wydobywanie z tekstów list frekwencyjnych znaczeń leksykalnych)
NoSketch — (prosta aplikacja do przeszukiwania korpusów)
Summarize — (narzędzie do streszczania tekstów)
Słowa kluczowe – ReSpa — (narzędzie do wyznaczania słów kluczowych w tekście)
Inkluz — (narzędzie do wykrywania obcojęzycznych wtrąceń w polskim tekście)
TermoPL — (narzędzie do wykrywania terminów w tekście)

 

Wybrane narzędzia dla języków angielskiego i niemieckiego
Tager — (język angielski / niemiecki)
Tager NLTK — (język angielski)
NER — (język angielski / niemiecki)
NER NLTK — (język angielski)
Parser — (język angielski / niemiecki)

 

Więcej zasobów CLARIN-PL, por. https://clarin-pl.eu/dspace/