DOI: https://doi.org/10.11649/sfps.2016.011

Języki słowiańskie i litewski w korpusach równoległych Clarin-PL

Violetta Koseska-Toszewa, Roman Roszko

Abstract


Slavic languages and the Lithuanian language in the Clarin-PL parallel corpora

The Clarin Eric and Clarin-PL strategic scientific purpose is to support humanistic research in a multicultural and multilingual Europe. Polish researchers put the emphasis on building a bridge between the Polish language and Polish linguistic technologies and other European languages and their linguistic technologies. So far, the Polish scientific community has mainly focused on Polish-English connections. Clarin-PL has been developing the first and only multilingual corpora of the Polish language in conjunction with other Slavic languages and the Lithuanian language: the Polish-Bulgarian-Russian Parallel Corpus and the Polish- Lithuanian Parallel Corpus. The parallel corpora created by the ISS PAS Corpus Linguistics and Semantics Team break through the existing “canons” and allow scientists access to interlinked multilingual language resources – in the first phase limited to the languages of the three Slavic groups and the Lithuanian language. In the article, the authors present very detailed information on their original system of the semantic annotation of scope quantification in multilingual parallel corpora, hitherto unused in the subject literature. Due to the system’s originality, the semantic annotation is carried out manually. Identification of particular values of scope quantification in a sentence and the hereby presented attempts of its recording are supported by long-term research conducted by an international team of linguists and computer scientists / mathematicians developing the issue of quantification of names, time and aspect in natural languages.

 

Języki słowiańskie i litewski w korpusach równoległych Clarin-PL

Strategicznym celem naukowym Clarin ERIC i Clarin-PL jest wspieranie badań humanistycznych w wielokulturowej i wielojęzycznej Europie. Dla polskich badaczy ważna jest budowa pomostu między językiem polskim, polskimi technologiami językowymi a innymi językami europejskimi i na ich rzecz opracowanymi technologiami językowymi. Dotychczas w nauce polskiej największy nacisk był kładziony na powiązania polsko-angielskie. Clarin-PL opracowuje zatem pierwsze jak dotąd wielojęzyczne korpusy języka polskiego w zestawieniu z innymi językami słowiańskimi oraz z językiem litewskim: Korpus równoległy polsko-bułgarsko-rosyjski i Korpus równoległy polsko-litewski. Tworzone przez Zespół Lingwistyki Korpusowej i Semantyki (IS PAN) korpusy równoległe przełamują dotychczasowe „kanony” i udostępniają nauce powiązane wielojęzyczne zasoby – w pierwszym etapie ograniczone do języków trzech grup słowiańskich oraz języka litewskiego. W artykule autorzy przedstawiają bardzo szczegółową informację o zastosowanej po raz pierwszy w literaturze przedmiotu anotacji semantycznej dotyczącej kwantyfikacji zakresowej w wielojęzycznych korpusach równoległych. Z powodu swojego rozległego zakresu i nowatorstwa ta anotacja semantyczna jest nanoszona ręcznie. Identyfikacja poszczególnych wartości kwantyfikacji zakresowej w zdaniu oraz przedstawiane tu próby jej zapisu są poparte wieloletnimi badaniami międzynarodowego zespołu lingwistów i matematyków-informatyków opracowujących zagadnienie kwantyfikacji imion, czasu i aspektu w językach naturalnych.


Keywords


multilingual parallel corpora; semantic annotation; scope quantification

Full Text:

PDF (in Polish)

References


Ajdukiewicz, K. (1965). Logika pragmatyczna. Warszawa: PWN.

Baker, C. F., Fillmore, C. J., & Lowe, J. B. (1998). The Berkeley FrameNet Project. In Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics (Vol. 1, pp. 86–90). Stroudsburg, PA: Association for Computational Linguistics. http://dx.doi.org/10.3115/980845.980860

Barwise, J., & Cooper, R. (1981). Generalized quantifiers and natural language. Linguistics and Philosophy, 4(2), 159–219. http://dx.doi.org/10.1007/BF00350139

Barwise, J., & Perry, J. (1983). Situations and attitudes. Cambridge, MA: Bradford Books; MIT Press.

Bellert, I. (1971). On the use of linguistic quantifying operators. Poetics, 1(2), 71–86. http:// dx.doi.org/10.1016/0304-422X(71)90011-8

Bogusławski, A. (2003). Aspekt i negacja. Warszawa: Katedra Lingwistyki Formalnej UW.

Bond, F., Morgado da Costa, L., & Lê, T. A. (2015). IMI – A Multilingual Semantic Annotation Environment. In Proceedings of ACL-IJCNLP 2015 System Demonstrations Beijing, China, July 26–31, 2015 (pp. 7–12). http://dx.doi.org/10.3115/v1/P15-4002

Cooper, R. (1996). The role of situations and generalized quantifiers. In S. Lappin (Ed.), The handbook of contemporary semantic theory. Oxford: Blackwell Reference.

Desclés, J. P. (1999). Quantification, types, preuves et logique combinatoire. In Études cognitives 3. Quantification, Temps, Aspects (pp. 13–82). Varsovie: SOW.

Frege, G. (1892). Über Sinn und Bedeutung. Zeitschrift für Phil. und phil. NF Kritik, 100, 25–50.

Grzegorczyk, R. (1972). Wykładniki kwantyfikacji w polskim zdaniu. In Z polskich studiów slawistycznych: Seria 4: Prace na VII Międzynarodowy Kongres Slawistów w Warszawie, 1973 (Vol. 1, Językoznawstwo, pp. 13–19). Warszawa: PWN.

Grzegorczyk, R. (1976). Aktualizacja wypowiedzi poprzez kwantyfikację argumentów i predykatu. Otàzky Slovanské syntaxe, 4(1), 195–200.

Impact of European integration on Slavic languages: Trends in translation and multilingual communication. (2009). (D. Čaplovič, K.-J. Lönnroth, & P. Zsapka, Orgs.). Conference and Directorate-General for Translations of the European Commission. Bratislava.

Ivanchev, S. (1971). Problemi na aspektualnostta v slavianskite ezitsi. Sofiia: Izdatelstvo na BAN.

Karolak, S. (2008). Gramatyka konfrontatywna bułgarsko-polska (T. 8, Semantyczna kategoria aspektu). (V. Koseska-Toszewa & J. Penčev, Eds.). Warszawa: SOW.

Kingsbury, P., Palmer, M., & Marcus, M. (2002). Adding semantic annotation to the Penn TreeBank. In Proceedings of the Human Language Technology Conference (HLT 2002). Retrieved 1 April 2016 from http://faculty.washington.edu/fxia/courses/LING571/PropBank_HLT2002.pdf

Kisiel, A., Koseska-Toszewa, V., Kotsyba, N., Satoła-Staśkowiak, J., & Sosnowski, W. (2016). Polish-Bulgarian-Russian Parallel Corpus, CLARIN-PL digital repository. Retrieved 4 September 2016 from http://hdl.handle.net/11321/308

Koseska-Tosheva, V., & Gargov, G. (1990). Bŭlgarsko-polska sŭpostavitelna gramatika (Vol. 2, Semantichnata kategoriia opredelenost/neopredelenost). Sofiia: Izdatelstvo na BAN.

Koseska-Toszewa, V. (1982). Semantyczne aspekty kategorii określoności/nieokreśloności (na materiale z języka bułgarskiego, polskiego i rosyjskiego). Wrocław: Ossolineum.

Koseska-Toszewa, V. (1995). O aspekcie i czasie w ujęciu kognitywnym. Biuletyn Polskiego Towarzystwa Językoznawczego, 51, 25–31.

Koseska-Toszewa, V. (1997). Kvantifikatsiia i vid. In Semantika i struktura slavianskogo vida (Vol. 2, pp. 141–147). Kraków: Wydawnictwo Naukowe Wyższej Szkoły Pedagogicznej.

Koseska-Toszewa, V. (2006). Gramatyka konfrontatywna bułgarsko-polska (Vol. 7, Semantyczna kategoria czasu). (V. Koseska-Toszewa & J. Penčev, Eds.). Warszawa: SOW.

Koseska-Toszewa, V., Korytkowska, M., & Roszko, R. (2007). Polsko-bułgarska gramatyka konfrontatywna. Warszawa: Wydawnictwo Akademickie „Dialog”.

Koseska-Toszewa, V., & Mazurkiewicz, A. (1988). Net representation of sentences in natural languages. W: Lecture Notes in Computer Science 340. Advances in Petri Nets 1988 (pp. 249–266). Berlin: Springer Verlag.

Koseska-Toszewa, V., & Mazurkiewicz, A. (1994). Description à l’aide de réseaux de la temporalité et modalite dans la phrases dans la langue naturelle. In Studia kognitywne (T. 1, ss. 89–112). Warszawa: SOW.

Koseska-Toszewa, V., & Mazurkiewicz, A. (2010). Time flow and tenses. Warszawa: SOW.

Laskowski, R. (2011). Bŭlgarsko-polska sŭpostavitelna gramatika, Sofiia − Varshava 1988−2011, vol. 1−9. Bŭlgarski ezik, 58(3), 172−176.

Mazurkiewicz, A. (1986). Zdarzenia i stany: Elementy temporalności. In V. Koseska-Toszewa, I. Sawicka, & J. Mindak (Eds.), Studia gramatyczne bułgarsko-polskie (Vol. 1, Temporalność, pp. 7–21). Wrocław: Ossolineum.

Mazurkiewicz, A., & Koseska-Toszewa, V. (1991). Sieciowe przedstawienie temporalności i modalności w zdaniach języka naturalnego. In V. Koseska-Toszewa, I. Sawicka, & J. Mindak (Eds.), Studia gramatyczne bułgarsko-polskie (Vol. 1, Temporalność, pp. 7–21). Wrocław: Ossolineum.

Padó, S., & Lapata, M. (2009). Cross-lingual annotation projection of semantic roles. Journal of Artificial Intelligence Research, 36, 307–340.

Petri, C. A. (1962). Fundamentals of the theory of asynchronous information flow. In Proc. of IFIP’62 Congress (pp. 386–391). Amsterdam: North Holland Publ. Comp.

Rasiowa, H. (1975). Wstęp do matematyki współczesnej. Warszawa: PWN.

Reeder, F., Miller, K., Farwell, D., Helmreich, S., Hovy, E., Levin, L., … Siddharthan, A. (2004). Semantic annotation of multilingual text corpora. In Proceedings of COLING, Geneva, Switzerland. Retrieved 1 April 2016 from http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.643.5915&rep=rep1&type=pdf

Reichenbach, H. (1967). Analiza języka potocznego. In J. Pelc (Ed.), Logika i język (pp. 85–222). Warszawa: PWN.

Roszko, D. (2015). Zagadnienia kwantyfikacyjne i modalne w litewskiej gwarze puńskiej (Na tle literackich języków polskiego i litewskiego). Warszawa: SOW.

Roszko, D., & Roszko, R. (2007). Funktsii litovskogo proshedshego mnogokratnogo vremeni (russkie sootvetstviia). In S. Polkovnikova (Ed.), Valoda, Valoda dažādu kultūru kontekstā, Zinātnisko rakstu krājums (Vol. 17, pp. 200–207). Daugavpils: Daugavpils Universitātes, Akadēmiskais apgāds „Saule”.

Roszko, D., & Roszko, R. (2014). A net presentation of Lithuanian sentences containing verbal forms with the grammatical suffix -dav-. Cognitive Studies | Études cognitives, (14), 173–182. http://dx.doi.org/10.11649/cs. 2014.014

Roszko, D. & Roszko, R. (2016). Polish-Lithuanian Parallel Corpus, CLARIN-PL digital repository. http://hdl.handle.net/11321/309

Roszko, R. (2004). Semantyczna kategoria określoności/nieokreśloności w języku litewskim (w zestawieniu z językiem polskim). Warszawa: SOW.

Russell, B. (1967). Denotowanie. Deskrypcje. In J. Pelc (Ed.) Logika i język (pp. 377–413). Warszawa: PWN.

Volk, M., & Samuelsson, Y. (2007). Frame-semantic annotation on a parallel treebank. In Proc. of Nodalida Workshop on Building Frame Semantics Resources for Scandinavian and Baltic Languages. Tartu. Retrieved 1 April 2016 from http://fileadmin.cs.lth.se/nlp/frame2007/Proceedings/MVolk.pdf
Copyright (c) 2016 Violetta Koseska-Toszewa, Roman Roszko

License URL: http://creativecommons.org/licenses/by/3.0/pl/