DOI: https://doi.org/10.11649/cs.1715

Sustainable long-term WordNet development and maintenance: Case study of the Czech WordNet

Adam Rambousek, Aleš Horák, Karel Pala

Abstract


Sustainable long-term WordNet development and maintenance: Case study of the Czech WordNet

Czech WordNet represents one of the first national wordnets created during the EuroWordNet and BalkaNet projects. However, the data contains various issues that affect the use of Czech WordNet in NLP applications. Since the publication of the first CzWN version, the semantic network was augmented in several phases, however, complex final editing and publishing process has not been finished. In 2017, we have started a project to evaluate and update the Czech WordNet, followed by a connection to the Collaborative Interlingual Index. In this paper, we provide an overview of Czech WordNet data updates and extensions, and present the roadmap to publish a revised version of the Czech WordNet under open license. Moreover, we introduce a developed concept for long-term updates and maintenance of the data based on crowdsourcing activities.

 

Zrównoważony i długafalowy proces rozwoju i utrzymania wordnetu na przykładzie wordnetu czeskiego

Czeski WordNet jest jednym z pierwszych narodowych wordnetów powstałych podczas projektów EuroWordNet i BalkaNet. Jednakże dane zawierają błędy, które wpływają na używanie czeskiego wordnetu w aplikacjach NLP. Od momentu opublikowania pierwszej wersji czeskiego wordnetu sieć semantyczna została rozszerzona w kilku etapach, jednak złożony proces końcowej edycji i publikacji nie został jeszcze zakończony. W roku 2017 zaczęliśmy projekt mający na celu ocenę i aktualizację czeskiego wordnetu, a następnie połączenie go z Collaborative Interlingual Index. W danym artykule przedstawiamy ogólny zarys uaktualnień i rozszerzeń zawartości czeskiego wordnetu, a także prezentujemy plan działania, który doprowadzi do publikacji udoskonalonej wersji czeskiego wordnetu na otwartej licencji. Ponadto prezentujemy opracowaną koncepcję długoterminowych uaktualnień i utrzymania danych w oparciu o działania crowdsourcingowe.


Keywords


EuroWordNet; BalkaNet; wordnet; Czech WordNet; DEBVisDic

Full Text:

PDF (in English)

References


Blahuš, M., & Pala, K. (2012). Extending Czech WordNet using a bilingual dictionary. In C. Fellbaum & P. T. J. M. Vossen (Eds.), Proceedings of the 6th Global WordNet Conference, Matsue, Japan (pp. 50-55). Brno: Tribun EU.

Bond, F., & Foster, R. (2013). Linking and extending an Open Multilingual Wordnet. In 51st Annual Meeting of the Association for Computational Linguistics: Proceedings of the conference (Vol. 1, pp. 1352-1362). Stroudsburg, PA: Association for Computer Linguistics.

Bond, F., Vossen, P., McCrae, J. P., & Fellbaum, C. (2016). CILI: The Collaborative Interlingual Index. In V. Barbu Mititelu, C. Forascu, C. Fellbaum, & P. Vossen (Eds.), Proceedings of the Eighth Global WordNet Conference (pp. 50-57). Bucharest: Global WordNet Association. Retrieved from http://jiangbian.me/papers/2016/gwc2016.pdf

Christodoulakis, D. (2004). Balkanet Final Report. University of Patras, DBLAB, No. IST-200029388.

Fellbaum, C. (Ed.). (1998). WordNet: An electronic lexical database. Cambridge, MA: MIT Press.

Filipec, J., et al. (1995). Slovník spisovné češtiny [SSČ]. Praha: Academia. (Electronic version LEDA, Praha).

Hlaváčková, D., Horák, A., & Kadlec, V. (2006). Exploitation of the Verbalex Verb Valency Lexicon in the syntactic analysis of Czech. In P. Sojka, I. Kopeček, & K. Pala (Eds), Lecture Notes in Computer Science: Vol. 4188. Text, Speech and Dialogue: 9th International Conference, TSD 2006, Brno, Czech Republic, September 11-15, 2006: Proceedings (pp. 79-85). Berlin: Springer-Verlag. https://doi.org/10.1007/11846406_10

Horák, A., & Smrž, P. (2003). VisDic - wordnet browsing and editing tool. In P. Sojka, K. Pala, P. Smrž, C. Fellbaum, & P. Vossen (Eds.), Proceedings of the Second International WordNet Conference - GWC 2004: Brno, Czech Republic, January 20-23, 2004 (pp. 136-141). Brno: Masaryk University.

Horák, A., & Smrž, P. (2004). New features of wordnet editor VisDic. Romanian Journal of Information Science and Technology, 7, 1-13.

Horák, A., Pala, K., Rambousek, A., & Povolný, M. (2006). DEBVisDic - First Version of New Client-Server Wordnet Browsing and Editing Tool. In P. Sojka, K.-S. Choi, C. Fellbaum, & P. Vossen (Eds.), GWC 2006: Third International WordNet Conference, GWC 2006 Jeju Island, Korea, January 22-26, 2006: Proceedings (pp. 325-328). Retrieved from http://semanticweb.kaist.ac.kr/conference/gwc/pdf2006/gwc06.pdf

Horák, A., & Rambousek, A. (2018). Wordnet consistency checking via crowdsourcing. In J. Čibej, V. Gorjanc, I. Kosem, & S. Krek, Proceedings of the XVIII EURALEX International Congress: Lexicography in Global Contexts (pp. 1023-1029). Ljubljana: Ljubljana University Press, Faculty of Arts.

Jakubíček, M., Kovář, V., & Šmerk, P. (2011). Czech morphological tagset revisited. In R. Horák (Ed.), Proceedings of recent Advances in Slavonic Natural Language Processing (pp. 29-42). Brno: Tribun EU.

Karlík, P. (1995). Příruční mluvnice češtiny. Praha: Nakladatelství Lidové noviny.

Pala, K., & Smrž, P. (2004). Building Czech Wordnet. Romanian Journal of Information Science and Technology, 7(1-2), 79-88.

Rambousek, A., & Horák, A. (2016). DEBVisDic: Instant Wordnet Building. In V. Barbu Mititelu, C. Forascu, C. Fellbaum, & P. Vossen (Eds.), Proceedings of the Eighth Global WordNet Conference (pp. 317-321). Bucharest: Romanian Academy. Retrieved March 1, 2018, from http://gwc2016.racai.ro/proceedings.html

Rambousek, A., Horák, A., Klement, D., & Kletečka, J. (2017). New features in DEBVisDic for WordNet visualization and user feedback. In A. Horák, P. Rychlý, & A. Rambousek, Proceedings of the 11th Workshop on Recent Advances in Slavonic Natural Languages Processing, RASLAN 2017 (pp. 3-10). Karlova Studánka: Tribun EU.

Rambousek, A., Pala, K., & Tukačová, S. (2017). Overview and future of Czech Wordnet. In J. P. McCrae, F. Bond, P. Buitelaar, P. Cimiano, T. Declerck, J. Gracia, I. Kernerman, E. Montiel Ponsoda, N. Ordan, & M. Piasecki, LDK Workshops: OntoLex, TIAD and Challenges for Wordnets (pp. 146-151). Galway: CEUR-WS.org.

Soria, C., Monachini, M., & Vossen, P. (2009). Wordnet-LMF: Fleshing out a standardized format for WordNet interoperability. In Proceedings of IWIC2009. New York, NY: ACM Press. https://doi.org/10.1145/1499224.1499246

Vossen, P. (Ed.). (1998). EuroWordNet: A multilingual database with lexical semantic networks for European languages. Dordrecht: Kluwer. https://doi.org/10.1007/978-94-017-1491-4
Copyright (c) 2018 Adam Rambousek, Aleš Horák, Karel Pala

License URL: http://creativecommons.org/licenses/by/3.0/pl/