Multi-CrossRE A Multi-Lingual Multi-Domain Dataset for Relation Extraction

Bassignana Elisa; Ginter Filip; Pyysalo Sampo; Rob van der Goot; Plank Barbara

Multi-CrossRE A Multi-Lingual Multi-Domain Dataset for Relation Extraction

Bassignana Elisa; Ginter Filip; Pyysalo Sampo; Rob van der Goot; Plank Barbara

Multi-CrossRE A Multi-Lingual Multi-Domain Dataset for Relation Extraction

Bassignana Elisa

Ginter Filip

Pyysalo Sampo

Rob van der Goot

Plank Barbara

Katso/Avaa

2023.nodalida-1.9.pdf (474.7Kb)

Lataukset:

URI

https://aclanthology.org/2023.nodalida-1.9

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025082792536

Tiivistelmä

Most research in Relation Extraction (RE) involves the English language, mainly due to the lack of multi-lingual resources. We propose MULTI-CROSSRE, the broadest multi-lingual dataset for RE, including 26 languages in addition to English, and covering six text domains. MULTICROSSRE is a machine translated version of CrossRE (Bassignana and Plank, 2022a), with a sub-portion including more than 200 sentences in seven diverse languages checked by native speakers. We run a baseline model over the 26 new datasets and—as sanity check—over the 26 back-translations to English. Results on the back-translated data are consistent with the ones on the original English CrossRE, indicating high quality of the translation and the resulting dataset.

Kokoelmat

Rinnakkaistallenteet [29335]