Re-evaluating the revisioned S800 Dataset for Species Recognition: A Cross-Corpus Approach Using BioBERT

dc.contributor.authorToivonen, Harttu
dc.contributor.departmentfi=Tietotekniikan laitos|en=Department of Computing|
dc.contributor.facultyfi=Teknillinen tiedekunta|en=Faculty of Technology|
dc.contributor.studysubjectfi=Tietojenkäsittelytieteet|en=Computer Science|
dc.date.accessioned2024-06-27T15:14:40Z
dc.date.available2024-06-27T15:14:40Z
dc.date.issued2024-06-13
dc.description.abstractThe S800 dataset is utilized for identifying named entities in biomedicine. However, the S800 under-performs many other biomedical datasets designed for named entity recognition. Consequently, the S800 dataset was re-annotated. This Master’s thesis focuses on a comparative evaluation of the new and old versions of the dataset from the perspective of species entities. Employing natural language processing and named entity recognition, the research aims to train a BioBERT-based model to recognize species in texts by leveraging context. The study uncovers inconsistencies in the old S800 dataset, particularly in the naming of species subtypes, affecting its performance. Comparing the new and old S800 datasets and contrasting them with the LINNAEUS dataset yielded results indicating an improvement in species recognition but also highlighted issues within the LINNAEUS dataset. Efforts were made to identify the dataset sections that produced the most errors, and species were examined by subcategories. Metrics were developed, potentially applicable to broader error analysis in biomedical texts.
dc.description.abstractS800 on aineisto, jota hyödynnetään nimettyjen entiteettien löytämiseen biolääketieteessä. S800 toimii kuitenkin huonommin kuin monet muut nimettyjen entiteettien tunnistamiseen tarkoitetut biolääketieteelliset aineistot. Tämän takia S800- aineisto annotointiin uudestaan. Tässä maisterintutkielmassa keskitytään sen uuden ja vanhan aineiston keskinäiseen arviointiin lajientiteettien näkökulmasta. Luonnollista kielenkäsittelyä ja nimettyjen entiteettien tunnistusta käyttäen tutkimuksen tavoitteena on kouluttaa BioBERT-pohjainen malli tunnistamaan lajit tekstistä hyödyntäen kontekstia. Tutkimus paljastaa epäjohdonmukaisuuksia vanhasta S800- aineistossa, erityisesti lajien alatyyppien nimeämisessä, mikä vaikuttaa sen suoritukykyyn. Vertaillessa uutta ja vanhaa S800-aineistoa ja vertaamalla sitä LINNAEUSaineistoon, saimme tuloksia, jotka viittaavat lajien tunnistuksen parantumiseen, mutta myös viittavaat ongelmiin LINNAUES-aineistossa. Lisäksi pyrittiin löytämään aineistosta niitä osia, jotka tuottivat kaikista eniten virheitä ja lajeja tutkittiin myös alakategorioittain. Tähän laadittiin metriikoita, joita voi mahdollisesti hyödyntää myös laajemmin virheanalyysistä biolääketieteellisessä tekstissä.
dc.format.extent246
dc.identifier.olddbid195536
dc.identifier.oldhandle10024/178588
dc.identifier.urihttps://www.utupub.fi/handle/11111/19574
dc.identifier.urnURN:NBN:fi-fe2024062558185
dc.language.isoeng
dc.rightsfi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.|
dc.rights.accessrightsavoin
dc.source.identifierhttps://www.utupub.fi/handle/10024/178588
dc.subjectNLP, BERT, BioBERT, NER
dc.titleRe-evaluating the revisioned S800 Dataset for Species Recognition: A Cross-Corpus Approach Using BioBERT
dc.type.ontasotfi=Pro gradu -tutkielma|en=Master's thesis|

Tiedostot

Näytetään 1 - 1 / 1
Ladataan...
Name:
Toivonen_Harttu_opinnayte.pdf
Size:
2.95 MB
Format:
Adobe Portable Document Format