Re-evaluating the revisioned S800 Dataset for Species Recognition: A Cross-Corpus Approach Using BioBERT

Toivonen, Harttu

Re-evaluating the revisioned S800 Dataset for Species Recognition: A Cross-Corpus Approach Using BioBERT

dc.contributor.author	Toivonen, Harttu
dc.contributor.department	fi=Tietotekniikan laitos\|en=Department of Computing\|
dc.contributor.faculty	fi=Teknillinen tiedekunta\|en=Faculty of Technology\|
dc.contributor.studysubject	fi=Tietojenkäsittelytieteet\|en=Computer Science\|
dc.date.accessioned	2024-06-27T15:14:40Z
dc.date.available	2024-06-27T15:14:40Z
dc.date.issued	2024-06-13
dc.description.abstract	The S800 dataset is utilized for identifying named entities in biomedicine. However, the S800 under-performs many other biomedical datasets designed for named entity recognition. Consequently, the S800 dataset was re-annotated. This Master’s thesis focuses on a comparative evaluation of the new and old versions of the dataset from the perspective of species entities. Employing natural language processing and named entity recognition, the research aims to train a BioBERT-based model to recognize species in texts by leveraging context. The study uncovers inconsistencies in the old S800 dataset, particularly in the naming of species subtypes, affecting its performance. Comparing the new and old S800 datasets and contrasting them with the LINNAEUS dataset yielded results indicating an improvement in species recognition but also highlighted issues within the LINNAEUS dataset. Efforts were made to identify the dataset sections that produced the most errors, and species were examined by subcategories. Metrics were developed, potentially applicable to broader error analysis in biomedical texts.
dc.description.abstract	S800 on aineisto, jota hyödynnetään nimettyjen entiteettien löytämiseen biolääketieteessä. S800 toimii kuitenkin huonommin kuin monet muut nimettyjen entiteettien tunnistamiseen tarkoitetut biolääketieteelliset aineistot. Tämän takia S800- aineisto annotointiin uudestaan. Tässä maisterintutkielmassa keskitytään sen uuden ja vanhan aineiston keskinäiseen arviointiin lajientiteettien näkökulmasta. Luonnollista kielenkäsittelyä ja nimettyjen entiteettien tunnistusta käyttäen tutkimuksen tavoitteena on kouluttaa BioBERT-pohjainen malli tunnistamaan lajit tekstistä hyödyntäen kontekstia. Tutkimus paljastaa epäjohdonmukaisuuksia vanhasta S800- aineistossa, erityisesti lajien alatyyppien nimeämisessä, mikä vaikuttaa sen suoritukykyyn. Vertaillessa uutta ja vanhaa S800-aineistoa ja vertaamalla sitä LINNAEUSaineistoon, saimme tuloksia, jotka viittaavat lajien tunnistuksen parantumiseen, mutta myös viittavaat ongelmiin LINNAUES-aineistossa. Lisäksi pyrittiin löytämään aineistosta niitä osia, jotka tuottivat kaikista eniten virheitä ja lajeja tutkittiin myös alakategorioittain. Tähän laadittiin metriikoita, joita voi mahdollisesti hyödyntää myös laajemmin virheanalyysistä biolääketieteellisessä tekstissä.
dc.format.extent	246
dc.identifier.olddbid	195536
dc.identifier.oldhandle	10024/178588
dc.identifier.uri	https://www.utupub.fi/handle/11111/19574
dc.identifier.urn	URN:NBN:fi-fe2024062558185
dc.language.iso	eng
dc.rights	fi=Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.\|en=This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.\|
dc.rights.accessrights	avoin
dc.source.identifier	https://www.utupub.fi/handle/10024/178588
dc.subject	NLP, BERT, BioBERT, NER
dc.title	Re-evaluating the revisioned S800 Dataset for Species Recognition: A Cross-Corpus Approach Using BioBERT
dc.type.ontasot	fi=Pro gradu -tutkielma\|en=Master's thesis\|

Tiedostot

Näytetään 1 - 1 / 1

Name:: Toivonen_Harttu_opinnayte.pdf
Size:: 2.95 MB
Format:: Adobe Portable Document Format

Lataa

Kokoelmat

Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (kokotekstit)