Hyppää sisältöön
    • Suomeksi
    • In English
  • Suomeksi
  • In English
  • Kirjaudu
Näytä aineisto 
  •   Etusivu
  • 1. Kirjat ja opinnäytteet
  • Väitöskirjat
  • Näytä aineisto
  •   Etusivu
  • 1. Kirjat ja opinnäytteet
  • Väitöskirjat
  • Näytä aineisto
JavaScript is disabled for your browser. Some features of this site may not work without it.

Machine learning in modeling historical registers – A new perspective to text linguistics

Repo, Liina (2026-01-30)

Machine learning in modeling historical registers – A new perspective to text linguistics

Repo, Liina
(30.01.2026)
Katso/Avaa
AnnalesB759Repo.pdf (1.461Mb)
Lataukset: 

Turun yliopisto
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on:
https://urn.fi/URN:ISBN:978-952-02-0515-7

Kuvaus

navigointi mahdollista
looginen lukemisjärjestys
Tiivistelmä
This dissertation explores the insights into historical linguistic variation that can be gained through automatically identifying registers in large historical corpora, as well as the role of register variation in shaping these insights. Registers, i.e., situationally defined text varieties, are central to interpreting linguistic variation. This thesis investigates how existing annotated resources can be leveraged to enrich unannotated datasets, how variation between and within registers affects prediction reliability, and how linguistically interpretable features can deepen our understanding of register-specific language use.

Across three studies, this thesis integrates supervised machine learning with qualitative feature analysis, training models on the manually annotated Corpus of Founding Era American English (COFEA) and applying them to the large, heterogeneous Eighteenth Century Collections Online (ECCO). Study I models register variation within COFEA and demonstrates the feasibility of automatic register classification for historical texts, with feature analyses confirming that the model acquires meaningful, register-specific patterns (e.g., verbal and interpersonal features in letters). Study II extends the classification to ECCO, showing that models trained on COFEA generalize to ECCO for well-defined registers (e.g., letters, cases) but face challenges with hybrid categories, corpus-specific differences, and OCRinduced noise. Model explainability method Integrated Gradients highlights shared situational and linguistic cues behind both correct predictions and systematic misclassifications. Study III shifts focus to intra-document variation, demonstrating that text beginnings are most reliable for register prediction and that models capture stable, meaningful linguistic patterns across text segments. Keyword analyses confirm stable, linguistically motivated cues (e.g., interpersonal and informational features in letters) that persist across text parts.

Together, the studies offer new methods for enriching historical corpora with register information. Moreover, the results clarify how register variation shapes model behavior and deliver interpretable linguistic insights that strengthen corpus usability for research in historical linguistics, legal history, and digital humanities.
 
-----
Väitöskirja tarkastelee, millaisia näkökulmia historiallisen kielen variaatioon saadaan, kun suurten historiallisten tekstikorpusten rekisterit tunnistetaan automaattisesti, sekä miten rekisterivaihtelu vaikuttaa näihin havaintoihin. Rekisterit, eli tilanteisesti määrittyvät tekstilajit, ovat keskeisiä kielen vaihtelun tulkinnassa. Tutkimus selvittää, miten luokiteltuja aineistoja voidaan hyödyntää luokittelemattomien aineistojen täydentämisessä, miten rekisterien välinen ja sisäinen vaihtelu vaikuttaa ennusteiden luotettavuuteen, sekä miten kielelliset piirteet voivat syventää ymmärrystä rekisterikohtaisesta kielenkäytöstä.

Väitöskirjan kolme osatutkimusta yhdistävät koneoppimista ja kielenpiirteiden laadullista tarkastelua. Koneoppimismallit koulutetaan käsin luokitellulla Corpus of Founding Era American English (COFEA) -korpuksella ja niitä sovelletaan laajaan, luokittelemattomaan Eighteenth Century Collections Online (ECCO) -aineistoon. Osatutkimus I mallintaa rekisterivariaatiota COFEA:ssa ja osoittaa automaattisen luokittelun mahdollisuuden historiallisilla teksteillä. Kielenpiirteiden analyysi puolestaan paljastaa rekisterikohtaisia säännönmukaisuuksia, kuten verbaalisia ja interpersoonallisia piirteitä kirjeissä. Osatutkimus II laajentaa luokittelun ECCO:on ja osoittaa, että COFEA:lla koulutetut mallit toimivat hyvin joissakin rekistereissä (esim. kirjeet, oikeustapaukset), mutta haasteita tuovat hybridiluokat, korpuskohtaiset erot ja OCR-virheet. Mallien selitettävyysmenetelmä Integrated Gradients paljastaa, mitkä kielelliset piirteet ovat yhteisiä sekä onnistuneille ennusteille että toistuville virheille. Osatutkimus III tarkastelee dokumenttien sisäistä vaihtelua ja osoittaa, että tekstien alut ennustuvat luotettavimmin ja että mallit tunnistavat johdonmukaisia ja merkityksellisiä kielellisiä piirteitä eri tekstiosissa. Avainsana-analyysi vahvistaa, että tietyt kielelliset piirteet (kuten interpersoonalliset ja informatiiviset piirteet kirjeissä) säilyvät läpi tekstin.

Tutkimus tarjoaa menetelmiä historiallisten korpusten rikastamiseen rekisteritiedolla ja osoittaa rekisterivariaation vaikutuksen koneoppimismalleihin. Samalla se tarkastelee, miten korpusten käytettävyyttä voidaan parantaa historiallisessa kielentutkimuksessa, oikeushistoriassa ja digitaalisissa ihmistieteissä.
 
Kokoelmat
  • Väitöskirjat [3084]

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste
 

 

Tämä kokoelma

JulkaisuajatTekijätNimekkeetAsiasanatTiedekuntaLaitosOppiaineYhteisöt ja kokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy

Turun yliopiston kirjasto | Turun yliopisto
julkaisut@utu.fi | Tietosuoja | Saavutettavuusseloste