Reseptien kaupunkeja, kulttuurin värinöitä ja luxus demareita: Koneellisesti laadittujen ohjelmatekstitysten laadunarviointi
Martikainen, Hanne (2025-04-07)
Reseptien kaupunkeja, kulttuurin värinöitä ja luxus demareita: Koneellisesti laadittujen ohjelmatekstitysten laadunarviointi
Martikainen, Hanne
(07.04.2025)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025050235427
https://urn.fi/URN:NBN:fi-fe2025050235427
Tiivistelmä
Pro gradu -tutkielmassa tutkimuksen kohteena on koneellisesti laadittujen ohjelmatekstitysten laadun taso sekä niiden automatisointi ei-ammattimaisen käytön näkökulmasta. Laadunarvioinnissa sovelletaan Pablo Romero-Frescon ja Juan Martínezin kehittämää virheanalyysin NER-mallinnusta, suomalaisia Ohjelmatekstitysten laatusuosituksia ja ISO 5060 -standardia, joka tarjoaa virhekategoriat laadun arviointiin.
Aineisto kerätään kolmesta tyypiltään erilaisesta ohjelmasta: 8.9.2024 lähetetystä uutisohjelman jaksosta Yle Uutiset 18.00, Kulttuuricocktail-live-keskusteluohjelman jaksosta Mitä kulttuurille tapahtuu eduskuntavaalien jälkeen? ja Perjantaidokkari-ohjelmasarjan dokumentista Teuvo Tekoäly pelastaa Pyhännän. Ohjelmista laaditaan puheentunnistimella transkriptiot, joiden pohjalta tutkielmassa hyödynnetty tekoälysovellus Copilot laatii ohjelmatekstitykset. Tutkimuksessa analysoidaan yhteensä yhdeksää Copilotin laatimaa tekstitysversiota. Tämän lisäksi tekstityksiä verrataan niin itse litteroituihin kuin puheentunnistimen transkriptioihin.
Tutkielman tulokset osoittivat, että Copilotin laatimat ohjelmatekstitysversiot vaatisivat huomattavan määrän korjauksia, jotta ne saavuttaisivat riittävän laadun kaikilla arvioiduilla osa-alueilla. Keskeisenä tuloksena esille nousi erityisesti generatiivisen tekoälysovelluksen kyvyttömyys käsitellä video- tai äänitiedostoja, jolloin se menetti tekstittämisen kannalta olennaista tietoa visuaalisesta ja äänellisestä kanavasta. Tämän lisäksi puheentunnistimen tuottaman transkription laatu vaikutti huomattavasti Copilotin kykyyn saavuttaa riittävän laadukasta tulosta.
Tutkimus tuotti hyödyllistä tietoa ei-ammattimaisen ohjelmatekstittämisen koneellistamisesta ja generatiivisen tekoälyn laatiman tekstityksen laadusta. Tämän lisäksi tutkimus vahvisti näkemyksiä siitä, että erityisesti tekstittämisprosessin automatisointi vaatii tällä hetkellä yhä ihmisen tekemää työtä, jotta ohjelmatekstitykset olisivat riittävän saavutettavia.
Aineisto kerätään kolmesta tyypiltään erilaisesta ohjelmasta: 8.9.2024 lähetetystä uutisohjelman jaksosta Yle Uutiset 18.00, Kulttuuricocktail-live-keskusteluohjelman jaksosta Mitä kulttuurille tapahtuu eduskuntavaalien jälkeen? ja Perjantaidokkari-ohjelmasarjan dokumentista Teuvo Tekoäly pelastaa Pyhännän. Ohjelmista laaditaan puheentunnistimella transkriptiot, joiden pohjalta tutkielmassa hyödynnetty tekoälysovellus Copilot laatii ohjelmatekstitykset. Tutkimuksessa analysoidaan yhteensä yhdeksää Copilotin laatimaa tekstitysversiota. Tämän lisäksi tekstityksiä verrataan niin itse litteroituihin kuin puheentunnistimen transkriptioihin.
Tutkielman tulokset osoittivat, että Copilotin laatimat ohjelmatekstitysversiot vaatisivat huomattavan määrän korjauksia, jotta ne saavuttaisivat riittävän laadun kaikilla arvioiduilla osa-alueilla. Keskeisenä tuloksena esille nousi erityisesti generatiivisen tekoälysovelluksen kyvyttömyys käsitellä video- tai äänitiedostoja, jolloin se menetti tekstittämisen kannalta olennaista tietoa visuaalisesta ja äänellisestä kanavasta. Tämän lisäksi puheentunnistimen tuottaman transkription laatu vaikutti huomattavasti Copilotin kykyyn saavuttaa riittävän laadukasta tulosta.
Tutkimus tuotti hyödyllistä tietoa ei-ammattimaisen ohjelmatekstittämisen koneellistamisesta ja generatiivisen tekoälyn laatiman tekstityksen laadusta. Tämän lisäksi tutkimus vahvisti näkemyksiä siitä, että erityisesti tekstittämisprosessin automatisointi vaatii tällä hetkellä yhä ihmisen tekemää työtä, jotta ohjelmatekstitykset olisivat riittävän saavutettavia.