LLM-teknologiaa hyödyntävä kääntäminen: saksankielisten juridisten tekstien suomentaminen ja jälkieditoinnin merkitys  : Laadullinen vertaileva käännösanalyysi

Riihimäki, Eveliina

LLM-teknologiaa hyödyntävä kääntäminen: saksankielisten juridisten tekstien suomentaminen ja jälkieditoinnin merkitys : Laadullinen vertaileva käännösanalyysi

Riihimäki, Eveliina (2026-02-13)

LLM-teknologiaa hyödyntävä kääntäminen: saksankielisten juridisten tekstien suomentaminen ja jälkieditoinnin merkitys : Laadullinen vertaileva käännösanalyysi

Riihimäki, Eveliina

(13.02.2026)

Katso/Avaa

Riihimaki_Eveliina_Opinnayte.pdf (2.267Mb)

Lataukset:

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.

avoin

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2026032422773

Tiivistelmä

Tässä pro gradu -tutkielmassa analysoidaan ChatGPT 5.2 -kielimallin ja DeepL Next-Gen -konekääntimen tuottamia suomennoksia saksankielisestä EU:n tuomioistuimen lehdistötiedotteesta (98/19) sekä tarkastellaan niiden jälkieditointitarvetta. Tutkielman tavoitteena oli selvittää, millaisia virheitä ja kielellisiä puutteita edistyneen käännösteknologian tuottamissa suomennoksissa esiintyy, kumpi järjestelmistä tuottaa laadukkaamman käännöksen, miten suomen kielen erityispiirteet ja juridisen kääntämisen vaatimukset näkyvät käännösjäljessä sekä millaista asiantuntemusta käännösten jälkieditointi edellyttää.

Tutkimusmenetelminä käytettiin laadullista rinnakkaiskorpusanalyysiä ja tilastollista virheanalyysiä. Saksankielistä lähdetekstiä verrattiin ChatGPT-5.2:n ja DeepL Next-Genin tuottamiin käännöksiin sekä ihmiskääntäjän referenssikäännökseen. Virheet luokiteltiin MQM-virhemallilla ja jälkieditointitarve arvioitiin tutkimusta varten kehitetyllä viisiportaisella asteikolla.

Tulokset osoittivat, että ChatGPT-5.2 ja DeepL Next-Gen pystyvät usein tuottamaan sujuvaa suomea, mutta niiden käännöksissä esiintyy systemaattisia terminologia-, syntaksi- ja morfologisia virheitä, jotka useissa tapauksissa vaativat merkittävää jälkieditointia ja jopa vääristävät oikeudellista merkitystä; ChatGPT:n tuotokset olivat sujuvampia mutta vaativat enemmän terminologista ja substanssiin kajoavaa korjausta, kun taas DeepL:n käännökset olivat paikoin terminologisesti tarkempia mutta kärsivät enemmän saksan rakenteellisesta interferenssistä lauserakenteissa.

Tutkielman perusteella ammattikääntäjän juridinen ja kielellinen asiantuntemus on edelleen välttämätöntä kielimallien ja konekääntimien tuottamien juridisten käännösten viimeistelyssä. Jälkieditointi parantaa merkittävästi käännösten luettavuutta, kohderyhmäsopivuutta ja oikeudellista tarkkuutta. Tutkielma suosittaa, että konekäännöksiä hyödynnetään juridisessa kääntämisessä vain ammattimaisen jälkieditoinnin yhteydessä.

Die vorliegende Masterarbeit untersucht die Qualität maschinell erzeugter Übersetzungen juristischer Texte vom Deutschen ins Finnische unter Einsatz moderner Large-Language-Models (LLM). Im Zentrum der Analyse stehen die Übersetzungsleistungen des Sprachmodells ChatGPT-5.2 und des auf neuronaler mas-chineller Übersetzung basierenden Systems DeepL Next-Gen sowie der jeweils erforderliche Post-Editing-Aufwand. Die Studie basiert auf der Übersetzung einer deutschen Pressemitteilung des Gerichtshofs der Europäischen Union (Nr. 98/19) ins Finnische und analysiert systematisch Fehler auf lexikalischer, mor-phosyntaktischer und funktionaler Ebene anhand eines einzelnen, nicht offiziell übersetzten juristischen Ausgangstextes.
Rechtssprachliche Texte stellen besondere Anforderungen an die Übersetzungsqualität. Juristische Termi-nologie ist präzise und normativ, und bereits geringfügige Ungenauigkeiten können zu erheblichen Bedeutungsverschiebungen führen. Gleichzeitig weist das Finnische als agglutinierende Sprache mit kom-plexer Morphologie strukturelle Besonderheiten auf, die sich erheblich von indoeuropäischen Sprachen wie dem Deutschen unterscheiden. Diese linguistischen Divergenzen zwischen Ausgangs- und Zielsprache schaffen zusätzliche Herausforderungen für maschinelle Übersetzungssysteme, die nicht allein durch große Datenmengen bewältigt werden können.
Methodisch basiert die Arbeit auf einer qualitativen Parallelkorpusanalyse. Der deutsche Ausgangstext wird mit drei finnischen Versionen verglichen: den maschinellen Übersetzungen von ChatGPT-5.2 und DeepL Next-Gen sowie einer von einem professionellen Übersetzer angefertigten Referenzübersetzung. Zur sys-tematischen Fehleridentifikation und -klassifikation wird das MQM-Modell (Multidimensional Quality Metrics) angewandt, das eine differenzierte Analyse nach Fehlertyp und Schweregrad ermöglicht. Ergän-zend wurde für diese Studie eine fünfstufige Post-Editing-Skala entwickelt, mit der das für jeden Satz er-forderliche Niveau an Fachexpertise bewertet wird, um eine publikationsreife juristische Übersetzung zu erreichen.
Terminologische Fehler und Ungenauigkeiten
Die Analyse auf lexikalischer Ebene zeigt systematische terminologische Probleme in beiden Systemen. ChatGPT-5.2 wies 24 terminologische Fehler in 19 Segmenten auf, während DeepL Next-Gen 30 Fehler in 23 Segmenten verzeichnete. Während beide Systeme bei der internen terminologischen Konsistenz in-nerhalb eines Textes relativ erfolgreich waren, zeigten sich erhebliche Schwächen bei der Einhaltung eta-blierter Fachterminologie und institutioneller Konventionen.
Ein besonders gravierendes Problem war die Verwendung des englischen Lehnworts “sampling” anstelle des etablierten finnischen Fachbegriffs “samplaaminen” tai “samplaus”. ChatGPT verwendete durchgehend “sampling”, während DeepL zwischen verschiedenen deutschen Begriffen schwankte, ohne die etablierte finnische Terminologie zu treffen.
Bei institutionellen Bezeichnungen versagten beide Systeme. EU-Richtlinien haben offizielle finnische Namen, die in der EUR-Lex-Datenbank veröffentlicht sind. ChatGPT ließ die Richtliniennamen vollständig unübersetzt und kopierte den deutschen Text, während DeepL versuchte, direkt zu übersetzen, ohne die offiziellen Bezeichnungen zu verwenden. Ähnliche Probleme zeigten sich bei der Benennung von Gerichten: DeepL übersetzte “Bundesgerichtshof” inkonsistent als “liittovaltion tuomioistuin” und “liitto-valtion korkein oikeus”, beides unpräzise Verallgemeinerungen. Die korrekte Lösung, wie sie der menschliche Übersetzer wählte, lautete: “Bundesgerichtshof (liittovaltion ylin yleinen tuomioistuin, Saksa)”.
Auch standardisierte institutionelle Phrasen wurden mechanisch übersetzt. Beide Systeme übersetzten “Pressekontakt” als “Lehdistökontakti”, obwohl die finnischen Pressemitteilungen des EuGH standard-mäßig die Überschrift “Lisätietoja” verwenden.
Morphosyntaktische Interferenz
Strukturelle Interferenz aus dem Deutschen erwies sich als das beherrschende morphosyntaktische Problem und war in nahezu allen analysierten Segmenten (37 von 40) bei mindestens einem der beiden Systeme feststellbar. Syntaktische Probleme waren dabei deutlich häufiger als rein morphologische Fehler.
Die charakteristische deutsche Satzklammer wurde systematisch und ohne Anpassung an die syntaktischen Konventionen des Finnischen übertragen. In Segment L12 produzierte ChatGPT die Struktur “Bun-desgerichtshof [...] haluaa [...] muun muassa tietää”, wobei das Hilfsverb “haluaa” vom Hauptverb “tietää” durch zahlreiche Satzglieder getrennt wird. Im Finnischen sollten Verben unmittelbar aufeinander folgen.
Auch die Informationsstruktur wurde durch mechanische Übernahme deutscher Wortstellung verzerrt. In Segment L14 platzierte ChatGPT das Subjekt fehlerhaft am Satzende (“ovatko unionin oikeuden kanssa yhteensopivia Saksan oikeussäännökset”), während DeepL der deutschen ob-Satz-Struktur folgte. Im Finn-ischen sollte das Subjekt als bekannte Information (Thema) am Satzanfang nach dem Fragewort stehen.
Lange Relativsatzketten und eingebettete Nebensätze, die für das Deutsche typisch sind, wurden nahezu unverändert übernommen und führten zu schwer lesbaren Strukturen. In Segment L25 erhielt DeepL die deutsche Relativsatzkette: ”äänitallenteesta otetun äänifragmentin käyttö, josta voidaan tunnistaa teos, josta se on otettu”. Solche Verkettungen sollten im Finnischen durch Partizipialkonstruktionen oder sepa-rate Sätze aufgelöst werden.
Morphologische Fehler waren seltener, hatten aber teilweise schwerwiegende juristische Konsequenzen. Am kritischsten war der Modusfehler in Segment L10: Beide Systeme produzierten den Indikativ "on kopi-oinut" (hat kopiert), obwohl der Kontext den Konditional “olisi kopioinut” (hätte kopiert) erforderte. Das deutsche “habe kopiert” (Konjunktiv I) drückt indirekte Rede aus, die im Finnischen typischerweise durch den Konditional markiert wird. Die Verwendung des Indikativs suggeriert, dass das Kopieren eine festste-hende Tatsache ist, während es sich lediglich um eine noch zu prüfende Behauptung einer Partei handelt – ein juristisch relevanter Unterschied.
Weitere morphologische Probleme betrafen Kasusfehler, insbesondere bei der Übertragung deutscher Präpositionalstrukturen in finnische Kasusformen. In Segment L33 verwendeten beide Systeme den Adessiv (”toisella äänitallenteella”), wo der Inessiv (”toisessa äänitallenteessa”) idiomatisch korrekt gewesen wäre.
Funktionale Ebene: Register und Rechtswirkung
Auf funktionaler Ebene zeigten sich Defizite in der Einhaltung juristischer Registerkonventionen und insti-tutioneller Kommunikationsnormen. Die maschinellen Übersetzungssysteme litten unter Registerinstabil-ität mit einer Tendenz zur Umgangssprache.
In den Segmenten L16 und L17 verwendete ChatGPT das Verb “muistuttaa” (erinnern) als Äquivalent für das deutsche “hinweisen”, was in einem Kontext, in dem der EuGH auf gefestigte Rechtsprechung ver-weist, zu informell ist. In den Segmenten L12 und L14 verwendete ChatGPT die Wendung “haluaa tietää” (will wissen) für ein Vorabentscheidungsersuchen, was stilistisch zu umgangssprachlich ist; etablierte For-mulierungen wie “tiedustelee” oder “pyytää selvitystä” wahren die formale Amtlichkeit.
Kulturgebundene Höflichkeitskonventionen bereiteten ChatGPT Probleme. In den Segmenten L9-L11 wiederholte das System unnötig “herra” (Herr) vor Namen, obwohl im finnischen Amtsstil die bloße Nennung der Namen üblich ist. Die Titelwiederholung erzeugt einen Eindruck übertriebener Förmlichkeit.
Quantitative Ergebnisse und Post-Editing-Bedarf
Die Studie belegt, dass nur ein geringer Anteil der maschinell übersetzten Segmente ohne Nachbearbeitung publikationsreif ist (ChatGPT 12,5 %, DeepL 7,5 %). In der quantitativen Bewertung erzielte ChatGPT-5.2 eine Gesamtpunktzahl von 231 MQM-Punkten, während DeepL Next-Gen mit 285 Punkten bewertet wurde (wobei eine höhere Punktzahl eine geringere Qualität widerspiegelt). Obwohl DeepL mit insgesamt 113 Fehlern geringfügig weniger Fehler aufwies als ChatGPT (115 Fehler), lag der Anteil schwerer (major) und kritischer (critical) Fehler bei DeepL höher, was das schlechtere Gesamtergebnis erklärt. Die überwiegende Mehrheit der Übersetzungen erforderte mindestens Korrekturen der Stufe 3 oder 4 der entwickelten Skala, was substantielle fachliche Eingriffe bedeutet.
Der zentrale Unterschied zwischen den beiden Systemen liegt nicht im Gesamtumfang des Post-Editing-Bedarfs, sondern in dessen Art: ChatGPT erfordert vom Post-Editor vor allem Fachkompetenz zur Identif-ikation und Korrektur terminologischer Ungenauigkeiten, Modalfehler und Abweichungen vom juristischen Register. Die Texte sind sprachlich flüssiger, weisen jedoch 24 terminologische Fehler auf und erfordern substanzielle Korrekturen der fachlichen Inhalte. DeepL hingegen ist terminologisch präziser (trotz 30 Feh-lern in mehr Segmenten handelt es sich oft um weniger schwerwiegende Abweichungen), verlangt aber primär sprachliche Kompetenz zur Auflösung strukturell ungelenker Sätze und zur Beseitigung deutscher Interferenzerscheinungen.
Schlussfolgerungen
Die Untersuchung unterstreicht, dass die juristische und sprachliche Fachkompetenz professioneller Übersetzer nach wie vor unverzichtbar für die Qualitätssicherung maschinell erstellter juristischer Übersetzungen ist. Post-Editing verbessert signifikant die Lesbarkeit, Zielgruppenadäquatheit und juris-tische Präzision der Texte. Die Ergebnisse deuten darauf hin, dass sich die Rolle des Übersetzers zuneh-mend von der primären Textproduktion hin zur strategischen Qualitätssicherung und zum sprachlichen Risikomanagement verlagert.
Die Studie zeigt, dass oberflächlich flüssig wirkende maschinelle Übersetzungen subtile Fehler enthalten können, die die Rechtswirkung des Textes beeinträchtigen. Der professionelle Übersetzer muss über die grammatikalisch korrekte Oberfläche hinausblicken und jene Stellen identifizieren können, an denen die juristische Logik fehlerhaft ist. Dies erfordert den Übergang vom reinen Post-Editing zur strategischen Qualitätssicherung, bei der der Übersetzer die letztendliche Verantwortung für die juristische Integrität des Textes trägt.
Die Ergebnisse haben auch wichtige Implikationen für die Übersetzerausbildung. Das für Fachübersetzung-en erforderliche Spezialwissen wird durch die technologische Entwicklung nicht obsolet, sondern zur un-verzichtbaren Voraussetzung für die Qualitätssicherung KI-gestützter Übersetzungen. Übersetzer müssen die Unterschiede zwischen Rechtssystemen und Rechtssprachen sowie die juristische Terminologie be-herrschen, um als bewertende Fachexperten für maschinelle Ausgaben fungieren zu können.
Für das Finnische als kleine Sprachgemeinschaft mit strukturell großer Distanz zu den Hauptsprachfamilien besteht zudem das Risiko, dass strukturelle Interferenz aus dem Deutschen oder Englischen den finnischen juristischen Sprachgebrauch prägen könnte, wenn maschinelle Übersetzungen ohne ausreichende Kritik verwendet werden. Die Arbeit empfiehlt daher nachdrücklich, dass maschinelle Übersetzungssysteme im juristischen Bereich ausschließlich in Verbindung mit professionellem Post-Editing durch qualifizierte Fachübersetzer eingesetzt werden sollten. Für die Zukunft ist es entscheidend, ein Gleichgewicht zwischen technologischer Effizienz und menschlicher Expertise zu finden, damit die finnische Rechtssprache auch im Zeitalter der künstlichen Intelligenz präzise und eigenständig bleibt.

Kokoelmat

Pro gradu -tutkielmat ja diplomityöt sekä syventävien opintojen opinnäytetyöt (kokotekstit) [10058]