The Use of Large Language Models for Information Extraction

Heino, Tiia

The Use of Large Language Models for Information Extraction

Heino, Tiia (2025-06-25)

The Use of Large Language Models for Information Extraction

Heino, Tiia

(25.06.2025)

Katso/Avaa

Heino_Tiia_opinnayte.pdf (364.7Kb)

Lataukset:

Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.

avoin

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025062775362

Tiivistelmä

Large Language Models (LLM) are Artificial Intelligence (AI) models that can be fine-tuned for specific tasks. They can be used for Information Extraction (IE), a domain of Natural Language Processing (NLP), that aims to extract information from unstructured text and convert it into structured, machine-readable data. Using LLMs for IE allows for more accurate and less time-consuming extraction. For materials science using LLMs for IE enables a more automated extraction that can be used with Materials Science Databases, that store diverse data on different materials. With these tools materials science research can go towards a new era with data-driven studies. Using LLMs does have its challenges with hallucinations, environmental costs and transparency issues.

Suuret kielimallit ovat tekoälymalleja, joita voidaan hienosäätää tiettyjä tehtäviä varten. Niitä voidaan käyttää tiedonlouhintaan, joka on luonnollisen kielen prosessoinnin osa-alue, jonka tavoitteena on poimia tietoa jäsentymättömästä tekstistä ja muuntaa se jäsennellyksi, koneella luettavaksi dataksi. Mallien käyttö tiedonlouhinnassa mahdollistaa tarkemman ja vähemmän aikaa vievän louhinnan. Materiaalitieteessä mallien käyttö tiedonlouhintaan mahdollistaa automatisoidumman louhinnan, jota voidaan käyttää Materiaalitieteellisten Tietopankkien kanssa, jotka sisältävät monipuolista tietoa eri materiaaleista. Näiden työkalujen avulla materiaalitieteellinen tutkimus voi siirtyä uuteen datapainoitteiseen aikakauteen. Suurten kielimallien käyttöön liittyy kuitenkin haasteita, joita ovat hallusinaatiot, ympäristökustannukset ja haasteet läpinäkyvyydessä.

Kokoelmat

Kandidaatin tutkielmat (kokotekstit) [1832]