GPT-kielimallien soveltaminen chat-pohjaisen asiakaspalvelun arviointiin
Tuominen, Jukka (2025-05-07)
GPT-kielimallien soveltaminen chat-pohjaisen asiakaspalvelun arviointiin
Tuominen, Jukka
(07.05.2025)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2025051947638
https://urn.fi/URN:NBN:fi-fe2025051947638
Tiivistelmä
Tässä diplomityössä tarkastellaan teleoperaattorin asiakaspalvelun keskustelujen ja niihin liittyvien tapahtumien arvioinnin automatisointia GPT-kielimalleja käyttävän toteutuksen avulla. Työn lähtökohtana oli toimeksiantajan eli teleoperaattorin tarve arvioida enemmän, tarkemmin ja tehokkaammin asiakaspalvelussa tapahtuvia tilanteita sekä havaita niissä kehityskohteita asiakaspalvelun laadun ja toiminnan parantamista varten. Työn keskeisenä tavoitteena on arvioida ja vertailla eri GPT-kielimallien ymmärrys ja arviointikykyjä sekä käyttökustannuksia ja niiden perusteella kehittää samalla toimiva työkalu, jota voidaan käyttää asiakaspalvelun arviointiprosessin automatisointiin. Asiakaspalvelun keskustelujen tekstien ja lisätietojen perusteella tilanteista voidaan kerätä kuvaavia tietojoukkoja, joita voidaan käyttää asiakaspalvelun tilanteiden arviointiin. Teleoperaattorin asiakaspalvelun asiakaskohtaamismallin ja muiden arviointikriteerien perusteella GPT-malleille voidaan muotoilla kehotteita erilaisin oppimismenetelmin ohjaamaan tehtävää arviointityötä. Tutkimuksessa käytetään kvantitatiivisia tilastollisia menetelmiä mallien kykyjen vertailuun. Käytettävät mallit ovat GPT-3.5 Turbo, GPT-4o Mini ja GPT-4o, joita arvioidaan kahden luokittelutehtävän perusteella. Ensimmäisessä tehtävässä analysoidaan mallien kykyjä ymmärtää keskusteluissa esiintyviä kategorioita ja toisessa puolestaan mallien vastauksina tuottamien arvioinnin arvosanojen oikeellisuutta numeroina. Mallien vertailua täydentää lisäksi niiden käyttökustannusten vertailu kuvaajien kautta. Tutkimustulokset viittaavat siihen, että GPT-mallit pystyvät tulkitsemaan asiakaspalvelussa tapahtuvia tilanteita ja niitä voidaan käyttää luotettavaan ja objektiiviseen arviointiin. Malleista GPT-4o suoriutuu tehtävistä parhaiten ja GPT-4o Mini on puolestaan selvästi kustannustehokkain. Tuloksien perusteella voidaan tunnistaa myös useita mallien ja toteutuksen käyttöön liittyviä haasteita, jotka on hyvä ottaa huomioon jatkokehitystä varten. This thesis examines the automation of evaluating telecom customer service conversations and related interaction events through an implementation leveraging GPT language models. The work was initiated to meet the telecom’s need for more frequent, precise, and efficient evaluations of customer service situations. It also aims to identify opportunities to improve both service quality and performance through scoring metrics and written feedback. The primary goal of the thesis is to evaluate and compare the comprehension and evaluation capabilities of different GPT language models and their usage costs. A key outcome of this research is the development of a functional tool designed to automate the customer service evaluation process by applying insights gained from the comparison results. Descriptive datasets about the customer service situations can be formed and used for evaluating interactions by analyzing conversation texts and additional metadata information related to them. Prompts for the GPT models can be engineered by using various prompting methods with the telecom’s customer interaction model and other additional evaluation criteria to set model guidelines of the evaluation task. The research applies quantitative statistical methods to compare the capabilities of the models. The models used in the study are GPT-3.5 Turbo, GPT-4o Mini and GPT-4o. The models are evaluated based on their performance in two classification tasks. In the first task, the models’ abilities related to understanding categories in conversations are analyzed. In the second task, the numerical evaluation score accuracy is assessed based on how close to truth they are. The model comparison is further complemented by a cost comparison illustrated with charts. The research results indicate that GPT models can interpret customer service situations and can be used for creating reliable and objective evaluations with written feedback. The GPT-4o model performs the best in all tasks, while GPT-4o Mini is the most cost-effective solution. The results also reveal several challenges related to the usage of the models and the implementation, which should be considered for further development of the evaluation system.