Integration of SaaS Source Systems to Cloud Data Warehouse

avoin
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.

Verkkojulkaisu

DOI

Tiivistelmä

In a business environment characterized by growing volumes of data, the importance of data storage is becoming increasingly evident. At the same time, the adoption of software-as-a-service (SaaS) solutions has introduced new challenges related to data ownership and access, as direct database connections are often restricted. The purpose of this study is to examine how data from SaaS products can be stored in a data warehouse environment, with focus on using application programming interfaces (APIs) as the primary data integration method. The study begins with a theoretical background of cloud computing, data warehousing, and APIs, providing the necessary background for understanding data integration in SaaS environments. Detailed information on key concepts of cloud computing, evolution and tools of data warehousing, and REST-based APIs. We will also examine IFS ERP, which serves as the source system in practical part of this study. To evaluate REST API-based data warehousing, a proof-of-concept integration pipeline for data warehousing using only IFS provided REST APIs is implemented. The data integration of the pipeline is built in Azure data factory, with an Azure- based database serving as the target data warehouse. The implementation explores multiple scenarios, including large data transfers, handling of custom attributes, and integration of data from multiple sources. The performance and limitations of the REST-based approach are analyzed and compared to traditional SQL-based data loading methods. The results show that, although REST APIs are an easy way to retrieve data, they are significantly slower than conventional methods. For this reason, REST API data retrievals are not necessarily suitable for large amounts of data at this time without optimization.
Liiketoimintaympäristössä, jossa tietomäärät kasvavat jatkuvasti, tietojen tallennuksen merkitys korostuu. Samanaikaisesti palveluna ostettujen ohjelmistojen (SaaS) suosion kasvaessa dataan omistukseen ja käyttöön liittyvät ongelmat kasvavat suorien tietokantayhteyksien puutteen vuoksi. Tämän tutkimuksen tarkoituksena on selvittää, miten SaaS-ohjelmistojen data voidaan tallentaa tietovarastoon käyttäen sovellusrajapintoja (API) ensisijaisena integraatiomenetelmänä. Tutkimus alkaa pilvipalveluiden, tietovarastoinnin ja sovellusrajapintojen (API) teoreettisella tarkastelulla, tarjoten tarvittavat perustiedot SaaS-ympäristöjen tiedon integroinnin ymmärtämiseksi. Teoreettinen osuus käsittelee myös pilvipalveluiden keskeisiä käsitteitä, tietovarastoinnin kehitystä ja työkaluja sekä REST-pohjaisia sovellusrajapintoja. Lisäksi tutkimuksessa tarkastellaan IFS-toiminnanohjausjärjestelmää, joka toimii tämän tutkimuksen käytännön osassa lähdejärjestelmänä. REST-rajapintoihin perustuvan tietovarastoinnin arvioimiseksi toteutettiin konseptitodistuksena integraatioputki, jossa tietovarastointiin käytettiin pelkästään IFS:n tarjoamia REST-rajapintoja. Integraatioputki on toteutettu Azure Data Factory -alustalla ja kohdetietovarastona toimii Azuressa sijaitseva tietokanta. Toteutuksessa tarkasteltiin eri skenaarioita, kuten suurten datamäärien siirtoa, konfiguroitujen attribuuttien käsittelyä ja useista eri tietokantatauluista peräisin olevan datan integrointia. REST-pohjaisen toteutuksen suorituskykyä ja rajoitteita analysoitiin ja verrattiin perinteisiin SQL-pohjaisiin toteutuksiin. Tulokset osoittavat REST-rajapintojen olevan yksinkertainen tapa datan hakemiseen, mutta niiden olevan huomattavasti hitaampia perinteisiin menetelmiin verrattuna. Tämän vuoksi REST-rajapintojen kautta tapahtuva datan lataaminen ei tällä hetkellä välttämättä sovellu suurille datamäärille ilman optimointia.

item.page.okmtext