Implementation of Data Pipeline and Reporting Modernization: A Case Study in a Financial Institution
Paloposki, Anna (2019-10-28)
Implementation of Data Pipeline and Reporting Modernization: A Case Study in a Financial Institution
Paloposki, Anna
(28.10.2019)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
suljettu
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2019110837280
https://urn.fi/URN:NBN:fi-fe2019110837280
Tiivistelmä
The amount of data is increasing rapidly while different corporations, organizations and governments are gathering more and more data for monitoring, marketing and decision making purposes. This movement sets novel kind of challenges for data storing, processing and managing, and therefore different Big Data technologies have emerged.
Data lakes have been developed for storing big data. This thesis introduces a common data lake solution Hadoop in more detail and compares it with other available technologies. Another aspect in this thesis is visualization of data. Business Intelligence tools are widely used for turning raw data into visualized form that finally provides support for decision making. This thesis connects those technologies and explains how the data flows between them.
Practical part of this thesis digs into reporting modernization in a financial institution. The monthly and ad hoc reporting processes, that are in the scope, are old-fashioned and therefore the more advanced technologies available within the financial institution are utilized in the reporting renewal. In order to make the reporting processes more automated, data pipeline, that consists of data sources, Hadoop and tailored Business Intelligence solutions, was built. Datan määrä maailmassa kasvaa koko ajan nopeasti, kun yritykset, organisaatiot sekä valtiot keräävät yhä enemmän tietoa muun muassa päätöksentekoa, markkinointia sekä valvontaa varten. Tämä aiheuttaa uudenlaisia haasteita datan säilytykselle,
prosessoinnille sekä hallinnalle, ja sen takia erilaiset Big data -teknologiat ovatkin kehittyneet tuomaan ratkaisuja näihin haasteisiin.
Data lake -teknologiat ovat syntyneet suurien datamäärien (big data) tallentamista varten. Tämä tutkielma esittelee tarkemmin Hadoopin, yhden yleisimmistä data lake -teknologioista, sekä vertailee sitä muiden vaihtoehtojen kanssa. Toinen tärkeä näkökulma työssä on datan visualisointi. Business Intelligence työkaluja käytetään raakadatan muuttamiseen visuaaliseen muotoon, joka lopulta tarjoaa tuen päätöksenteolle. Tutkielmassa yhdistetään edellä mainitut teknologiat sekä selitetään datan kulku niiden välillä.
Käytännön työ keskittyy raportoinnin modernisointiin rahoituslaitoksessa. Kuukausi- sekä kertaluontoinen raportointi, jotka ovat tämän työn piirissä, ovat vanhanaikaisia, minkä vuoksi niitä uudistetaan tarjolla olevilla modernimmilla teknologioilla. Uudistusta varten rakennetaan dataputki (data pipeline), joka yhdistää datan lähteet, Hadoopin sekä tähän tarkoitukseen räätälöidyt Business Intelligence -ratkaisut.
Data lakes have been developed for storing big data. This thesis introduces a common data lake solution Hadoop in more detail and compares it with other available technologies. Another aspect in this thesis is visualization of data. Business Intelligence tools are widely used for turning raw data into visualized form that finally provides support for decision making. This thesis connects those technologies and explains how the data flows between them.
Practical part of this thesis digs into reporting modernization in a financial institution. The monthly and ad hoc reporting processes, that are in the scope, are old-fashioned and therefore the more advanced technologies available within the financial institution are utilized in the reporting renewal. In order to make the reporting processes more automated, data pipeline, that consists of data sources, Hadoop and tailored Business Intelligence solutions, was built.
prosessoinnille sekä hallinnalle, ja sen takia erilaiset Big data -teknologiat ovatkin kehittyneet tuomaan ratkaisuja näihin haasteisiin.
Data lake -teknologiat ovat syntyneet suurien datamäärien (big data) tallentamista varten. Tämä tutkielma esittelee tarkemmin Hadoopin, yhden yleisimmistä data lake -teknologioista, sekä vertailee sitä muiden vaihtoehtojen kanssa. Toinen tärkeä näkökulma työssä on datan visualisointi. Business Intelligence työkaluja käytetään raakadatan muuttamiseen visuaaliseen muotoon, joka lopulta tarjoaa tuen päätöksenteolle. Tutkielmassa yhdistetään edellä mainitut teknologiat sekä selitetään datan kulku niiden välillä.
Käytännön työ keskittyy raportoinnin modernisointiin rahoituslaitoksessa. Kuukausi- sekä kertaluontoinen raportointi, jotka ovat tämän työn piirissä, ovat vanhanaikaisia, minkä vuoksi niitä uudistetaan tarjolla olevilla modernimmilla teknologioilla. Uudistusta varten rakennetaan dataputki (data pipeline), joka yhdistää datan lähteet, Hadoopin sekä tähän tarkoitukseen räätälöidyt Business Intelligence -ratkaisut.