...

Abstrak

by user

on
Category: Documents
0

views

Report

Comments

Description

Transcript

Abstrak
Makalah Kolokium
Extract, Transform, Load (ETL) Untuk Data Warehouse Akademik Institut Pertanian
Bogor Menggunakan Kettle
Nurhasni Fadilah (G64124015) – [email protected]
Rina Trisminingsih, SKom, MT – [email protected]
Departemen Ilmu Komputer, Institut Pertanian Bogor
Abstrak
Proses extraction, transformation, dan loading (ETL) merupakan proses yang penting dalam pembuatan data
warehouse sehinggamenentukankualitas datadari data warehouse.ETL termasuk bagian back-end tier dalam
arsitektur data warehouse, yakni menjadi tempat pengolahan data dan berfungsi mengekstrak data, melakukan
pembersihan data, dan memasukkannya ke dalam data warehouse. Proses-proses yang rumit tersebut
membutuhkan cara yang tepat dalam penanganannya, agar data yang dihasilkan tetap konsisten. Dengan
menggunakan perangkat ETL maka proses tersebut dapat dilakukan dengan mudah. Selain itu, penelitian ini
diharapkan dapat member manfaat bagi pihak-pihak terkait dan para pembuat keputusan di IPB untuk
menampilkan data secara real-time dan cepat juga dapat digunakan untuk penelitian selanjutnya yang berkaitan
dengan pengembangan data warehouse akademik IPB
PENDAHULUAN
Latar Belakang
Proses extraction, transformation, dan loading (ETL) digunakan untuk memindahkan data
dari banyak sumber penyimpanan ke dalam target sistem untuk disimpan dalam repositori
data, data mart atau data warehouse. Proses ekstraksi adalah proses untuk memindahkan data
yang relevan ke dalam area data staging. Proses transformasi adalah pusatnya ETL, karena
sintak dan semantik yang beragam dapat mempengaruhi stages. Kemudian, proses loading
adalah proses yang mengintegrasikan, memasukkan, dan membersihkan data dari area
staging ke dalam data warehouse (Albrecht et al 2008). Dalam pembuatan data warehouse,
ETL memiliki peranan penting yang tidak dapat ditinggalkan karena proses ETL yang akan
menentukan kualitas dari data warehouse. Data yang salah dan kurang relevan akan membuat
keputusan bisnis yang salah. Oleh karena itu, perancangan proses ETL yang baik akan
meningkatkan kualitas data warehouse (Trujillo et al 2003).
Data dari sistem operasional biasanya berbeda tipe dan format sehingga membutuhkan
konversi ke format yang umum. Data dari sistem operasional juga terdapat primary key (PK)
yang berbeda, sedangkan data warehouse biasanya menggunakan surrogate keys. Oleh
karena itu, dibutuhkan sebuah mekanisme yang efektif untuk menempatkan surrogate keys
untuk repositori data warehouse. Selain itu, data yang berasal dari banyak sumber
memerlukan pengecekan perbedaan primary dan foreign keys untuk menjamin kualitas data.
Proses ETL yang rumit tersebut dapat diselesaikan dengan mudah menggunakan tools ETL
(Trujilo et al 2003). Perangkat ETL merupakan kategori perangkat khusus yang
menyelesaikan permasalahan homogenitas, kebersihan dan loading data dalam pembuatan
data warehouse (Vassiliadis et al 2002).
Beberapa penelitian sebelumnya telah mengembangkan data warehouse akademik
tingkat departemen yaitu departemen ilmu komputer untuk membantu memudahkan
pengambilan keputusan. Untuk itu, informasi yang dihasilkan harus akurat dan konsisten.
Namun dalam proses pembuatan ETL pada penelitian sebelumnya masih manual, mengingat
proses ETL yang rumit sehingga dimungkinkan terjadinya ketidakonsistenan pada data.
Penelitian ini akan memodelkan ETL untuk data akademik IPB menggunakan salah satu
perangkat ETL.
Perangkat ETL yang akan digunakan dalam penelitian ini adalah Kettle yang merupakan
unit dari Pentaho Data Integration. Perangkat ini termasuk open source dan dikenal sebagai
perangkat yang baik dalam menghasilkan ETL yang tepat. Penelitian ini akan mengadopsi
skema galaksi yang sudah dibuat oleh Permana (2008) dalam penelitiannya, tetapi skema
tersebut akan ditambahkan sebuah dimensi baru, yaitu dimensi fakultas. Skema yang baru
tersebut akan menjadi pondasi dalam pengembangan proses ETL. Penelitian ini akan
menggunakan data Sistem Informasi Akademik (SIMAK) IPB tahun 2009-2014 yang
bersumber dari Departemen Sistem Informasi dan Integrasi Data (DIDSI) IPB. Hasil dari
penelitian ini adalah data staging yang bersifat dinamis sehingga perubahan yang dilakukan
pada basis data SIMAK akan dapat dipindahkan ke dalam data warehouse secara otomatis.
Rumusan Masalah
Rumusan masalah dalam penelitian ini adalah:
1. Bagaimana menerapkan proses ETL pada data SIMAK IPB?
2. Bagaimana membuat skema multidimensional dengan menambah dimensi yang baru
pada skema data warehouse yang telah ada?
Tujuan Penelitian
Tujuan dari penelitian ini adalah membuat pemodelan ETL untuk data akademik tingkat
strata 1 reguler IPB menggunakan Kettle 5.0.1.A dan membuat skema yang mengadopsi
skema data warehouse akademik yang telah ada dengan menambah dimensi fakultas.
Ruang Lingkup Penelitian
Ruang lingkup penelitian ini adalah:
1. Data akademik yang digunakan adalah data Sistem Informasi Akademik (SIMAK) dari
DIDSI IPB tahun 2009-2014
2. Mengimplementasikan proses ETL dengan menggunakan perangkat lunak Kettle
3. Mengadopsi skema galaksi yang telah di buat Permana (2008) dengan menambah
dimensi fakultas
Manfaat Penelitian
Penelitian ini diharapkan dapat memberikan manfaat bagi pihak-pihak yang terkait dan
para pembuat keputusan di IPB khususnya Departemen Integrasi dan Sistem Informasi
(DIDSI) dalam menampilkan data secara real-time dan cepat juga dapat digunakan untuk
penelitian selanjutnya yang berkaitan dengan pengembangan data warehouse akademik IPB.
METODE PENELITIAN
Lingkungan Pengembangan
Penelitian ini diimplementasikan menggunakan spesifikasi perangkat keras dan lunak
sebagai berikut:
1. Perangkat Keras
Spesifikasi perangkat keras yang digunakan adalah:
o Intel® Dual Core™ CPU 2.10GHz.
o Memori 3 GB.
o Harddisk 160 GB.
o Keyboard dan mouse.
o Monitor.
2. Perangkat Lunak
o Kettle 5.0.1.A
o MySQL
o Eclipse
Kerangka Pemikiran
Penelitian ini akan dikembangkan dengan beberapa tahap penelitian, diagram dapat dilihat
pada Gambar 1.
Mulai
Analisis
Perancangan ETL
Implementasi ETL
Ekstraksi
Transformasi
Loading
Pengujian
Selesai
Gambar 1 Diagram Alir Tahapan Penelitian
Analisis
Pada tahap ini dilakukan analisis untuk menentukan spesifikasi kebutuhan data dan ETL
yang akan dikembangkan sesuai dengan keinginan pengguna seperti Entity Relationship
Diagram (ERD). Pengguna sistem ini adalah pegawai yang mengelola data akademik dari
DIDSI IPB. Pengguna memiliki akses langsung ke sistem manajemen basis data MySQL di
mana data akademik disimpan dan juga dapat mengakses data staging sebagai pendukung
untuk menganalisis data.
Perancangan ETL
Perancangan pada ETL terbagi menjadi 3, yaitu:
1. Perancangan konseptual
Menurut Vassiliadis et al (2002), tujuan tahap ini adalah membuat perancangan
konseptual untuk aktivitas yang terjadi pada ETL yaitu membuat spesifikasi tingkat
tinggi, entiti yang berorientasi subjek yang digunakan untuk mengambil semantik dari
proses ETL. Pertama adalah merepresentasikan dengan notasi grafik dan metamodel
sesuai dengan tujuan penelitian. Notasi yang digunakan dalam perancangan konseptual
dapat dilihat pada Gambar 3.
concept
attribute
Note
transformation
ETL_constraint
Part of
active candidate
candidate1
Provide 1:1
Provide N:M
Serial compositon
candidaten
target
[XOR]
Gambar 2 Notasi perancangan konseptual dari aktivitas ETL
Keterangan notasi:
o Attribute: modul informasi. Aturan atribut sama dengan standar model entity
relationship (ER)
o Concept: representasi sebuah entity dalam database atau data warehouse
o Transformation: representasi setengah atau penuh dari kode modul yang
mengeksekusi single task
o ETL Constraints: data dari konsep yang memenuhi banyak kebutuhan
o Note: model UML yang berisi tags informal
o Part of Relationship: konsep dibentuk dari kumpulan atribut
o Candidate relationship: terdapat single candidate dan single target concept
o Active candidate relationship:candidate relationship yang khusus yang memiliki
kesamaan struktur dan penyaringan semantik
2. Perancangan logikal
Menurut Vassiliadis et al (2002), tujuan perancangan logical adalah untuk menyingkat
aliran data dari aktivitas data warehouse dan penyimpanan data. Notasi grafik
perancangan logical dapat dilihat pada Gambar 3.
Integer
$2€
1
PKEY
Data Types
Function
Types
Constants
Attribute
R
My $2 €
rate
RecordSets
Functions
Parameters
SK
Activities
Part-Of
Relationship
Regulator
Derived Provider
Provide
Relationship
Relationship
Relationship
Instance-Of
Relationship
Gambar 3 Notasi perancangan logikal
Keterangan notasi:
o Attributes: karakteristik nama dan tipe data
o Recordset: karakteristik berdasarkan nama (kumpulan record dalam skema
recordse)
o Elementary Activites: penyataan logikal yang abstrak atau seluruh modul kode
o Provider relationship:memetakan antribut ke schemata dari entitas
o Part-of relationship: hubungan atribut, parameter, dan relasi aktivitas yang
berhubungan
3. Perancangan fisik
Pada tahap ini, perancangan logikal akan dipetakan ke dalam perancangan fisik.
Memetakan yang telah dirancang seperti membuat tabel dimensi, membuat tabel fakta,
memetakan surrogate keys.
Implementasi ETL
Tahap ketiga dari penelitian ini adalah implementasi ETL. Pada tahap ini, akan
menggunakan Kettle sebagai perangkat lunak yang merupakan unit dari Pentaho Data
Integration yang akan memproses data akademik sesuai dengan proses-proses yang terjadi
pada ETL.
Menurut Rahm (2000), proses ETL seperti yang ditunjukkan pada Gambar 2.
Operational
Source
Data
Warehouse
Extraction, Transformation, Loading
Extraction
Integration
Schema extraction
and translation
1
Aggregation
Schema matching
and integration
2
3
Schema
implementation
4
Data
Warehouse
5
Data
Staging
Area
Instance extraction
and transformation
Instance matching
and integration
Filtering
Aggregation
Scheduling, logging, monitoring, recovery, backup
Legends:
Metadata Flow
Data Flow
1
3 Instance characteristics
(real metadata)
2 Translation rules
4
5
Mappings between source
and target schema
Filtering and
aggregation rules
Gambar 4 Proses ETL
Menurut Caster et al (2010), terdapat 3 tahap dalam implementasi ETL, yaitu:
1. Ekstraksi
Pada tahap ini, memproses penyimpanan data yang beragam, lalu mengekstrak data
dari penyimpanan tersebut dan menghasilkan data yang siap digunakan.
2. Transformasi
Tahap transformasi memproses hasil ekstraksi data dari pemyimpanan dan meload
data ke target. Beberapa operasi yang dapat dilakukan pada tahapan ini sebagai
berikut:
o Memindahkan data
o Melakukan validasi data
o Melakukan modifikasi isi atau struktur data
o Mengintegrasikan data dengan data lainnya
o Menghitung nilai pembagian atau agregasi berdasarkan proses data
3. Loading
Tahapan ini adalah tahapan akhir dari implementasi ETL. Pada tahapan ini dilakukan
proses load ke sistem yang menjadi target. Proses yang terjadi adalah mengelola
surrogate keys dan mengelola tabel dimensi.
Pengujian
Tahap ini dilakukan setelah implementasi ETL selesai. Pengujian ini dilakukan dengan
metode pencocokan hasil query yang dilakukan pada basis data operasional dengan data
warehouse untuk melihat apakah menampilkan hasil yang sama atau tidak.
DAFTAR PUSTAKA
Albrecht A, Naumann F. 2008. Managing ETL Processes. Jerman (DE): University of
Potsdam
Caster C, Bouman R, Dongen JV. 2010. Pentaho Kettle Solutions: Building Open Source
ETL Solutions With Pentaho Data Integration. Indianapolis (IN): Wiley.
Permana YA. 2008. Data Warehouse dan OLAP akademik Ilmu Komputer IPB berbasis web
Menggunakan Palo 2.0. Bogor(ID): Institut Pertanian Bogor.
Rahm E, Do HH. 2000. Data Cleaning: Problems and Current Approaches. Jerman (DE):
University of Leipzeig.
Trujilo J, Lujan-Mora S. 2003. UML Based Aproach for Modelling ETL Processes in Data
Warehouse. Spain (ES): Universidad de Alicante.
Vassiliadis P, Simitsis A, Skiadopoulos S. 2002. Conceptual Modelling for ETL Processes.
5th ACM International Workshop on Data Warehousing and OLAP (DOLAP 2002).
McLean (USA): ACM. hlm 14-21
JADWAL PENELITIAN
Fly UP