Monday, 1 December 2014

DW pertemuan 10 (Data Transformation service)


DATA TRANSFORMATION SERVICE

Data Transformation Service adalah memindahkan data dari database OLTP ke data warehouse dengan tujuannya. Hal ini dilakukakn ketika validasi, cleaning up, konsolidasi, dan mengubah data yang diperlukan. (Vieria, Robert, 2000, p91)

Selain berfungsi untuk melakukan import, export dan transport data yang beragam antara satu atau lebih sumber data, seperti misalnya SQL Server, Microsoft Excel atau Microsoft Access, DTS juga menyediakan hubungan berupa ODBC (Open Database Connectivity) data source yang disupport oleh OLE DB Provider for ODBC dan service seperti logging package execution details, controlling transactions dan penanganan variable global.

Tool-tool yang tersedia untuk menciptakan dan mengeksekusi DTS packages :

  1. Import Export Wizzard = untuk membangun DTS packages sederhana dan mensupport perpindahan data dan transformasi sederhana.Import Export Wizzard 
  2. DTS Designer = mengimplementasikan DTS object model graphically yang memungkinkan user untuk menciptakan DTS packages dengan fungsi luas.
  3. DTS Run = merupakan command prompt utility yang digunakan untuk mengeksekusi DTS packages yang ada.
  4. DTSRunUI = merupakan grafik interface untuk DTSRun, yang juga mengijinkan pemakaian variable global dan command lines.
Sebuah DTS package biasanya terdiri atas satu task atau lebih. Setiap task mendefinisikan jenis pekerjaan yang akan diberikan selama eksekusi package. Task-task tersebut dikelompokkan berdasarkan fungsinya berikut ini:
  1. Transformasi data
  2. Mengcopy dan mengatur data 
  3. Menjalankan tasks sebagai jobs dari dalam sebuah package
Agar eksekusi DTS tasks dalam menyalin dan memindahkan data berjalan sukses, sebuah DTS package harus mempunyai hubungan yang valid antara sumber data asal dengan sumber data tujua. Ketika menciptakan sebuah package, user dapat mengkonfigurasikan hubungan dengan memilih jenis hubungan dari daftar yang tersedia pada OLE DB providers dan ODBC drivers. Jenis hubungan yang tersedia antara lain:
  1. Microsoft Data Acces Component (MDAC) drivers
  2. Microsoft Jet drivers
  3. Other drivers
  4. OLE DB CONNECTION

Tuesday, 25 November 2014

DW pertemuan 9 (Data Quality)


KUALITAS DATA
Menurut Mark Mosley (2008), dalam bukunya “Dictionary of Data Management”, pengertian kualitas data adalah level data yang menyatakan data tersebut akurat (accurate), lengkap (complete), timely (update), konsisten (consistent) sesuai dengan semua kebutuhan peraturan bisnis dan relevan.

Beberapa indikator data yang berkualitas antara lain sebagai berikut :
  1. ACCURACY = data yang tersimpan nilainya benar (name cocok dengan alamatnya)
  2. DOMAIN INTEGRITY = nilai attributnya sesuai batasan yang diperkenankan (nilai attribut laki n perempuan)
  3. DATA TYPE = Nilai data disimpan dalam tipe data yang sesuai (data nama disimpan dengan tipe text)
  4. CONSISTENCY = nilai sebuah field data akan sama semua dalam berbagai berkas (field produk A dgn kode 123, akan selalu sama kodenya di setiap berkas lain)
  5. REDUDANCY = tidak boleh ada data yang sama disimpan di tempat yang berbeda dalam satu sistem
  6. COMPLETENESS = Tidak ada nilai atttribut salah yang diberikan dalam sistem
  7. DATA ANOMALY = sebuah field hanya digunakan sesuai kegunaannya. (field address3  digunakan untuk mencatat baris ketiga dalam alamat bukan untuk telp atau fax)
  8. CLARITY = Kejelasan arti kegunaan dan cara penulisan sebuah data (penamaan khusus)
  9. TIMELY = merepresentasikan waktu dari data yang dimasukkan (jika data digunakan perhari maka data pada warehaouse harus juga dibuat per hari)
  10. USEFULNESS = setiap data harus benar digunakan oleh user
  11. ADHERENCE TO DATA INTEGRITY RULES = taat pada aturan keterhubungan data

Manfaat dari meningkatnya kualitas data :
  • Analysis with Timely Information
  • Better Customer Service
  • Newer Opportunities
  • Reduced Costs and Risks
  • Improved Productivity
  • Reliable Strategic Decision Making

Monday, 17 November 2014

DW pertemuan 8 (ETL)


Extraction, Transformation, Loading)


ETL (Extraction, Transformation, Loading) adalah kumpulan dari proses dimana sumber data operational disiapkan untuk dimasukan kedalam data warehouse. Dimana  proses ini terdiri dari proses ekstraksi (extracting) data operational  dari sumber  applikasi, mengubah  bentuknya (transform), mengeluarkan (loading) dan membuat index dari data itu, menjamin kualitas dari data tersebut, dan menerbitkan data tersebut.
Ekstraksi Data (Extract)
Ekstraksi data adalah proses dimana data diambil atau diekstrak dari berbagai sistem operasional, baik menggunakan query, atau aplikasi ETL. Terdapat beberapa fungsi ekstraksi data, yaitu :
  • Ekstraksi data secara otomatis dari aplikasi sumber.
  • Penyaringan atau seleksi data hasil ekstraksi.
  • Pengiriman data dari berbagai platform aplikasi ke sumber data.
  • Perubahan format layout data dari format aslinya.
  • Penyimpanan dalam file sementara untuk penggabungan dengan hasil ekstraksi dari sumber lain.

Transformasi Data (Transformation)
Transformasi adalah proses dimana data mentah (raw data) hasil ekstraksi disaring dan diubah sesuai dengan kaidah bisnis yang berlaku. Langkah-langkah dalam transformasi data adalah sebagai berikut:
  • Memetakan data input dari skema data aslinya ke skema data warehouse.
  • Melakukan konversi tipe data atau format data.
  • Pembersihan serta pembuangan duplikasi dan kesalahan data.
  • Penghitungan nilai-nilai derivat atau mula-mula.
  • Penghitungan nilai-nilai agregat atau rangkuman.
  • Pemerikasaan integritas referensi data.
  • Pengisian nilai-nilai kosong dengan nilai default.
  • Penggabungan data.

Pengisian Data (Loading)
Proses terakhir yang perlu dilakukan adalah proses pemuatan data yang didapatkan dari hasil transformasi ke dalam data warehouse. Cara untuk memuat data adalah dengan menjalankan SQL script secara periodik.

Tuesday, 28 October 2014

Resume


LOGICAL DESIGN & PHYSICAL DESIGN
LOGICAL DESIGN
  • Fungsi dari logical design adalah untuk memetakan conceptual schema ke struktur logis sehingga dapat diproses oleh DBMS
  • Macam-macam skema logis meliputi unsur-unsur hierarki, tabel-tabel dengan  kunci utama, relasi antar tabel dan aliran data
  • Menggunakan ER Diagram
  • Mencari objek-objek penting (entitas)
  • Mendefinisikan atribute
  • Membuat relasi
  • Contoh atau bentuk atau hasil dari logical design adalah CDM.
PHYSICAL DESIGN
  • Fungsi dari physical design adalah untuk menggambarkan struktur dari data dalam memori sekunder, serta menggambarkan struktur penyimpanan dan metode-metode aksesnya
  • Merubah dari logical design menjadi objek-objek database
  • Tablespace, Table,integrity constraint, dll
  • Contoh atau bentuk atau hasil dari physical design adalah PDM

Sunday, 19 October 2014

DataWarehouse Star and Snow Schema

Dalam menggambarkan relasi database pada data warehouse dapat digunakan 2 pendekatan model skema yaitu star schema atau snowflake schema. Disebut star schema karena EntityRelationship Diagram atau ERD-nya yang menyerupai bintang, tabel fakta berada di tengah dengan dikelilingi tabel dimensi di sampingnya.

Berikut adalah contoh gambar star schema :

Sedangkan snowflake schema lebih kompleks dibandingkan dengan star schema karena merupakan pengembangan dari star schema, karena tabel-tabel dimensinya merupakan hasil normalisasi dari beberapa tabel yang berhubungan.
Berikut adalah contoh gambar snowflake schema :


Kelebihan model dimensi star schema :
  1. cenderung mudah dipahami karena modelnya yang lebih sederhana,
  2. memudahkan mencari isi karena kesderhanaannya dengan cara melihat step by stepdari masing-masing dimensinya,
  3. proses query lebih cepat pada saat proses OLAP.
Kekurangan model dimensi star schema :
  1. ukuran data lebih besar karena ada data yang disimpan ulang,
  2. maintenance dan update lebih sulit.

Kelebihan model dimensi snowflake schema :
  1. ukuran data lebih kecil di dalam tempat penyimpanan,
  2. lebih mudah dilakukan maintenance dan update,
  3. proses query lebih cepat pada saat proses ETL.
Kekurangan model dimensi snowflake schema :
  1. cenderung lebih sulit dipahami karena kompleksitasnya,
  2. sulit mencari isi karena melihat strukturnya yang kompleks dan bercabang-cabang.

Monday, 13 October 2014

Tugas DW



Data warehouse penjualan mobil didesain menjadi memiliki delapan tabel dimensi dan satu tabel fact yang menghubungkan tabel-tabel dimensi yang ada.
Nama dari database ini adalah ASCO. Kedelapan tabel dimensi itu adalah T_mobil, T_Customer, T_Cabang, T_JenisPelunasan, T_Leasing, T_Lokasi, T_waktu, dan T_warna. Dari semua tabel dimensi tersebut, nantinya akan dihubungkan melalui satu tabel fact yang dalam sistem ini bernama tabel T_Fact_Penjualan.

Tuesday, 7 October 2014

Tugas DW (lanjutan)

Star Schema (Skema Bintang) dan Metadata Pada perancangan ini, bentuk skema yang dipilih adalah skema bintang, karena skema ini merupakan skema yang mudah dipahami dan digunakan oleh pengguna daripada skema yang lain. Bentuknya yang tidak terlalu rumit, memudahkan dalam hal query. 
Gambar 6 dibawah ini merupakan skema bintang penjualan yang dihasilkan dalam perancangan ini.