Studi Gartner memperkirakan bahwa
sekitar 85% proyek Big Data ditinggalkan sebelum mencapai tahap percontohan. Beberapa
alasannya antara lain sebagai berikut : kurangnya fokus yang jelas, data kotor,
investasi pada alat TI yang salah, masalah dengan data koleksi, kurangnya
dukungan dari pemangku kepentingan utama dan juara dalam organisasi. Mengingat
hal ini, sangat penting untuk memiliki proses data yang baik, meskipun ada
banyak pendekatan, ada satu yang diterima secara luas dimana Sekelompok ahli,
pengembang perangkat lunak, konsultan, dan akademisi menciptakan Proses
CRISP-DM pada akhir 1990-an. CRISP-DM, singkatan dari Cross-Industry Standard
Process for Data Mining, adalah cara yang telah terbukti di industri untuk
memandu upaya penambangan data. CRISP-DM sebagai metodologi, ini mencakup
deskripsi fase khas proyek, tugas-tugas yang terlibat dalam setiap fase, dan
penjelasan tentang hubungan antara tugas-tugas ini. Sebagai model proses,
CRISP-DM memberikan gambaran tentang siklus hidup data mining.
Perhatikan bahwa langkah 1 sampai 3
dapat mencakup 80% dari waktu pemrosesan data, ini terjadi karena faktor-faktor
seperti: data tidak tertata dengan baik dan berasal dari sumber yang berbeda
(apakah dari vendor atau silo yang berbeda dalam organisasi), tidak ada fokus
yang cukup pada alat otomasi, dan perencanaan awal tidak cukup untuk cakupan
proyek. Perlu juga diingat bahwa Proses CRISP-DM bukanlah proses linier yang kaku.
Saat berurusan dengan data, mungkin ada banyak iterasi, misalnya, mungkin ada
beberapa upaya untuk menghasilkan data yang benar dan mengujinya.
Langkah #1 Memahami Bisnis (Business
Understanding) : memiliki pandangan yang jelas tentang masalah bisnis yang
harus dipecahkan. Beberapa contoh : bagaimana penyesuaian harga dapat
memengaruhi penjualan ?, apakah perubahan salinan akan meningkatkan konversi
iklan digital ?, apakah penurunan keterlibatan berarti akan ada peningkatan
churn (persentase costumer yang meninggalkan layanan bisnis) ? Kemudian, harus
menetapkan bagaimana akan mengukur kesuksesan. Mungkinkah penjualan harus
meningkat minimal 1% atau konversi harus naik 5% ? Apa pun tujuannya, penting
agar prosesnya bebas dari prasangka atau bias apa pun. Fokusnya adalah mencari
hasil terbaik. Tidak diragukan lagi, dalam beberapa kasus, tidak akan ada hasil
yang memuaskan. Pada langkah #1, harus menyusun tim yang tepat untuk proyek
tersebut. Sebenarnya semakin mudah menerapkan pembelajaran mesin dan model
pembelajaran mendalam, karena sistem sumber terbuka seperti TensorFlow dan
platform berbasis cloud dari Google, Amazon.com, dan Microsoft. Dengan kata
lain, mungkin hanya membutuhkan beberapa orang dengan latar belakang ilmu data
(data science). Terakhir, perusahaan/bisnis perlu mengevaluasi kebutuhan
teknis. Infrastruktur dan perangkat lunak apa yang akan digunakan ? Apakah akan
ada kebutuhan untuk meningkatkan kapasitas atau membeli solusi baru ?
Langkah #2 Pemahaman Data (Data
Understanding) : melihat sumber data untuk proyek tersebut. Pertimbangkan bahwa
ada tiga yang utama, yang meliputi yang berikut : (1) Data In-House : data ini
dapat berasal dari situs web, suar di lokasi toko, sensor IoT, aplikasi
seluler, dan segera. Keuntungan utama dari data ini adalah gratis dan disesuaikan
dengan bisnis. Tapi sekali lagi, ada beberapa risiko. Mungkin ada masalah jika
belum cukup perhatian pada pemformatan data atau data apa yang harus dipilih.
(2) Open Source Data : biasanya tersedia
secara gratis, tentu saja keuntungan yang bagus. Beberapa contoh data sumber
terbuka mencakup informasi pemerintah dan ilmiah. Data sering diakses melalui
API, yang membuat prosesnya cukup mudah. Data open source juga biasanya
diformat dengan baik. Namun, beberapa variabel mungkin tidak jelas, dan mungkin
terdapat bias, seperti condong ke demografis tertentu. (3) Data Pihak Ketiga : data
dari vendor komersial. Tapi biayanya bisa tinggi. Faktanya, kualitas data,
dalam beberapa kasus, mungkin kurang. Menurut Teradata, berdasarkan
keterlibatan perusahaan dalam pemanfaatan AI, sekitar 70% sumber data ada di
dalam perusahaan, 20% dari sumber terbuka, dan sisanya dari vendor komersial.
Namun terlepas dari sumbernya, semua data harus dipercaya. Jika tidak,
kemungkinan besar akan ada masalah “sampah masuk, sampah keluar”.
Langkah #3 Persiapan Data (Data
Preparation) : langkah pertama dalam proses persiapan data adalah memutuskan
dataset apa yang akan digunakan. ketika dalam tahap persiapan data, perlu
dilakukan pembersihan data. Faktanya adalah bahwa semua data memiliki masalah. Jadi,
inilah beberapa tindakan yang dapat Anda lakukan untuk membersihkan data : (1) De-duplikasi
: atur tes untuk mengidentifikasi duplikasi dan hapus data asing. (2) Penyimpangan
: data yang berada di luar jangkauan sebagian besar data lainnya, menunjukkan
bahwa informasi tersebut tidak membantu. Tapi tentu saja, ada situasi di mana
kebalikannya benar. Ini untuk pengurangan penipuan. (3) Konsistensi : pastikan bisnis
memiliki definisi yang jelas untuk variabel, contoh istilah seperti
"pendapatan" atau "pelanggan" dapat memiliki banyak arti.
(4) Aturan Validasi : saat melihat data, cobalah untuk menemukan batasan yang
melekat. Misalnya, dapat memiliki bendera untuk kolom usia. Jika kolom usia
nilainya lebih dari 120 dalam banyak kasus, maka data tersebut memiliki
beberapa masalah serius. (5) Binning : data tertentu mungkin tidak perlu
spesifik. Apakah penting jika seseorang berusia 35 atau 37 tahun ? Mungkin
tidak. Tetapi membandingkannya dari usia 30 sampai 40 hingga 41 sampai 50
mungkin akan berhasil. (6) Staleness: Apakah data tepat waktu dan relevan ? (7)
Penggabungan : dalam beberapa kasus, kolom data mungkin memiliki informasi yang
sangat mirip. Mungkin yang satu tingginya dalam inch dan yang lainnya dalam feet
atau cm. (8) One-Hot Encoding : cara untuk mengganti data kategori sebagai
angka, contoh : katakanlah database dengan kolom yang memiliki tiga kemungkinan
nilai : Apple, Pineapple, dan Orange. Kita dapat menyatakan Apple sebagai 1,
Nanas sebagai 2, dan Oranye sebagai 3. Kedengarannya masuk akal, bukan ? Bisa
tidak. Masalahnya adalah algoritma AI mungkin menganggap Orange lebih hebat
dari Apple. Tetapi dengan one-hot encoding, dapat menghindari masalah ini. Anda
akan membuat tiga kolom baru: is_Apple, is_Pineapple, dan is_Orange. Untuk
setiap baris dalam data, akan menempatkan 1 untuk tempat buah berada dan 0
untuk sisanya. (9) Tabel Konversi : dapat menggunakan ini saat menerjemahkan
data dari satu standar ke standar lainnya. Ini akan terjadi jika memiliki data
dalam sistem desimal dan ingin berpindah ke sistem metrik.
Sumber : T. Taulli, 2019, Artificial Intelligence Basics A Non-Technical Introduction, Apress
Comments
Post a Comment