Pengantar Kecerdasan Buatan (Bagian 3)

 

Studi Gartner memperkirakan bahwa sekitar 85% proyek Big Data ditinggalkan sebelum mencapai tahap percontohan. Beberapa alasannya antara lain sebagai berikut : kurangnya fokus yang jelas, data kotor, investasi pada alat TI yang salah, masalah dengan data koleksi, kurangnya dukungan dari pemangku kepentingan utama dan juara dalam organisasi. Mengingat hal ini, sangat penting untuk memiliki proses data yang baik, meskipun ada banyak pendekatan, ada satu yang diterima secara luas dimana Sekelompok ahli, pengembang perangkat lunak, konsultan, dan akademisi menciptakan Proses CRISP-DM pada akhir 1990-an. CRISP-DM, singkatan dari Cross-Industry Standard Process for Data Mining, adalah cara yang telah terbukti di industri untuk memandu upaya penambangan data. CRISP-DM sebagai metodologi, ini mencakup deskripsi fase khas proyek, tugas-tugas yang terlibat dalam setiap fase, dan penjelasan tentang hubungan antara tugas-tugas ini. Sebagai model proses, CRISP-DM memberikan gambaran tentang siklus hidup data mining.




 

Perhatikan bahwa langkah 1 sampai 3 dapat mencakup 80% dari waktu pemrosesan data, ini terjadi karena faktor-faktor seperti: data tidak tertata dengan baik dan berasal dari sumber yang berbeda (apakah dari vendor atau silo yang berbeda dalam organisasi), tidak ada fokus yang cukup pada alat otomasi, dan perencanaan awal tidak cukup untuk cakupan proyek. Perlu juga diingat bahwa Proses CRISP-DM bukanlah proses linier yang kaku. Saat berurusan dengan data, mungkin ada banyak iterasi, misalnya, mungkin ada beberapa upaya untuk menghasilkan data yang benar dan mengujinya.

 

Langkah #1 Memahami Bisnis (Business Understanding) : memiliki pandangan yang jelas tentang masalah bisnis yang harus dipecahkan. Beberapa contoh : bagaimana penyesuaian harga dapat memengaruhi penjualan ?, apakah perubahan salinan akan meningkatkan konversi iklan digital ?, apakah penurunan keterlibatan berarti akan ada peningkatan churn (persentase costumer yang meninggalkan layanan bisnis) ? Kemudian, harus menetapkan bagaimana akan mengukur kesuksesan. Mungkinkah penjualan harus meningkat minimal 1% atau konversi harus naik 5% ? Apa pun tujuannya, penting agar prosesnya bebas dari prasangka atau bias apa pun. Fokusnya adalah mencari hasil terbaik. Tidak diragukan lagi, dalam beberapa kasus, tidak akan ada hasil yang memuaskan. Pada langkah #1, harus menyusun tim yang tepat untuk proyek tersebut. Sebenarnya semakin mudah menerapkan pembelajaran mesin dan model pembelajaran mendalam, karena sistem sumber terbuka seperti TensorFlow dan platform berbasis cloud dari Google, Amazon.com, dan Microsoft. Dengan kata lain, mungkin hanya membutuhkan beberapa orang dengan latar belakang ilmu data (data science). Terakhir, perusahaan/bisnis perlu mengevaluasi kebutuhan teknis. Infrastruktur dan perangkat lunak apa yang akan digunakan ? Apakah akan ada kebutuhan untuk meningkatkan kapasitas atau membeli solusi baru ?

 

Langkah #2 Pemahaman Data (Data Understanding) : melihat sumber data untuk proyek tersebut. Pertimbangkan bahwa ada tiga yang utama, yang meliputi yang berikut : (1) Data In-House : data ini dapat berasal dari situs web, suar di lokasi toko, sensor IoT, aplikasi seluler, dan segera. Keuntungan utama dari data ini adalah gratis dan disesuaikan dengan bisnis. Tapi sekali lagi, ada beberapa risiko. Mungkin ada masalah jika belum cukup perhatian pada pemformatan data atau data apa yang harus dipilih. (2)  Open Source Data : biasanya tersedia secara gratis, tentu saja keuntungan yang bagus. Beberapa contoh data sumber terbuka mencakup informasi pemerintah dan ilmiah. Data sering diakses melalui API, yang membuat prosesnya cukup mudah. Data open source juga biasanya diformat dengan baik. Namun, beberapa variabel mungkin tidak jelas, dan mungkin terdapat bias, seperti condong ke demografis tertentu. (3) Data Pihak Ketiga : data dari vendor komersial. Tapi biayanya bisa tinggi. Faktanya, kualitas data, dalam beberapa kasus, mungkin kurang. Menurut Teradata, berdasarkan keterlibatan perusahaan dalam pemanfaatan AI, sekitar 70% sumber data ada di dalam perusahaan, 20% dari sumber terbuka, dan sisanya dari vendor komersial. Namun terlepas dari sumbernya, semua data harus dipercaya. Jika tidak, kemungkinan besar akan ada masalah “sampah masuk, sampah keluar”.

 

Langkah #3 Persiapan Data (Data Preparation) : langkah pertama dalam proses persiapan data adalah memutuskan dataset apa yang akan digunakan. ketika dalam tahap persiapan data, perlu dilakukan pembersihan data. Faktanya adalah bahwa semua data memiliki masalah. Jadi, inilah beberapa tindakan yang dapat Anda lakukan untuk membersihkan data : (1) De-duplikasi : atur tes untuk mengidentifikasi duplikasi dan hapus data asing. (2) Penyimpangan : data yang berada di luar jangkauan sebagian besar data lainnya, menunjukkan bahwa informasi tersebut tidak membantu. Tapi tentu saja, ada situasi di mana kebalikannya benar. Ini untuk pengurangan penipuan. (3) Konsistensi : pastikan bisnis memiliki definisi yang jelas untuk variabel, contoh istilah seperti "pendapatan" atau "pelanggan" dapat memiliki banyak arti. (4) Aturan Validasi : saat melihat data, cobalah untuk menemukan batasan yang melekat. Misalnya, dapat memiliki bendera untuk kolom usia. Jika kolom usia nilainya lebih dari 120 dalam banyak kasus, maka data tersebut memiliki beberapa masalah serius. (5) Binning : data tertentu mungkin tidak perlu spesifik. Apakah penting jika seseorang berusia 35 atau 37 tahun ? Mungkin tidak. Tetapi membandingkannya dari usia 30 sampai 40 hingga 41 sampai 50 mungkin akan berhasil. (6) Staleness: Apakah data tepat waktu dan relevan ? (7) Penggabungan : dalam beberapa kasus, kolom data mungkin memiliki informasi yang sangat mirip. Mungkin yang satu tingginya dalam inch dan yang lainnya dalam feet atau cm. (8) One-Hot Encoding : cara untuk mengganti data kategori sebagai angka, contoh : katakanlah database dengan kolom yang memiliki tiga kemungkinan nilai : Apple, Pineapple, dan Orange. Kita dapat menyatakan Apple sebagai 1, Nanas sebagai 2, dan Oranye sebagai 3. Kedengarannya masuk akal, bukan ? Bisa tidak. Masalahnya adalah algoritma AI mungkin menganggap Orange lebih hebat dari Apple. Tetapi dengan one-hot encoding, dapat menghindari masalah ini. Anda akan membuat tiga kolom baru: is_Apple, is_Pineapple, dan is_Orange. Untuk setiap baris dalam data, akan menempatkan 1 untuk tempat buah berada dan 0 untuk sisanya. (9) Tabel Konversi : dapat menggunakan ini saat menerjemahkan data dari satu standar ke standar lainnya. Ini akan terjadi jika memiliki data dalam sistem desimal dan ingin berpindah ke sistem metrik.

 

Sumber : T. Taulli, 2019, Artificial Intelligence Basics A Non-Technical Introduction, Apress 


Comments