Pengantar Kecerdasan Buatan (Bagian 2)

 

Apa yang dimaksud dengan data ? berikut adalah pemahaman tentang jargon data. Pertama-tama, bit (binary digit) adalah bentuk data terkecil di komputer. Anggap saja sebagai atom, berupa 0 atau 1, yang merupakan biner. Ini juga umumnya digunakan untuk mengukur jumlah data yang sedang ditransfer (misal dalam jaringan atau Internet). Ada empat cara untuk mengatur data. Pertama adalah data terstruktur, yang biasanya disimpan dalam database relasional atau spreadsheet. Jenis data ini menyumbang sekitar 20% dari proyek AI. Sebagian besar terdapat data tidak terstruktur, yaitu informasi yang tidak memiliki format yang telah ditentukan sebelumnya, seperti gambar, video, file audio, file teks, informasi jejaring sosial seperti tweet dan postingan dan gambar satelit. Ada beberapa data yang merupakan gabungan dari sumber terstruktur dan tidak terstruktur, yang disebut data semi-terstruktur. Informasi tersebut memiliki beberapa tag internal yang membantu kategorisasi. Contoh data semi-terstruktur termasuk XML (Extensible Markup Language), yang didasarkan pada berbagai aturan untuk mengidentifikasi elemen dokumen. Tetapi data semi-terstruktur hanya mewakili sekitar 5% hingga 10% dari semua data. Terakhir, ada data deret waktu, yang dapat berupa data terstruktur, tidak terstruktur, dan semi terstruktur. Jenis informasi ini untuk interaksi, misalnya untuk melacak "perjalanan pelanggan", akan mengumpulkan informasi saat pengguna membuka situs web, menggunakan aplikasi, atau bahkan masuk ke toko. Namun data semacam ini seringkali berantakan dan sulit dipahami. Sebagian karena memahami maksud pengguna, yang bisa sangat bervariasi. Ada juga volume data interaksional yang sangat besar, yang dapat melibatkan triliunan titik data.



 

Dengan tersedianya akses Internet, perangkat seluler, dan perangkat yang dapat dikenakan di mana-mana, telah terjadi aliran data yang deras. Setiap detik, Google memproses lebih dari 40.000 pencarian atau 3,5 miliar per hari. Setiap menit, pengguna Snapchat membagikan 527.760 foto, dan pengguna YouTube menonton lebih dari 4,1 juta video. Lalu ada sistem kuno, seperti email, yang terus mengalami pertumbuhan signifikan. Setiap menit, ada 156 juta pesan terkirim. Untuk menghadapi semua itu, muncullah kategori teknologi yang disebut Big Data. Oracle menjelaskan pentingnya tren ini : data besar (big data) telah menjadi modal. Pikirkan beberapa perusahaan teknologi terbesar di dunia, sebagian besar nilai yang mereka tawarkan berasal dari data mereka, yang terus mereka analisis untuk menghasilkan lebih banyak efisiensi dan mengembangkan produk baru. 


Apa karekteristik Big Data ? mengapa data disebut sebagai ‘bahan bakar utama’ AI ? berikut karakteristiknya (1) Volume : skalaatau ukuran data, yang seringkali tidak terstruktur. Tidak ada aturan baku dan cepat tentang ambang batas, tetapi biasanya puluhan terabyte. (2) Varietas : menggambarkan keragaman data, kombinasi data terstruktur, semi terstruktur, dan tidak terstruktur. Karakteristik ini juga menunjukkan berbagai sumber data dan penggunaan. (3) Velocity : kecepatan di mana data sedang dibuat. Layanan seperti YouTube dan Snapchat memiliki tingkat kecepatan yang ekstrim. Ini membutuhkan investasi besar dalam teknologi dan pusat data generasi selanjutnya. Data juga sering diproses di memori bukan dengan sistem berbasis disk. Studi Gartner memperkirakan bahwa sekitar 85% proyek Big Data ditinggalkan sebelum mencapai tahap percontohan. Beberapa alasannya antara lain sebagai berikut : kurangnya fokus yang jelas, data kotor, investasi pada alat TI yang salah, masalah dengan data koleksi, kurangnya dukungan dari pemangku kepentingan utama dan juara dalam organisasi.

 

Sumber : T. Taulli, 2019, Artificial Intelligence Basics A Non-Technical Introduction, Apress  

Comments