Apa yang dimaksud dengan data ?
berikut adalah pemahaman tentang jargon data. Pertama-tama, bit (binary digit)
adalah bentuk data terkecil di komputer. Anggap saja sebagai atom, berupa 0
atau 1, yang merupakan biner. Ini juga umumnya digunakan untuk mengukur jumlah
data yang sedang ditransfer (misal dalam jaringan atau Internet). Ada empat
cara untuk mengatur data. Pertama adalah data terstruktur, yang biasanya
disimpan dalam database relasional atau spreadsheet. Jenis data ini menyumbang
sekitar 20% dari proyek AI. Sebagian besar terdapat data tidak terstruktur,
yaitu informasi yang tidak memiliki format yang telah ditentukan sebelumnya,
seperti gambar, video, file audio, file teks, informasi jejaring sosial seperti
tweet dan postingan dan gambar satelit. Ada beberapa data yang merupakan
gabungan dari sumber terstruktur dan tidak terstruktur, yang disebut data
semi-terstruktur. Informasi tersebut memiliki beberapa tag internal yang
membantu kategorisasi. Contoh data semi-terstruktur termasuk XML (Extensible
Markup Language), yang didasarkan pada berbagai aturan untuk mengidentifikasi
elemen dokumen. Tetapi data semi-terstruktur hanya mewakili sekitar 5% hingga
10% dari semua data. Terakhir, ada data deret waktu, yang dapat berupa data
terstruktur, tidak terstruktur, dan semi terstruktur. Jenis informasi ini untuk
interaksi, misalnya untuk melacak "perjalanan pelanggan", akan
mengumpulkan informasi saat pengguna membuka situs web, menggunakan aplikasi,
atau bahkan masuk ke toko. Namun data semacam ini seringkali berantakan dan
sulit dipahami. Sebagian karena memahami maksud pengguna, yang bisa sangat
bervariasi. Ada juga volume data interaksional yang sangat besar, yang dapat
melibatkan triliunan titik data.
Dengan tersedianya akses Internet, perangkat seluler, dan perangkat yang dapat dikenakan di mana-mana, telah terjadi aliran data yang deras. Setiap detik, Google memproses lebih dari 40.000 pencarian atau 3,5 miliar per hari. Setiap menit, pengguna Snapchat membagikan 527.760 foto, dan pengguna YouTube menonton lebih dari 4,1 juta video. Lalu ada sistem kuno, seperti email, yang terus mengalami pertumbuhan signifikan. Setiap menit, ada 156 juta pesan terkirim. Untuk menghadapi semua itu, muncullah kategori teknologi yang disebut Big Data. Oracle menjelaskan pentingnya tren ini : data besar (big data) telah menjadi modal. Pikirkan beberapa perusahaan teknologi terbesar di dunia, sebagian besar nilai yang mereka tawarkan berasal dari data mereka, yang terus mereka analisis untuk menghasilkan lebih banyak efisiensi dan mengembangkan produk baru.
Apa
karekteristik Big Data ? mengapa data disebut sebagai ‘bahan bakar utama’ AI ?
berikut karakteristiknya (1) Volume : skalaatau ukuran data, yang seringkali
tidak terstruktur. Tidak ada aturan baku dan cepat tentang ambang batas, tetapi
biasanya puluhan terabyte. (2) Varietas : menggambarkan keragaman data, kombinasi
data terstruktur, semi terstruktur, dan tidak terstruktur. Karakteristik ini
juga menunjukkan berbagai sumber data dan penggunaan. (3) Velocity : kecepatan
di mana data sedang dibuat. Layanan seperti YouTube dan Snapchat memiliki
tingkat kecepatan yang ekstrim. Ini membutuhkan investasi besar dalam teknologi
dan pusat data generasi selanjutnya. Data juga sering diproses di memori bukan
dengan sistem berbasis disk. Studi Gartner memperkirakan bahwa sekitar 85% proyek
Big Data ditinggalkan sebelum mencapai tahap percontohan. Beberapa alasannya
antara lain sebagai berikut : kurangnya fokus yang jelas, data kotor, investasi
pada alat TI yang salah, masalah dengan data koleksi, kurangnya dukungan dari
pemangku kepentingan utama dan juara dalam organisasi.
Sumber : T. Taulli, 2019, Artificial Intelligence Basics A Non-Technical Introduction, Apress
Comments
Post a Comment