Pengantar Kecerdasan Buatan (Bagian 4)

 

Arthur L. Samuel bergabung dengan IBM pada tahun 1949 di Laboratorium Poughkeepsie. Tugasnya membantu meningkatkan daya komputasi mesin perusahaan, seperti dengan pengembangan komputer 701 (sistem komputer komersial pertama IBM). Tapi dia juga memprogram aplikasi. Dan ada satu yang akan membuat sejarah, yaitu permainan catur (checkers) komputernya. Aplikasi ini adalah contoh pertama dari sistem pembelajaran mesin (machine learning). Dengan catur, menunjukkan cara kerja pembelajaran mesin, komputer dapat belajar dan meningkatkan kemampuan dengan memproses data tanpa harus diprogram secara eksplisit. Ini dimungkinkan dengan memanfaatkan konsep statistik lanjutan, terutama dengan analisis probabilitas. Dengan demikian, komputer dapat dilatih untuk membuat prediksi yang akurat. Pembelajaran mesin adalah cabang kecerdasan buatan (AI) dan ilmu komputer yang berfokus pada penggunaan data dan algoritma untuk meniru cara manusia belajar, secara bertahap meningkatkan akurasinya. Pembelajaran mesin adalah komponen penting dari bidang ilmu data, melalui penggunaan metode statistik, algoritma dilatih untuk membuat klasifikasi atau prediksi, dan mengungkap wawasan dalam proyek penambangan data (data mining). Wawasan ini selanjutnya mendorong pengambilan keputusan dalam aplikasi dan bisnis, yang secara ideal berdampak pada metrik pertumbuhan utama. Selanjutnya akan dibahas kasus penggunaan untuk pembelajaran mesin, proses dan algoritma yang umum digunakan yaitu Deviasi Standar, Distribusi Normal, Teorema Bayes, Korelasi dan Ekstraksi Fitur.

 

Standar Deviasi : Standar deviasi mengukur ukuran sebaran dari rata-rata (mean). Untuk memahami standar deviasi, mari kita ambil contoh nilai rumah di lingkungan tertentu. Misalkan rata-rata adalah $145.000 dan standar deviasi adalah $24.000. Ini berarti bahwa satu standar deviasi di bawah rata-rata adalah $133.000 ($145.000 – $12.000) dan satu standar deviasi di atas rata-rata akan menjadi $157.000 ($145.000 + $12.000). Ini memberi kita cara untuk mengukur variasi dalam data. Artinya, ada selisih $24.000 dari rata-rata. Menggunakan metrik ini untuk menghitung variabilitas populasi atau sampel adalah pengujian penting akurasi model pembelajaran mesin terhadap data dunia nyata. Selain itu, standar deviasi dapat digunakan untuk mengukur kepercayaan pada kesimpulan statistik model.

 

Distribusi Normal : dalam grafik, distribusi normal terlihat seperti lonceng (nama lain untuk itu adalah "kurva lonceng"). Ini mewakili jumlah probabilitas untuk suatu variabel. Yang cukup menarik, kurva normal umum terjadi di alam, karena mencerminkan distribusi hal-hal seperti tinggi dan berat. Pendekatan umum saat menafsirkan distribusi normal adalah dengan menggunakan aturan 68-95-99,7. Ini memperkirakan bahwa 68% item data akan berada dalam satu standar deviasi, 95% dalam dua standar deviasi, dan 99,7% dalam tiga standar deviasi. Cara untuk memahami ini adalah dengan menggunakan skor IQ. Misalkan skor rata-rata adalah 100 dan standar deviasi adalah 15. Kami memiliki ini untuk tiga standar deviasi, seperti yang ditunjukkan pada gambar berikut.


 

Perhatikan bahwa puncak dalam grafik ini adalah rata-rata. Jadi, jika seseorang memiliki IQ 145, maka hanya 0,15% yang memiliki skor lebih tinggi. Sekarang kurva mungkin memiliki bentuk yang berbeda, bergantung pada variasi data. Misalnya, jika data IQ memiliki banyak orang jenius, maka distribusinya akan miring ke kanan. Dalam pembelajaran mesin, data yang memenuhi distribusi normal bermanfaat untuk pembuatan model, membuat matematika lebih mudah. Model seperti LDA, Gaussian Naive Bayes, Regresi Logistik, Regresi Linier, dll., dihitung secara eksplisit dari asumsi bahwa distribusinya adalah normal bivariat atau multivariat.

 

Sumber : T. Taulli, 2019, Artificial Intelligence Basics A Non-Technical Introduction, Apress 

Comments