Arthur L. Samuel bergabung dengan IBM
pada tahun 1949 di Laboratorium Poughkeepsie. Tugasnya membantu meningkatkan
daya komputasi mesin perusahaan, seperti dengan pengembangan komputer 701 (sistem
komputer komersial pertama IBM). Tapi dia juga memprogram aplikasi. Dan ada
satu yang akan membuat sejarah, yaitu permainan catur (checkers) komputernya. Aplikasi
ini adalah contoh pertama dari sistem pembelajaran mesin (machine learning).
Dengan catur, menunjukkan cara kerja pembelajaran mesin, komputer dapat belajar
dan meningkatkan kemampuan dengan memproses data tanpa harus diprogram secara
eksplisit. Ini dimungkinkan dengan memanfaatkan konsep statistik lanjutan,
terutama dengan analisis probabilitas. Dengan demikian, komputer dapat dilatih
untuk membuat prediksi yang akurat. Pembelajaran mesin adalah cabang kecerdasan
buatan (AI) dan ilmu komputer yang berfokus pada penggunaan data dan algoritma
untuk meniru cara manusia belajar, secara bertahap meningkatkan akurasinya.
Pembelajaran mesin adalah komponen penting dari bidang ilmu data, melalui
penggunaan metode statistik, algoritma dilatih untuk membuat klasifikasi atau
prediksi, dan mengungkap wawasan dalam proyek penambangan data (data mining).
Wawasan ini selanjutnya mendorong pengambilan keputusan dalam aplikasi dan bisnis,
yang secara ideal berdampak pada metrik pertumbuhan utama. Selanjutnya akan dibahas
kasus penggunaan untuk pembelajaran mesin, proses dan algoritma yang umum digunakan
yaitu Deviasi Standar, Distribusi Normal, Teorema Bayes, Korelasi dan Ekstraksi
Fitur.
Standar Deviasi : Standar deviasi
mengukur ukuran sebaran dari rata-rata (mean). Untuk memahami standar deviasi,
mari kita ambil contoh nilai rumah di lingkungan tertentu. Misalkan rata-rata
adalah $145.000 dan standar deviasi adalah $24.000. Ini berarti bahwa satu
standar deviasi di bawah rata-rata adalah $133.000 ($145.000 – $12.000) dan
satu standar deviasi di atas rata-rata akan menjadi $157.000 ($145.000 +
$12.000). Ini memberi kita cara untuk mengukur variasi dalam data. Artinya, ada
selisih $24.000 dari rata-rata. Menggunakan metrik ini untuk menghitung
variabilitas populasi atau sampel adalah pengujian penting akurasi model
pembelajaran mesin terhadap data dunia nyata. Selain itu, standar deviasi dapat
digunakan untuk mengukur kepercayaan pada kesimpulan statistik model.
Distribusi Normal : dalam grafik,
distribusi normal terlihat seperti lonceng (nama lain untuk itu adalah
"kurva lonceng"). Ini mewakili jumlah probabilitas untuk suatu
variabel. Yang cukup menarik, kurva normal umum terjadi di alam, karena
mencerminkan distribusi hal-hal seperti tinggi dan berat. Pendekatan umum saat
menafsirkan distribusi normal adalah dengan menggunakan aturan 68-95-99,7. Ini
memperkirakan bahwa 68% item data akan berada dalam satu standar deviasi, 95%
dalam dua standar deviasi, dan 99,7% dalam tiga standar deviasi. Cara untuk
memahami ini adalah dengan menggunakan skor IQ. Misalkan skor rata-rata adalah
100 dan standar deviasi adalah 15. Kami memiliki ini untuk tiga standar
deviasi, seperti yang ditunjukkan pada gambar berikut.
Perhatikan bahwa puncak dalam grafik
ini adalah rata-rata. Jadi, jika seseorang memiliki IQ 145, maka hanya 0,15%
yang memiliki skor lebih tinggi. Sekarang kurva mungkin memiliki bentuk yang
berbeda, bergantung pada variasi data. Misalnya, jika data IQ memiliki banyak
orang jenius, maka distribusinya akan miring ke kanan. Dalam pembelajaran mesin,
data yang memenuhi distribusi normal bermanfaat untuk pembuatan model, membuat matematika
lebih mudah. Model seperti LDA, Gaussian Naive Bayes, Regresi Logistik, Regresi
Linier, dll., dihitung secara eksplisit dari asumsi bahwa distribusinya adalah
normal bivariat atau multivariat.
Sumber : T. Taulli, 2019, Artificial Intelligence Basics A Non-Technical Introduction, Apress
Comments
Post a Comment