Pengantar Pembelajaran Mesin


Berikut adalah beberapa materi pembelajaran mesin (Machine Learning).

Regresi Linear dengan satu Variabel
– menggunakan Gradien Menurun
1. dimulai dengan pilihan x1 dan x2
2. ubah terus x1 dan x2 untuk mengurangi fungsi biaya j(x1,x2) sampai kita menemukan titik minimum
dua titik inisial yang berdekatan bisa menghasilkan titik minimum yang berbeda.

Pengantar K-means
bagaimana cara memilih jumlah klaster K untuk k-means?
salah satu cara adalah dengan metode siku(Elbow) yaitu mencari sudut yang mirip siku dari kurva distorsi terhadap jumlah klaster K. nilai K dimana terdapat siku pada kurva adalah nilai K yang akan dipakai.
kadangkala, kita menjalankan K-means untuk mendapatkan klaster untuk tujuan di kemudian hari. Mengevaluasi K-means berdasarkan pada sebuah ukuran seberapa bagus unjuk kerjanya untuk tujuan di kemudian hari.

Pengurangan Dimensionalitas
Pengurangan Dimensionalitas Merupakan jenis kedua dari unsupervised learning. cara ini juga dipakai untuk kompresi data. Misalkan dari 2 dimensi ke 1 dimensi seperti posisi titik dalam bidang yang berupa koordinat 2 dimensi menjadi posisi titik dalam garis.
Pengurangan dimensionalitas juga digunakan untuk visualisasi. Data dengan 50 fitur sulit untuk digambarkan, tapi jika direduksi menjadi 2 kita bisa melakukan visualisasi dengan mudah.
Salah satu teknik pengurangan adalah dengan Principal Component Analysis(PCA) yaitu dengan menemukan sebuah atau beberapa vektor yang akan diproyeksikan untuk meminimalkan eror proyeksi. Perbedaan denga regresi Linear adalah jika regresi linear hanya mempertimbangkan jarak sumbu y(vertikal) terhadap kurva sedangkan PCA mempertimbangkan jarak tegak lurus terhadap kurva vektor proyeksi.
Langkah pertama PCA adalah prapengolahan data dengan normalisasi mean. setiap fitur harus dicari rataannya dan setiap data dalam fitur dikurangi dengan rataan fiturnya. Langkah kedua adalah dengan menghitung matriks kovarians dengan mengalikan matriks dari setiap vektor fitur yang sudah dinormalisasi dengan transpos matriks tersebut. Selanjutnya bisa dilakukan dekomposisi matriks kovarians untuk mendapatkan matriks eigenvektor dan eigenvalue.Pilih beberapa eigenvektor dengan eigenvalue terbesar dan gunakan transpos dari eigenvektor yang sudah dipilih untuk mendapatkan data yang sudah diproyeksikan atau data dalam dimensi yang lebih kecil. untuk memulihkan data ke dimensi semua adalah dengan mengalikan dengan eigen vector semula, semakin sedikit jumlah eigenvektor semakin besar kompresi yang didapatkan sekaligus semakin besar distorsi data.
Cara menentukan jumlah eigenvektor yang dipakai untuk mendapatkan proyeksi terbaik dimulai dengan menentukan persen variansi  yang hendak dipertahankan. persen variansi tersebutlah yang menentukan seberapa besar distorsi ketika data tersebut dikembalikan ke dimensi semula . persen variansi direpresentasikan dengan jumlah eigenvalue yang berpasangan dengan eigenvektor. jika kita menginginkan persen variansi 99% maka persen eigenvalue yang dipakai harus sama dengan persen variansi. Cara lain adalah dengan memeriksa distorsi data yang rekonstruksi untuk setiap jumlah eigenvektor yang dipakai.
manfaat dari PCA antara lain untuk mempercepat proses pembelajaran yang diawasi(supervised learning). dengan mengurangi dimensionalitas, proyeksi dari data bisa mempercepat proses learning karena ukurannya lebih kecil. selain itu ukuran kecil juga menghemat konsumsi penyimpanan data. tentu saja PCA juga membantu visualisasi untuk dimensi 2 dan 3.
Namun PCA tidak cocok untuk mencegah terjadinya overfitting. hal ini bisa berkerja dengan baik namun bukan cara terbaik untuk mengatasi overfitting yang bisa dilakukan dengan regularisasi.


Leave a Reply