Abstract:
Teknologi informasi dan komunikasi kini telah berkembang dengan sangat pesat,
membawa perubahan signifikan dalam kehidupan sehari-hari kita. Dengan
semakin majunya teknologi informasi dan komunikasi, akses terhadap informasi
menjadi sangat mudah dan cepat. Namun, kemudahan ini juga membawa
tantangan tersendiri, terutama dalam hal keamanan data pribadi. Sebagai
pengguna teknologi, kita dituntut untuk bijak dan waspada dalam menjaga data
pribadi kita agar tidak disalahgunakan oleh pihak yang tidak bertanggung jawab.
Salah satu contoh kejahatan siber yang sering terjadi adalah email phishing.
Dalam serangan ini, pelaku menggunakan tautan berisi virus untuk mengenkripsi
data atau perangkat pengguna, kemudian meminta tebusan untuk mengembalikan
akses data tersebut. Phishing email biasanya tampak seperti email resmi dari
sumber tepercaya, sehingga sering kali penerima tidak menyadari bahaya yang
mengintai. Oleh karena itu, untuk meminimalisir kerugian yang dapat terjadi, kita
juga dapat memanfaatkan teknologi sehingga dapat melakukan proses klasifikasi
email phishing secara otomatis. Oleh karena itu, pada penelitian ini akan
melakukan proses Pembangunan model machine learning yang Dimana dapat
melakukan proses klasifikasi email phishing secara otomatis. Sehingga dengan
adanya model yang dibangun pada penelitian ini, diharapkan dapat membantu
dalam mengantisipasi terkena email phishing. Pada penelitian ini, Pembangunan
model machine learning akan menggunakan data dengan total sebanyak 18650
viii
ix
data yang dimana terdiri dari 11322 data email tidak phishing dan sebanyak 7328
data email phising. Model yang akan dibangun pada penelitian ini yaitu model
dengan menggunakan algoritma Support Vector Machine dan Random Forest.
Dalam proses Pembangunan model, untuk menemukan parameter yang optimal
dilakukan proses hyperparameter tuning dengan menggunakan gridsearch CV,
sehingga dapat menghasilkan parameter yang optimal. Setelah dilakukan proses
pengujian model untuk melakukan proses klasifikasi email phishing, didapatkan
hasil bahwa dengan menggunakan algoritma Support Vector Machine
menghasilkan akurasi pengujian sebesar 97.27%, sedangkan dengan
menggunakan algoritma Random Forest menghasilkan akurasi sebesar 96.51%.