Abstract:
Serangan phishing merupakan salah satu ancaman siber yang paling umum dan
merusak, dengan teknik yang terus berevolusi menjadi semakin canggih dan sulit
dideteksi. Salah satu metode penyamaran terbaru yang menjadi perhatian adalah
penggunaan Zero-Width Characters (ZWC)—karakter Unicode tak kasat mata
yang disisipkan ke dalam URL untuk mengelabui sistem deteksi tradisional dan
persepsi visual manusia. Penelitian ini bertujuan untuk mengembangkan dan
mengevaluasi model machine learning yang efektif dan andal untuk mendeteksi
URL phishing yang telah disamarkan menggunakan ZWC. Algoritma eXtreme
Gradient Boosting (XGBoost) dipilih karena kemampuannya yang terbukti unggul
dalam menangani data yang kompleks dan kemampuannya untuk mengoptimalkan
performa.Penelitian ini menggunakan dataset publik dari Kaggle yang terdiri dari
11.430 sampel URL, yang kemudian dimodifikasi melalui proses rekayasa fitur.
Secara spesifik, 50% dari URL phishing disisipi salah satu dari lima jenis ZWC
(ZWSP, ZWNJ, ZWJ, RLM, LRM), dan sebuah fitur biner khusus diciptakan untuk
menandai keberadaan karakter-karakter tersebut. Pada pelatihan awal, model
menunjukkan adanya overfitting ringan. Oleh karena itu, dilakukan proses
hyperparameter tuning dengan mengatur parameter max_depth dan
min_child_weight untuk menciptakan model yang lebih robust. Model final
dievaluasi menggunakan 20% data uji dan menunjukkan kinerja yang sangat tinggi,
dengan pencapaian akurasi 97.24%, Presisi 97.03%, Recall 97.37%, dan skor AUC
0.9972. Nilai recall yang tinggi sangat krusial, membuktikan kemampuan model
yang andal dalam meminimalkan risiko lolosnya ancaman berbahaya. Penelitian ini
berhasil membuktikan bahwa pendekatan XGBoost dengan rekayasa fitur yang
ditargetkan mampu menjadi solusi yang efektif untuk melawan serangan phishing
canggih.