Xây dựng hệ thống phân loại website giả mạo (phishing websites) dựa trên học máy

Sinh viên thực hiện
Giảng viên hướng dẫn Trịnh Minh Đức
Từ khoá: Website giả mạo (Phishing) Học máy (Machine Learning) Trích xuất đặc trưng URL

Tóm tắt

Đồ án nghiên cứu và phát triển giải pháp nhận diện website lừa đảo bằng kỹ thuật học máy, thay thế cho phương pháp so khớp danh sách đen truyền thống. Tác giả thực hiện trích xuất các nhóm đặc trưng từ URL như đặc trưng từ vựng (lexical) và đặc trưng thống kê để huấn luyện các mô hình như SVM, Random Forest. Quy trình bao gồm thu thập dữ liệu, tiền xử lý bằng thư viện Pandas và chuẩn hóa đặc trưng để tối ưu hóa khả năng phân loại. Kết quả thực nghiệm qua Ablation Study cho thấy các đặc trưng cấu trúc URL đóng vai trò then chốt, giúp mô hình đạt hiệu năng cao với F1-score ấn tượng

Tài liệu tham khảo

  1. Cục An toàn thông tin – Bộ Thông tin và Truyền thông, "Báo cáo tổng quan an toàn thông tin mạng Việt Nam," 2024. [Online]. Available:
  1. NCSC, "Cảnh báo và thống kê tình hình lừa đảo trực tuyến tại Việt Nam," 2024. [Online]. Available:
  1. VNCERT/CC, "Hướng dẫn phòng chống tấn công phishing," 2024. [Online]. Available:
  1. Khoa CNTT - ĐH Bách Khoa Hà Nội, Giáo trình Học máy (Machine Learning). Hà Nội, 2023.
  1. VietAI, "Tổng quan về các thuật toán học máy và ứng dụng," 2023. [Online]. Available:
  1. N. T. Bình et al., "Ứng dụng học máy trong phát hiện website phishing," Tạp chí Khoa học & Công nghệ Thông tin Việt Nam, 2023.