Dự đoán nguy cơ tiểu đường dựa trên dữ liệu khám sức khỏe sử dụng học máy

Sinh viên thực hiện
Giảng viên hướng dẫn Dương Thị Quy
Từ khoá: Dự đoán tiểu đường Học máy (Machine Learning) Random Forest

Tóm tắt

Nghiên cứu này ứng dụng học máy để dự báo sớm nguy cơ mắc bệnh tiểu đường từ các chỉ số lâm sàng. Tác giả tiến hành xử lý dữ liệu thô, thay thế giá trị thiếu bằng trung vị và chuẩn hóa thang đo các thuộc tính để đảm bảo tính tin cậy. Đồ án so sánh hiệu năng giữa mô hình Logistic Regression và Random Forest, kết quả cho thấy Random Forest đạt độ chính xác cao hơn nhờ khả năng xử lý tốt các mối quan hệ phi tuyến tính. Hệ thống cung cấp công cụ hỗ trợ sàng lọc y tế hiệu quả dựa trên nền tảng lập trình Python và thư viện Scikit-learn

Tài liệu tham khảo

  1. American Diabetes Association, "Standards of medical care in diabetes—2024," Diabetes Care, vol. 47, no. S1, pp. S1–S322, 2024.
  1. International Diabetes Federation, IDF Diabetes Atlas, 11th ed. Brussels, 2025.
  1. Pandas Documentation, "Pandas: Python data analysis library," 2025. [Online]. Available:
  1. World Health Organization, Global report on diabetes, 2024. [Online]. Available:
  1. American Diabetes Association, "Early prediction of diabetes using KNN, SVM, Random Forest and XGBoost," 2024.