CẢNH BÁO SỚM HỌC LỰC TRONG HỌC PHẦN KĨ NĂNG MỀM BẰNG XGBOOST ĐA LỚP HIỆU CHỈNH XÁC SUẤT: KHUNG DỰ BÁO → PHÂN TẦNG → CAN THIỆP

CẢNH BÁO SỚM HỌC LỰC TRONG HỌC PHẦN KĨ NĂNG MỀM BẰNG XGBOOST ĐA LỚP HIỆU CHỈNH XÁC SUẤT: KHUNG DỰ BÁO → PHÂN TẦNG → CAN THIỆP

Tăng Thị Vinh* tranvansan@hitu.edu.vn Trường Cao đẳng Công thương Thành phố Hồ Chí Minh, 20 Tăng Nhơn Phú, phường Phước Long, Thành phố Hồ Chí Minh, Việt Nam
Trần Văn San tranvansan@hitu.edu.vn Trường Cao đẳng Công thương Thành phố Hồ Chí Minh, 20 Tăng Nhơn Phú, phường Phước Long, Thành phố Hồ Chí Minh, Việt Nam
Tóm tắt: 
Tác giả đề xuất khung Dự báo → Phân tầng → Can thiệp cho học phần Kĩ năng mềm. Nhật kí hoạt động tuần T1-T7, điểm chuyên cần/thưởng, bài tập ngắn và báo cáo đồng học/tự đánh giá được chuẩn hoá thành đặc trưng ở mức cá nhân và nhóm. Mô hình XGBoost đa lớp kèm hiệu chỉnh isotonic và chia tách group–aware tạo xác suất tin cậy, từ đó suy ra cảnh báo ĐỎ/VÀNG/XANH và tổng hợp lớp/nhóm (phối trộn tầng, danh sách rủi ro). Trên một học kì giữ lại để kiểm định, hệ thống đạt Accuracy = 0.772, Macro-F1 = 0.520, AUPRC(C) = 0.739, Brier = 0.1008, ECE = 0.0577; mô hình tách rõ nhóm thành tích cao so với trung bình và dù lớp C hiếm vẫn xếp hạng rủi ro hiệu quả theo precision - recall. Quy trình chi phí thấp (Google Forms/Sheets thêm ít mã Python), minh bạch, dễ tái lập và hỗ trợ can thiệp phân tầng kịp thời.
Từ khóa: 
Khai phá dữ liệu giáo dục (EDM)
cảnh báo sớm
dạy học phân tầng
Kĩ năng mềm
hiệu chỉnh xác suất
XGBoost.
Tham khảo: 

[1] Angeioplastis, A., Aliprantis, J., Konstantakis, M. & Tsimpiris, A. (2025). Predicting student performance and enhancing learning outcomes: A data-driven approach using educational data mining techniques. Computers, 14(3), 83. https:// doi.org/10.3390/computers14030083

[2] Baker, R. S. & Yacef, K. (2009). The state of educational data mining in 2009: A review and future visions. Journal of Educational Data Mining, 1(1), pp.3–17.

[3] Brier, G. W. (1950). Verification of forecasts expressed in terms of probability. Monthly Weather Review, 78(1), pp.1–3.

[4] Chen, T. & Guestrin, C. (2016). XGBoost: A Scalable Tree Boosting System. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD ‘16), pp.785–794. https://doi.org/10.1145/2939672.2939785.

[5] Garg, A., Ali, N., Hollmann, N., Purucker, L., Müller, S. & Hutter, F. (2025). Real-TabPFN: Improving tabular foundation models via continued pre training with real-world data. In Proceedings of the 1st ICML Workshop on Foundation Models for Structured Data.

[6] Guo, C., Pleiss, G., Sun, Y. & Weinberger, K. Q. (2017). On calibration of modern neural networks. In Proceedings of the 34th International Conference on Machine Learning, pp. 1321–1330.

[7] Hollmann, N., Hütter, S., Schirrmeister, R. T., et al. (2025). Accurate predictions on small data with a tabular foundation model. Nature. Advance online publication.

[8] Malik, S., Patro, S. G. K., Mahanty, C., Hegde, R., Naveed, Q. N., Lasisi, A., Buradi, A., Emma, A. F. & Kraiem, N. (2025). Advancing educational data mining for enhanced student performance prediction: A fusion of feature selection algorithms and classification techniques with dynamic feature ensemble evolution. Scientific Reports, 15, p.8738. https://doi.org/10.1038/s41598-025-92324-x

[9] Pedregosa, F., Varoquaux, G., Gramfort, A., et al. (2011). Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12, pp.2825–2830.

[10] Romero, C. & Ventura, S. (2010). Educational data mining: A review of the state of the art. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 40(6), pp.601–618. https://doi.org/10.1109/TSMCC.2010.2053532

[11] Tạp chí Giáo dục Thành phố Hồ Chí Minh. (2024). Báo động 80% sinh viên thiếu hụt kĩ năng mềm: Cao đẳng Việt Mĩ nỗ lực đổi mới đào tạo. Giáo dục Thành phố Hồ Chí Minh. https://giaoduc.edu.vn/ bao-dong-80-sinh-vien-thieu-hut-ky-nang-mem cao-dang-viet-my-no-luc-doi-moi-dao-tao/

[12] Zadrozny, B. & Elkan, C. (2002). Transforming classifier scores into accurate multiclass probability estimates. In Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp.694–699.

Bài viết cùng số