Nghiên cứu bài toán phân lớp văn bản tiếng Việt

Sinh viên thực hiệnICTU_STUDENT

Giảng viên hướng dẫnThS. Nguyễn Đình Dũng

Phân lớp văn bảnxử lý ngôn ngữ tự nhiêntiếng ViệtK-NNcây quyết địnhTF-IDF

Tóm tắt

Đồ án nghiên cứu và xây dựng giải pháp cho bài toán phân lớp văn bản đối với ngôn ngữ tiếng Việt. Phần đầu giới thiệu nền tảng .NET và ngôn ngữ C#, tiếp nối là việc làm rõ các khái niệm cơ bản về phân lớp văn bản và các phương pháp biểu diễn thông tin như mô hình không gian vector (Boolean, tần suất TF-IDF). Tác giả phân tích các thuật toán phân lớp phổ biến như cây quyết định (ID3), K-NN (K-láng giềng gần nhất) và đưa ra định hướng giải quyết cụ thể cho văn bản tiếng Việt, bao gồm lựa chọn mô hình, phương án tách thuật ngữ và kỹ thuật loại bỏ từ dừng. Đồ án đã cài đặt thành công chương trình thử nghiệm bằng C# để đánh giá và so sánh hiệu suất các thuật toán.

File PDF

Mở file PDF Tải PDF

Tài liệu tham khảo

Damerau, and S.M. Weiss, 1994 “Automated Learning of Decision Rules for Text Categorization”, ACM Transactions on Information Systems.
D. Lewis and M. Ringuette, (1994) “A Comparison of Two Learning Algorithms for Text Categorization”, In 3rd Annual Symposium on Document Analysis and Information Retrieval, pp.81-93.
D. Lewis, (1991) “Representation and Learning in Information Retrieval”, PhD Thesis, Graduate School of the University of Massachusetts.
T. Joachims, (1998) “Text Categorization with Support Vector Machines: Learning with many Relevant Features”, Proceedings 10th European Conference on Machine Learning (ECML), pp.137-142.
Ilya Baraev, November 2000 “Information Retrieval: Standard and AI-based methods”.
T.M. Mitchell (1997), “Machine Learning”, Mc Graw Hill, pp 52-76.

Trích dẫn

ICTU_STUDENT. (không ngày tháng). Nghiên cứu bài toán phân lớp văn bản tiếng Việt. Trường đại học Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên. https://repository.ictu.edu.vn/wp-content/uploads/2026/05/22391.pdf.

ICTU_STUDENT, “Nghiên cứu bài toán phân lớp văn bản tiếng Việt,” đồ án tốt nghiệp, Trường Đại học Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên, không ngày tháng. [Online]. Available: https://repository.ictu.edu.vn/wp-content/uploads/2026/05/22391.pdf.

@mastersthesis{thesis22391,
  title        = {Nghiên cứu bài toán phân lớp văn bản tiếng Việt},
  author       = {ICTU_STUDENT},
  year         = {không ngày tháng},
  school       = {Trường đại học Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên},
  url          = {https://repository.ictu.edu.vn/wp-content/uploads/2026/05/22391.pdf},
  urldate      = {2026-07-18},
}

← Quay lại danh sách đồ án