Nghiên cứu bài toán phân lớp văn bản tiếng Việt

Giảng viên hướng dẫn ThS. Nguyễn Đình Dũng
Từ khoá: Phân lớp văn bản xử lý ngôn ngữ tự nhiên tiếng Việt K-NN cây quyết định TF-IDF

Tóm tắt

Đồ án nghiên cứu và xây dựng giải pháp cho bài toán phân lớp văn bản đối với ngôn ngữ tiếng Việt. Phần đầu giới thiệu nền tảng .NET và ngôn ngữ C#, tiếp nối là việc làm rõ các khái niệm cơ bản về phân lớp văn bản và các phương pháp biểu diễn thông tin như mô hình không gian vector (Boolean, tần suất TF-IDF). Tác giả phân tích các thuật toán phân lớp phổ biến như cây quyết định (ID3), K-NN (K-láng giềng gần nhất) và đưa ra định hướng giải quyết cụ thể cho văn bản tiếng Việt, bao gồm lựa chọn mô hình, phương án tách thuật ngữ và kỹ thuật loại bỏ từ dừng. Đồ án đã cài đặt thành công chương trình thử nghiệm bằng C# để đánh giá và so sánh hiệu suất các thuật toán.

Tài liệu tham khảo

  1. Damerau, and S.M. Weiss, 1994 “Automated Learning of Decision Rules for Text Categorization”, ACM Transactions on Information Systems.
  2. D. Lewis and M. Ringuette, (1994) “A Comparison of Two Learning Algorithms for Text Categorization”, In 3rd Annual Symposium on Document Analysis and Information Retrieval, pp.81-93.
  3. D. Lewis, (1991) “Representation and Learning in Information Retrieval”, PhD Thesis, Graduate School of the University of Massachusetts.
  4. T. Joachims, (1998) “Text Categorization with Support Vector Machines: Learning with many Relevant Features”, Proceedings 10th European Conference on Machine Learning (ECML), pp.137-142.
  5. Ilya Baraev, November 2000 “Information Retrieval: Standard and AI-based methods”.
  6. T.M. Mitchell (1997), “Machine Learning”, Mc Graw Hill, pp 52-76.