Nghiên cứu bài toán nhận dạng thực thể có tên NER trong lĩnh vực pháp lý

Sinh viên thực hiện
Giảng viên hướng dẫn Hà Thị Thanh
Từ khoá: Nhận dạng thực thể có tên (NER) Văn bản pháp lý PhoBERT

Tóm tắt

Đề tài tập trung xây dựng mô hình nhận dạng thực thể có tên (NER) chuyên sâu cho văn bản luật pháp Việt Nam sử dụng PhoBERT. Nghiên cứu đã huấn luyện mô hình để trích xuất các thông tin quan trọng như tên luật, điều khoản, cơ quan ban hành và ngày hiệu lực. Việc ứng dụng PhoBERT giúp xử lý tốt đặc trưng ngôn ngữ tiếng Việt và ngữ cảnh pháp lý phức tạp. Kết quả đạt được là tiền đề quan trọng để phát triển các hệ thống trợ lý ảo pháp luật và tra cứu văn bản thông minh

Tài liệu tham khảo

  1. D. Q. Nguyen and A. T. Nguyen, “PhoBERT: Pre-trained language models for Vietnamese,” Findings of EMNLP, pp. 1037–1042, 2020. [2] H. P. Nguyen, T. H. Nguyen, and T. H. Nguyen, “PhoNLP: A joint multi-task learning model for Vietnamese NLP,” Proc. EMNLP, 2021. [3] N. T. Huyền and P. A. Tuấn, “Trích xuất thực thể và quan hệ trong văn bản tiếng Việt,” Kỷ yếu Hội nghị FAIR, 2023.