Thiết kế và triển khai hệ thống nhận dạng ký tự quang học và trích xuất thông tin hóa đơn sử dụng Computer Vision kết hợp Mô hình ngôn ngữ lớn
Từ khoá:
OCR
VietOCR
LLM
Trích xuất thông tin
Hóa đơn điện tử
Tóm tắt
Nghiên cứu nhằm tự động hóa quy trình nhập liệu tài chính bằng cách kết hợp công nghệ OCR và LLM. Tác giả sử dụng mô hình VietOCR dựa trên kiến trúc Transformer (VGG Seq2Seq) để nhận dạng văn bản tiếng Việt từ ảnh hóa đơn, giúp khắc phục nhược điểm của các phương pháp truyền thống khi đối mặt với hình ảnh nhiễu. Sau đó, LLM đóng vai trò hậu xử lý ngữ nghĩa, sửa lỗi chính tả và chuyển đổi dữ liệu thô sang cấu trúc JSON. Kết quả thực nghiệm cho thấy mô hình VietOCR sau khi tinh chỉnh đạt độ chính xác ký tự 97.55% và tỷ lệ sai lỗi từ (WER) giảm xuống 3.26%, đáp ứng tốt nhu cầu chuyển đổi số cho doanh nghiệp
Tài liệu tham khảo
- T. Do et al., “Key information extraction and recognition from rich text images,” Vietnam J. Comput. Sci., vol. 11, no. 4, pp. 569–594, 2024.
- A. C. Tran, L. T. Ho, and H. T. Nguyen, “Information extraction from invoices by using a graph convolutional neural network: a case study of Vietnamese stores,” IEIE Trans. Smart Process. & Comput., vol. 11, no. 5, pp. 316–323, 2022.
- F. Loukil et al., “LLM-centric pipeline for information extraction from invoices,” in Proc. Int. Conf. Foundation and Large Language Models (FLLM2024), 2024.
- J. Miano, Compressed Image File Formats: Jpeg, Png, Gif, Xbm, Bmp. Addison-Wesley Professional, 1999.
- F. Zhuang et al., “A comprehensive survey on transfer learning,” Proc. IEEE, vol. 109, no. 1, pp. 43–76, 2020.
- L. N. Smith, “Cyclical learning rates for training neural networks,” in Proc. 2017 IEEE Winter Conf. Applications of Computer Vision (WACV), 2017.
- H. S. Oluwatosin, “Client-server model,” IOSR J. Comput. Eng., vol. 16, no. 1, pp. 67–71, 2014.