Xây dựng hệ thống thu thập dữ liệu tự động trên Internet phục vụ khai phá dữ liệu lớn.
Từ khoá:
Hệ thống thu thập dữ liệu tự động
Khai thác dữ liệu lớn
Công nghệ thông tin
Thuật toán
Triển khải ứng dụng
Tóm tắt
Trong bối cảnh ngày càng phát triển của công nghệ thông tin và xu hướng khai thác dữ liệu lớn, việc xây dựng một hệ thống thu thập dữ liệu tự động trên Internet đóng vai trò quan trọng. Đề tài này nhằm mục tiêu giải quyết bài toán tự động hóa quá trình thu thập thông tin từ các nguồn web đa dạng để phục vụ phân tích và xử lý sau này. Phương pháp nghiên cứu bao gồm cả lý thuyết về cấu trúc dữ liệu và thuật toán, cũng như thực nghiệm triển khai ứng dụng cụ thể trên môi trường Internet. Kết quả mong đợi là một hệ thống hiệu quả và linh hoạt có thể áp dụng trong nhiều lĩnh vực khác nhau, từ kinh doanh trực tuyến đến nghiên cứu khoa học.