Luận văn Biểu diễn văn bản trên lý thuyết tập mờ - Áp dụng trong bài toán phân lớp văn bản

Biểu diễn văn bản là một trong những công đoạn quan trọng nhất và được quan tâm đầu tiên trong các vấn đềxửlý văn bản. Nó có ảnh hưởng rất lớn đến các bài toán tìm kiếm văn bản, phân lớp, phân cụm hay tóm tắt văn bản Khóa luận này trình bày và nghiên cứu một phương pháp biểu diễn văn bản mới dựa trên cơsởlý thuyết tập mờvà áp dụng vào bài toán phân lớp văn bản. Nội dung của khóa luận tập trung vào các vấn đề sau: 1. Trình bày một sốphương pháp biểu diễn văn bản thông thường, trong đó, khóa luận đi sâu vào cách biểu diễn theo mô hình vector, tức mỗi văn bản sẽ được biểu diễn nhưmột vector có các thành phần là các từkhóa có mặt hoặc không có mặt trong văn bản. Sau đó, khóa luận tìm hiểu phương pháp biểu diễn văn bản trong máy tìm kiếm. 2. Trình bày vềlý thuyết tập mờ, và đềcập một cách biểu diễn văn bản mới dựa trên các khái niệm mờ. Từ đó đềxuất hướng giải quyết khi xuất hiện các từ đồng nghĩa trong văn bản. 3. Tiến hành thửnghiệm cách biểu diễn mới này vào bài toán phân lớp văn bản. Chỉra một sốkết quảphân lớp và so sánh với phương pháp biểu diễn theo mô hình vector thông thường. Từ đó rút ra một sốkết luận và hướng phát triển tiếp theo.

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC