Luận văn Khai phá dữ liệu văn bản tiếng Việt với bản đồ tự tổ chức

Thuật toán SOM là một biểu tƣợng của lớp mạng neural học không giám sát. Trong đó, sơ khai đầu tiên của SOM đƣợc phát minh bởi giáo sƣ Teuvo Kohonen tại trung tâm nghiên cứu của mạng Neural- Network (1981-1982). Ông đã ứng dụng SOM vào rất nhiều những chƣơng trình phiên bản một cách nhanh chóng và hiệu quả. Trọng tâm của SOM là đƣa và hiển thị dữ liệu hoặc cụm dữ liệu một cách rõ ràng lên mảng một hoặc hai chiều. Nếu các biến trong bản ghi dữ liệu là các vector thì các biến đó sẽ đƣợc mô tả nhƣ một dữ liệu thống kê, đƣợc sử dụng độc lập các mức xám hoặc các mã màu nền riêng. Dùng SOM khai phá để tìm ra đƣợc mối quan hệ hữu ích, phụ thuộc lẫn nhau giữa các biến và cấu trúc của dữ liệu. Lĩnh vực khai phá dữ liệu văn bản cho đến nay đã đạt mục tiêu chính: đó là chứng minh đƣợc bằng lý thuyết và thực nghiệm rằng bản đồ văn bản tự tổ chức là một công cụ trọng tâm có nhiều triển vọng, và việc xây dựng những bản đồ nhƣ vậy là hoàn toàn tự động. Tuy nhiên, mọi thành quả chỉ mới là ở giai đoạn sơ khai, còn tồn đọng rất nhiều vấn đề không thể giải quyết một cách bao quát đƣợc, đặc biệt quan trọng là vấn đề chọn lựa đặc trƣng cho nội dung văn bản trong quá trình xây dựng bản đồ, cũng nhƣ việc đánh giá chất lƣợng bản đồ kết quả. Đó là những điều rất đáng phải suy nghĩ Tính cấp thiết của đề tài nằm ở những mối quan tâm đó - những gì còn chƣa đầy đủ và không thể bao quát đƣợc của mô hình đã có - khi ứng dụng vào của Tiếng Việt. Trong giai đoạn tiền xử lý, bao hàm trọng tâm là phƣơng pháp chọn lựa đặc trƣng cho văn bản, thật ra còn quyết định chất lƣợng bản đồ nhiều hơn là các yếu tố khác. Sự triển khai lĩnh vực khai phá dữ liệu văn bản trong các ngôn ngữ đặc thù thì dƣờng nhƣ là những đề tài vô tận.

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC