Khóa luận Phân lớp bán giám sát và ứng dụng thuật toán SVM vào phân lớp trang Web

Hiện nay, với một lượng lớn các dữliệu thì phân lớp dữliệu có vai trò rất quan trọng, là một trong những bài toán luôn thời sựtrong lĩnh vực xửlý dữliệu văn bản. Một yêu cầu cơbản được đặt ra là cần tăng tính hiệu quảcủa thuật toán phân lớp, nâng cao giá trịcủa các độ đo hồi tưởng, chính xác của thuật toán. Mặt khác, nguồn tài nguyên vềví dụhọc có nhãn không phải luôn được đáp ứng vì vậy cần có các thuật toán phân lớp sử dụng các ví dụchưa có nhãn. Phân lớp bán giám sát đáp ứng được hai yêu cầu nói trên [5, 7, 8, 16, 17]. Các thuật toán phân lớp bán giám sát tận dụng các nguồn dữliệu chưa gán nhãn rất phong phú có trong tựnhiên kết hợp với một sốdữliệu đã được gán nhãn cho sẵn. Trong những năm gần đây, phương pháp sửdụng bộphân loại máy hỗtrợvector (Support Vector Machine - SVM) được quan tâm và sửdụng nhiều trong lĩnh vực nhận dạng và phân loại. Từcác công trình khoa học [4, 7, 8, 11] được công bốcho thấy phương pháp SVM có khảnăng phân loại khá tốt đối với bài toán phân loại văn bản cũng nhưtrong nhiều ứng dụng khác. Trong khoá luận này, em khảo sát thuật toán học bán giám sát SVM và trình bày các nội dung vềphần mềm SVMlin do V. Sindhwani đềxuất [18]. Trong năm 2006-2007, V. Sindhwani đã dùng SVMlin tiến hành phân lớp văn bản từnguồn 20-Newsgroups cho các kết quảtốt [14,15].

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC