Khóa luận Phân lớp câu hỏi hướng tới tìm kiếm ngữ nghĩa tiếng việt trong lĩnh vực y tế

Sựra đời của Web ngữnghĩa và các Ontology dẫn tới sựra đời của các hệthống tìm kiếm với sựhộtrợcủa dạng thông tin mới này – hệthống tìm kiếm ngữnghĩa. Một hệ thống tìm kiếm ngữnghĩa thông thường được xây dựng trên một miền và ngôn ngữcụ thể. Cấu trúc nội tại của một hệthống tìm kiếm ngữnghĩa điển hình bao gồm hai thành phần quan trọng mang đặc trưng ngôn ngữ đó là: (1) phân lớp câu hỏi và (2) cơsởdữliệu tri thứ(mạng ngữnghĩa). Trong vài năm gần đây nhiều công trình nghiên cứu giải quyết bài toán phân lớp câu hỏi đã được công bố[16], [15], [19], [36], [42]. Ta có thểchia các thuật toán phân lớp câu hỏi thành hai hướng tiếp cận chính: (1) hướng tiếp cận theo regular expression (biểu thức chính qui) [35] và (2) hướng tiếp cận dựa trên xác suất [16], [15], [19], [36], [42]. Mỗi hướng tiếp cận có những ưu và nhược điểm riêng và sẽ được xem xét trong các phần sau đây. Khóa luận này tiến hành phân tích cấu trúc tổng thểcủa một máy tìm kiếm ngữ nghĩa. Qua đó chỉra các module ảnh hưởng bởi đặc trưng ngôn ngữvà tiến hành khảo sát các phương pháp giải quyết bài toán phân lớp câu hỏi phổbiến hiện nay. Từ đó đềxuất giải pháp thích hợp khi áp dụng vào tiếng Việt . Khóa luận gồm bốn chương nội dung được mô tảsơbộdưới đây: Chương 1. Tổng quan vềtìm kiếm ngữnghĩagiới thiệu những thành phần cơ bản vềmột hệthống tìm kiếm ngữnghĩa: nhu cầu vềtìm kiếm ngữnghĩa và các nền tảng cho tìm kiếm ngữnghĩa hình thành. Đồng thời, chương này cũng giới thiệu kiến trúc tổng thểcủa một hệthống tìm kiếm ngữnghĩa và chỉra các module chịu ảnh hưởng bởi đặc trưng của ngôn ngữ. Chương 2. Tìm kiếm ngữnghĩa trong tiếng Việttrình bày vềhiện trạng của tìm kiếm ngữnghĩa trong tiếng Việt hiện nay. Qua đó, chỉra những cơsởcần thiết đểxây dựng một hệthống tìm kiếm ngữnghĩa trong tiếng Việt. Đồng thời, chương này cũng giới thiệu quá trình phân tích và xây dựng hai module mang đặc trưng ngôn ngữ, tạo tiền đềxây dựng mộhệthống tìm kiếm ngữnghĩa trong lĩnh vực Y tếtiếng Việt. Chương 3. Các phương pháp phân lớp câu hỏikhảo sát và phân tích kỹlưỡng các thuật toán cho bài toán phân lớp câu hỏi, chỉra ưu nhược điểm của từng phương pháp. Qua đó lựa, chọn phương pháp tốt nhất đểthửnghiệm trong tiếng Việt. Chương 4. Thực nghiệm và đánh giáhai thuật toán Support Vector Machine và nguyên lý Entropy cực đại trên tập dữliệu câu hỏi Y tếtiếng Việt. Kết quảthửnghiệm cho thấy hiệu của của từng phương pháp và chỉrõ phương pháp nào thích hơn khi áp dụng cho tiếng Việt. Phần kết luận tổng kết và tóm lược nội dung chính của khóa luận.

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC