Khóa luận Trích rút mối quan hệ ngữ nghĩa và áp dụng cho hệ thống hỏi đáp tự động tiếng việt

Các bài toán cơ bản cho trong xử lý ngôn ngữ tự nhiên vẫn luôn nhận được sự quan tâm đặc biệt từ các nhà nghiên cứu. Đây là nền tảng cho việcxây dựng và phát triển các bài toán ứng dụng khác. Trích rút mối quan hệ ngữ nghĩa cho mộttập văn bản cũng là một trong số đó, nó đóng vài trò ngày càng quan trọng trong xử lý ngôn ngữtự nhiên. Bài toán này tiến hành trích rút mối quan hệ giữa các khái niệm về mặt ngữ nghĩa hoặc dựa vào mối quan hệ xác định trước tìm kiếm những thông tin phục vụ cho quá trình xử lý khác. Trích rút mối quan hệ được ứng dụng nhiều cho các bài toán như: Hệ thống hỏi đáp [11,16,20,25], phát hiện ảnh qua đoạn văn bản [7], tìm mối liên hệ giữa bệnh-genes [27], . Vì thế, vấn đề trích rút mối quan hệ ngữ nghĩa nhận được sự quan tâm rất lớn từ các nhà nghiên cứu, các hội nghị lớn trên thế giới trong những năm gần đây như: Colling, ACL, Senseval, Đồng thời, trích rút mối quan hệ ngữ nghĩa cũng là một phần trong các dự án quan trọng mang tầm cỡ quốc tế trong lĩnh vực khai phá tri thứcnhư: ACE Trong những năm gần đây, mặc dù đã có nhiều phương pháp mới được đưa ra nhưng bài toán trích rút mối quan hệ ngữ nghĩa vẫn được nhận sự quan tâm từ các nhà nghiên cứu cho các ngôn ngữ nói chung và tiếng Việt nói riêng. Tương tự đối với tiếng Anh, trích rút mối quan hệ ngữ nghĩa cũng đang là một vấn đề được đề cập trong các bài toán về xử lý văn bản tiếng Việt. Việc tìm ra một phương pháp tốiưu cho ngôn ngữ tiếng Việt còn đang là một vấn đề còn gặp nhiều khó khăn do hiện tại các kĩ thuật về xử lý ngôn ngữ, tài nguyên ngôn ngữ học cũng như các kĩ thuật học máy phục vụ cho quá trình xử lý còn đang được hoàn thiện. Vì thế, nhiều bài toán xử lý cho ngôn ngữ tiếng Việt còn gặp nhiều hạn chế. Mục tiêu của khoá luận này là khảo sát, nghiên cứu để đưa ra một phương pháp trích rút mối quan hệ ngữ nghĩa tối ưu nhất cho ngôn ngữ tiếng Việt. Để tiếp cận mục tiêu này, khoá luận nghiên cứu và giới thiệu các phương pháp trích rút mối quan hệ ngữ nghĩa đang được quan tâm nhất hiện nay. Từ đó, đưa ra một phương pháp trích rút mối quan hệ ngữ nghĩa cho ngôn ngữ tiếng Việt bằng cách kết hợp giữa phương pháp trích rút mối quan hệ ngữ nghĩa sử dụng máy tìm kiếm [25] và phương pháp Snowball [1]. Bên cạnh đó, khoá luận cũng áp dụng phương pháp trích rút mối quan hệ ngữ nghĩa để giải quyết cho bài toán mà cũng đang nhận được sự quan tâm không kém – đó là xây dựng hệ thống hỏi đáp. Thông qua việc xây dựng hệ thống hỏi đáp tự động (question answering), hệ thống cũng đánh giá được hiệu quả của phương pháp xử lý cho bài toán trích rút mốiquan hệ ngữ nghĩa mà khoá luận đưa ra. Nội dung của khoá luận được chia thành các chương như sau: Chương 1: Trình bày khái quát về bài toán trích rút mối quan hệ ngữ nghĩa. Chương này đề cập tới khái niệm quan hệ ngữ nghĩa, các loại quan hệ ngữ nghĩa, bài toán trích rút mối quan hệ ngữ nghĩ. Chương 1 cũng giới thiệu khái quát về hệ thống hỏi đáp tự động và một số hệ thống hỏi đáp sử dụng trích rút mẫu quan hệ ngữ nghĩa Chương 2: Các phương pháp trích rút mẫu quan hệ ngữ nghĩa. Đây là chương trình bày tất các phương pháp trích rút mẫu quan hệ ngữ nghĩa sử dụng kĩ thuật bootstrapping theo hướng tiếp cận học bán giám sát. Đồng thời đưa ra phương pháp trích rút mẫu quan hệ ngữ nghĩa phù hợp nhất đối với tài liệu tiếng Việt. Chương 3: Mô hình hệ thống hỏi đáp tiếng Việt sử dụng trích rút mối quan hệ ngữ nghĩa. Trình bày mô hình trích rút mẫu quan hệ ngữ nghĩa, phương pháp sinh tự động tập thực thể từ dữ liệu web. Từ đó đưa ra mô hình cho hệ thống hỏi đáp tiếng Việt áp dụng trích rút mối quan hệ ngữ nghĩa. Chương 4:Thực nghiệm, kết quả và đánh giá. Tiến hành thực nghiệm việc sinh thực thể tự động, thực nghiệm trích rút mối quan hệ ngữ nghĩa và thực nghiệm hệ thống hỏi đáp tự động tiếng Việt.

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC