Khóa luận Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản

Dữliệu trên Internet được sinh ra liên tục mỗi ngày, lượng thông tin khổng lồ đó khiến người dùng trởnên bối rối do không đủthời gian đọc tất cảvăn bản. Tóm tắt văn bản tự động hiện đang là một bài toán được sựquan tâm nghiên cứu của nhiều nhà khoa học. Tóm tắt văn bản có thể được ứng dụng đểtóm tắt các bản tin với định dạng WAP hoặc SMS cho các thiết bịPDA, điện thoại di động. Trong máy tìm kiếm, ứng dụng tóm tắt văn bản sẽ đưa ra một đoạn mô tảcủa kết quảtìm kiếm. Người dùng dựa vào đó để chọn nhưng kết quảphù hợp với mong muốn của mình. Những ứng dụng đa dạng và phong phú của tóm tắt văn bản khẳng định sựcần thiết của việc xây dựng một hệthống tóm tắt văn bản tự động hiệu quả. Mục tiêu chính của khóa luận là tập trung vào việc khảo sát, nghiên cứu các phương pháp giải quyết bài toán tóm tắt văn bản một cách hiệu quả. Đểtiếp cận mục tiêu này, khóa luận giới thiệu kết quảnghiên cứu của báo cáo [4]: phương pháp tính độtương đồng câu sửdụng WordNet corpus; Đồng thời, khóa luận nghiên cứu, đềxuất phương pháp tính toán độtương đồng câu sửdụng mô hình topic ẩn. Ưu điểm của phương pháp này là làm tăng tính ngữnghĩa trong tính toán độtương đồng câu mà không cần dùng tới một mạng ngữnghĩa hay một corpus nào khác. Nội dung của khóa luận được chia thành các chương nhưsau: Chương 1. Tổng quan vềbài toán tóm tắt văn bản và độtương đồng câu: Đềcập tới nhu cầu của ứng dụng tóm tắt văn bản, các nền tảng kiến thức của bài toán tóm tắt. Phần này cũng giới thiệu những nội dung cơbản nhất của bài toán tóm tắt văn bản và độtương đồng ngữnghĩa giữa hai câu. Chương 2. Bài toán tóm tắt văn bản và một sốphương pháp tóm tắt văn bản: Trình bày cụthểvềbài toán tóm tắt văn bản bao gồm định nghĩa tóm tắt, phân loại tóm tắt, cách đánh giá một văn bản tóm tắt và một sốphương pháp tóm tắt văn bản. Chương 3. Độ đo tương đồng câu và phương pháp tính độtương đồng câu. Chương này giới thiệu về độtương đồng, độtương đồng câu và hai phương pháp khác nhau để tính độtương đồng câu: Phương pháp tính độtương đồng câu sửdụng WordNet corpus đã được trình bày trong báo cáo nghiên cứu khoa học [4] và phương pháp tính độtương đồng câu sửdụng Hidden Topic. Chương 4. Đềxuất và thực nghiệm: Trình bày những đềxuất của mô hình tóm tắt văn bản sửdụng Hidden Topic và những kết quả đánh giá thửnghiệm của mô hình mà luận áp dụng cho bài toán tóm tắt văn bản. Chương 5. Kết luận và hướng phát triển khóa luận: tóm lược lại những điểm chính của khóa luận, chỉra những điểm cần khắc phục, đồng thời đưa ra hướng nghiên cứu trong thời gian tới. 12 Chương 1. Tổng quan vềtóm tắt văn bản và độtương đồng câu 1.1. Đặt vấn đề Tóm tắt văn bản thuộc lĩnh vực xửlý văn bản (text processing) và cũng là một bài toán tiêu biểu của xửlý ngôn ngữtựnhiên. Xửlý văn bản cũng nhưtext mining, Web mining đều dựa trên các kỹthuật của xửlý ngôn ngữtựnhiên, mà quan trọng là việc hiểu và dùng tri thức vềngôn ngữ ởcác mức độkhác nhau [14]. Đối tượng xửlý của bài toán tóm tắt văn bản có thểlà một văn bản hay nhiều văn bản. Do sựphát triển của Internet, thông tin được sinh ra liên tục mỗi ngày, khối lượng dữliệu trên Web rất lớn, do đó vấn đềtrùng lặp thông tin thường xuyên xảy ra. Giải pháp cho vấn đềnày đó là tóm tắt văn bản tự động. Việc tóm tắt sẽgiúp người dùng tiết kiệm

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC