Luận án Phân giải nhập nhằng thực thể có tên dựa trên các Ontology đóng và mở

Thực thểcó tên là những thực thểcó thể được tham khảo đến bằng tên riêng, nhưcon người, tổchức, hoặc nơi chốn. Phân giải nhập nhằng thực thểcó tên là nhằm ánh xạmỗi tên trong một văn bản vào một thực thểtrong một nguồn tri thức cho trước. Nổi lên gần đây nhưlà một bài toán đầy thách thức, nhưng có nhiều ý nghĩa trong việc hiện thực hóa Web có ngữnghĩa, cũng nhưphát triển nâng cao các ứng dụng xửlý ngôn ngữtựnhiên, phân giải nhập nhằng thực thểcó tên đã thu hút sựquan tâm của nhiều nhóm nghiên cứu khắp thếgiới. Luận án đềxuất ba phương pháp cho bài toán này, trong đó nghiên cứu sâu ba yếu tốquan trọng ảnh hưởng đến hiệu quảphân giải nhập nhằng là các nguồn tri thức sử dụng, đặc trưng biểu diễn thực thể, và mô hình phân giải nhập nhằng. Các nguồn tri thức được khai thác là các ontology đóng và Wikipedia. Các ontology đóng được xây dựng bởi các chuyên gia theo hướng tiếp cận từtrên xuống, với các khái niệm có quan hệthứbậc dựa trên một tập từvựng có kiểm soát và các ràng buộc chặt chẽ. Wikipedia, xem nhưmột ontology mở, được xây dựng bởi những người tình nguyện theo hướng tiếp cận từdưới lên, với các khái niệm được hình thành từmột tập từvựng tựdo và các thoảthuận mang tính cộng đồng. Các đặc trưng được nghiên cứu là tên của các thực thể đồng xuất hiện, định danh của các thực thể đã được xác định, và các từcùng với các cụm từxuất hiện xung quanh tên đang được xem xét và xung quanh các tên là đồng tham chiếu với tên đó trong văn bản. Ngoài ra luận án cũng khai thác vịtrí xuất hiện, chiều dài của các tên, và tên thường dùng của các thực thể. Luận án đềxuất ba mô hình phân giải nhập nhằng tương ứng với ba phương pháp nói trên là: (i) mô hình dựa trên heuristic; (ii) mô hình dựa trên thống kê; và (iii) mô hình lai - kết hợp heuristic và thống kê. Điểm mới chung của ba phương pháp là phân giải nhập nhằng theo một quá trình lặp cải thiện dần, trong đó bao gồm một sốbước lặp. Thực thể được xác định tại mỗi bước lặp sẽ được sửdụng đểphân giải nhập nhằng các thực thểcòn lại ởcác bước lặp tiếp theo. Các thí nghiệm được thực hiện để đánh giá và chứng tỏtính hiệu quảcủa các phương pháp được đềxuất. Luận án cũng nghiên cứu xửlý các trường hợp khi mà các tên trong văn bản chỉ được nhận ra bán phần và thực thể được đềcập đến trong văn bản nằm ngoài nguồn tri thức sửdụng, đồng thời đềxuất các độ đo hiệu quảphân giải nhập nhằng mới tương ứng.

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC