Cơ sở dữ liệu song ngữ, bao gồm các cặp văn bản song ngữ hay các cặp câu song ngữ, đóng một vai trò rất quan trọng trong nhiều ứng dụng ngôn ngữ tự nhiên, như dịch máy thống kê, xây dựng từ điển song ngữ, tìm kiếm đa ngôn ngữ. Việc xây dựng cơ sở dữ liệu này bằng tay là một việc tốn nhiều chi phí và thời gian. May mắn thay là có rất nhiều dữ liệu song ngữ ở các dạng khác nhau trên Internet. Việc khai phá ra các thành phần tương đương (song ngữ) với chất lượng cao sẽ tạo nên một cơ sở dữ liệu song ngữ rất lớn phục vụ cho nhiều ứng dụng khác nhau. Luận văn tập trung vào nghiên cứu và phát triển các kỹ thuật trong khai phá cơ sở dữ liệu song ngữ Anh-Việt từ World Wide Web (WWW), cụ thể là trên các trang web song ngữ trong định dạng html. Nhiệm vụ của khai phá dữ liệu song ngữ là tự động tìm ra hai thành phần có ngữ nghĩa tương ứng trong tập những văn bản thuộc hai ngôn ngữ khác nhau. Hai thành phần được dóng hàng hoặc được ghép cặp này càng nhỏ thì thông tin hay tri thức thu được từ đó càng lớn. Thành phần ở đây có thể là văn bản, đoạn, câu và từ,. Loại thành phần mà chúng tôi xét đến trong luận văn này là văn bản. Để ghép cặp những văn bản html trong một tập văn bản trong hai ngôn ngữ mà luận văn khai thác là tiếng Anh và tiếng Việt, chúng tôi tìm hiểu các công nghệ trong các nghiên cứu hiện tại, xác định ưu điểm nhược điểm và tính khả thi để ứng dụng trong thực tiễn luận văn này. Có hai tiếp cận đối với bài toán này là dựa trên nội dung (thông thường là dựa trên đối sánh các cặp từ là bản dịch của nhau – từ điển song ngữ), hoặc là dựa trên sự tương đồng về cấu trúc trang html. Trong phạm vi luận văn này, chúng tôi theo tiếp cận dựa trên cấu trúc. Cụ thể chúng tôi khảo sát các đặc trưng cấu trúc khác nhau như độ tương đồng cấu trúc thẻ của văn bản, độ tương đồng cấu trúc url của văn bản, và nhiều yếu tố phụ để giảm thời gian chạy của hệ thống. Đồng thời chúng tôi cũng theo tiếp cận học máy (theo [5]), và áp dụng phương pháp học cây quyết định cho bài toán này. Đặc biệt chúng tôi đã mô hình hóa bài toán cho bộ phân loại Naïve Bayes và áp dụng lựa chọn thuộc tính và cho kết quả dóng hàng văn bản tốt hơn khi sử dụng cây quyết định như trong [5]. Để thực nghiệm, chúng tôi xây dựng một hệ thống làm các nhiệm vụ: chuẩn bị cơ sở dữ liệu thô từ Internet; một số bước tiền xử lý ngôn ngữ; và các mô đun dóng hàng văn bản. Kết quả đạt được là khá khả quan với độ chính xác dóng hàng văn bản khoảng 96% đối với mô hình phân loại Bayes.
Công ty Điện lực Thành phố Hồ Chí Minh, là một công ty lớn trực thuộc Tổng Công ty Điện lực Việt Nam hiện có khoảng ...
Internet bắt đầu xuất hiện từ những năm thập niên 60. Tuy nhiên tại thời điểm đó nó chỉ đƣợc sử dụng nội bộ và phục ...
Trong môi trường hiện nay, một doanh nghiệp muốn hoạt động tốt đều cần phải có một qui trình các luồng xử lý công vi ...
1. Tính cấp thiết của đề tài - Sự phát triển nhanh chong cua cac ưng dụng công nghệ thông tin và Internet và ở n ...
Trong những năm gần đây, người ta chứng kiến những bước thay đổi mạnh mẽ chưa từng thấy của các phương tiện thông tin ...
Hỗ trợ download nhiều Website
Hỗ trợ nạp thẻ qua Momo & Zalo Pay
Khi đăng ký & nạp thẻ ngay Hôm Nay