Luận văn Khai phá dữ liệu song ngữ từ web

Cơ sở dữ liệu song ngữ, bao gồm các cặp văn bản song ngữ hay các cặp câu song ngữ, đóng một vai trò rất quan trọng trong nhiều ứng dụng ngôn ngữ tự nhiên, như dịch máy thống kê, xây dựng từ điển song ngữ, tìm kiếm đa ngôn ngữ. Việc xây dựng cơ sở dữ liệu này bằng tay là một việc tốn nhiều chi phí và thời gian. May mắn thay là có rất nhiều dữ liệu song ngữ ở các dạng khác nhau trên Internet. Việc khai phá ra các thành phần tương đương (song ngữ) với chất lượng cao sẽ tạo nên một cơ sở dữ liệu song ngữ rất lớn phục vụ cho nhiều ứng dụng khác nhau. Luận văn tập trung vào nghiên cứu và phát triển các kỹ thuật trong khai phá cơ sở dữ liệu song ngữ Anh-Việt từ World Wide Web (WWW), cụ thể là trên các trang web song ngữ trong định dạng html. Nhiệm vụ của khai phá dữ liệu song ngữ là tự động tìm ra hai thành phần có ngữ nghĩa tương ứng trong tập những văn bản thuộc hai ngôn ngữ khác nhau. Hai thành phần được dóng hàng hoặc được ghép cặp này càng nhỏ thì thông tin hay tri thức thu được từ đó càng lớn. Thành phần ở đây có thể là văn bản, đoạn, câu và từ,. Loại thành phần mà chúng tôi xét đến trong luận văn này là văn bản. Để ghép cặp những văn bản html trong một tập văn bản trong hai ngôn ngữ mà luận văn khai thác là tiếng Anh và tiếng Việt, chúng tôi tìm hiểu các công nghệ trong các nghiên cứu hiện tại, xác định ưu điểm nhược điểm và tính khả thi để ứng dụng trong thực tiễn luận văn này. Có hai tiếp cận đối với bài toán này là dựa trên nội dung (thông thường là dựa trên đối sánh các cặp từ là bản dịch của nhau – từ điển song ngữ), hoặc là dựa trên sự tương đồng về cấu trúc trang html. Trong phạm vi luận văn này, chúng tôi theo tiếp cận dựa trên cấu trúc. Cụ thể chúng tôi khảo sát các đặc trưng cấu trúc khác nhau như độ tương đồng cấu trúc thẻ của văn bản, độ tương đồng cấu trúc url của văn bản, và nhiều yếu tố phụ để giảm thời gian chạy của hệ thống. Đồng thời chúng tôi cũng theo tiếp cận học máy (theo [5]), và áp dụng phương pháp học cây quyết định cho bài toán này. Đặc biệt chúng tôi đã mô hình hóa bài toán cho bộ phân loại Naïve Bayes và áp dụng lựa chọn thuộc tính và cho kết quả dóng hàng văn bản tốt hơn khi sử dụng cây quyết định như trong [5]. Để thực nghiệm, chúng tôi xây dựng một hệ thống làm các nhiệm vụ: chuẩn bị cơ sở dữ liệu thô từ Internet; một số bước tiền xử lý ngôn ngữ; và các mô đun dóng hàng văn bản. Kết quả đạt được là khá khả quan với độ chính xác dóng hàng văn bản khoảng 96% đối với mô hình phân loại Bayes.

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC

HỖ TRỢ TÌM VÀ TẢI TÀI LIỆU

  • Từ ngày 01/05/2022

    Luanvan365 sẽ có thêm dịch vụ hỗ trợ các bạn tìm kiếm các tài liệu, luận văn ở nhiều website khác nhau
    Bạn có thể liên hệ với Admin để được hỗ trợ nhé
  • THÔNG TIN LIÊN HỆ


    Phone: 0909.773687 (Zalo, Text) Facebook : Facebook chat hỗ trợ

  • XEM THÊM THÔNG TIN

    Xem thêm bài viết
LIÊN HỆ NGAY

TIN KHUYẾN MÃI

  • thư viện luận văn

    Thư viện tài liệu Phong Phú

    Hỗ trợ download nhiều Website

  • thư viện luận văn

    Nạp thẻ & Download nhanh

    Hỗ trợ nạp thẻ qua Momo & Zalo Pay

  • thư viện luận văn

    Nhận nhiều khuyến mãi

    Khi đăng ký & nạp thẻ ngay Hôm Nay

NẠP THẺ NGAY