Luận văn Ứng dụng mô hình dịch máy thống kê cho bài toán bỏ dấu cho văn bản Tiếng Việt

Dấu thanh là phần “bất khả phân” trong âm tiết tiếng Việt. Khi loại bỏ dấu thanh, việc hiểu nghĩa từ, gồm một hay nhiều âm tiết kết hợp với nhau, trở nên khó khăn và dễ gây hiểu lầm. Để thêm dấu, trƣớc tiên, ta cần phải xác định ranh giới từ. Bài toán xác định ranh giới từ đối với văn bản tiếng Việt có dấu đã là một việc thử thách, thì khi không có dấu, việc nhận diện ranh giới từ trong tiếng Việt cũng nhƣ một số ngôn ngữ Châu Á khác, một từ chính tả có thể không tƣơng ứng với một “từ” trên văn bản. Đối với các thứ tiếng Châu Âu, ta có thể dễ dàng nhận ra một từ, do các từ đƣợc phân cách bởi khoảng trắng. Điều này lại không đúng với tiếng Việt. Trong tiếng Việt, các tiếng_hay còn gọi là âm tiết_đƣợc phân cách bởi khoảng trắng, chứ không phải từ. Sau khi đã nhận diện đƣợc ranh giới từ, ta cần phải xác định cho đúng từ có dấu nào có dạng thể hiện không dấu nhƣ vậy. Việc xác định này cũng gây nhiều khó khăn, khi từ một từ không dấu có thể có nhiều từ có dấu tƣơng ứng với nó.

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC

HỖ TRỢ TÌM VÀ TẢI TÀI LIỆU

  • Từ ngày 01/05/2022

    Luanvan365 sẽ có thêm dịch vụ hỗ trợ các bạn tìm kiếm các tài liệu, luận văn ở nhiều website khác nhau
    Bạn có thể liên hệ với Admin để được hỗ trợ nhé
  • THÔNG TIN LIÊN HỆ


    Phone: 0909.773687 (Zalo, Text) Facebook : Facebook chat hỗ trợ

  • XEM THÊM THÔNG TIN

    Xem thêm bài viết
LIÊN HỆ NGAY

TIN KHUYẾN MÃI

  • thư viện luận văn

    Thư viện tài liệu Phong Phú

    Hỗ trợ download nhiều Website

  • thư viện luận văn

    Nạp thẻ & Download nhanh

    Hỗ trợ nạp thẻ qua Momo & Zalo Pay

  • thư viện luận văn

    Nhận nhiều khuyến mãi

    Khi đăng ký & nạp thẻ ngay Hôm Nay

NẠP THẺ NGAY