Luận văn Nghiên cứu giải mã trong kỹ thuật dịch máy thống kê

Hiện nay có rất nhiều ngôn ngữ nói, viết khác nhau trên thế giới và sự khác biệt về ngôn ngữ là một trở ngại lớn trong hầu hết các mặt của đời sống. Do đó, với sự phát triển vượt bậc của khoa học và công nghệ mà chúng ta có thể tìm thấy nhiều hệ thống dịch máy (dịch tự động) miễn phí như Google, Vdict Những hệ thống này cho phép dịch một trang web, văn bản theo một cặp ngôn ngữ chọn trước. Dịch máy thống kê là hướng tiếp cận hoàn toàn dựa trên ngữ liệu nên có tính độc lập với ngôn ngữ. Brown và các cộng sự giả định rằng mỗi câu ở một ngôn ngữ nguồn sẽ có những câu dịch khác nhau ở ngôn ngữ đích và họ đã đưa ra xác suất Pr(t|s) là xác suất điều kiện để dịch được câu t ở ngôn ngữ đích khi đã có câu s ở ngôn ngữ nguồn. Ý tưởng cơ bản của cách tiếp cận này là từ một câu s ở ngôn ngữ nguồn, hệ thống đi tìm một câu t ở ngôn ngữ đích sao cho xác suất Pr(t|s) đạt giá trị lớn nhất. Do cách tiếp cận như thế, nên chất lượng bản dịch sẽ phụ thuộc vào việc lựa chọn câu đích. Việc lựa chọn này được gọi là quá trình tìm kiếm (searching) hay giải mã (decoding) trong kỹ thuật dịch máy thống kê.

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC