Đề tài Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp

Như chúng ta đã biết, hầu hết các thông tin được trao đổi hiện nay nằm dưới dạng tài liệu văn bản. Các thông tin đó có thể là các bài báo, các tài liệu kinh doanh, các thông tin kinh tế, các bài nghiên cứu khoa học. Dù áp dụng Cơ sở dữ liệu vào trong hoạt động của tổ chức là rất phổ biến và đem lại nhiều lợi ích khi lưu trữ và xử lý, nhưng ta không thể quên được rằng còn rất nhiều dạng thông tin khác được lưu trữ dưới dạng văn bản. Thậm chí ngay cả trong các thông tin được lưu trong các cơ sở dữ liệu thì phần lớn trong số chúng cũng được tổ chức dưới dạng văn bản. Hiện nay, các tổ chức đã áp dụng công nghệ thông tin vào quản lý hệ thống công văn giấy tờ, ví dụ các hệ thống sử dụng Lotus Node. Tuy nhiên đó chỉ thực sự là cách quản lý luồng dữ liệu văn bản, cung cấp các công cụ kho chứa, còn dữ liệu vẫn thực sự nằm dưới dạng văn bản. Chúng ta chưa có các giải thuật phân loại, tìm kiếm tài liệu, các công cụ trích lọc thông tin nhằm mục đích thống kê, phát hiện tri thức, ra quyết định trực tiếp trên các nguồn dữ liệu kiểu này. Với thực tế đó, vấn đề đặt ra là làm thế nào chúng ta có thể khai thác được những thông tin hữu ích từ các nguồn tài liệu văn bản nói chung. Các nguồn dữ liệu này phải được xử lý như thế nào để người dùng có thể có những công cụ tự động hoá trợ giúp trong việc phát hiện tri thức và khai thác thông tin. Rõ ràng, chúng ta phải hiểu rõ bản chất của dữ liệu văn bản, hiểu rõ các đặc trưng của các dữ liệu loại này để có thể có được những phương pháp luận cần thiết. Việc khai thác thông tin từ các nguồn dữ liệu văn bản trong các tổ chức Việt Nam chắc chắn phải dựa vào những kết quả nghiên cứu về văn bản nói chung, về dữ liệu văn bản và các kỹ thuật xử lý đã được phát triển trên thế giới. Tuy nhiên, những văn bản tiếng Việt lại có những đặc trưng riêng của nó. Ta có thể nhận thấy được ngay sự khác biệt về mặt kí pháp, cú pháp và ngữ pháp tiếng Việt trong các văn bản so với các ngôn ngữ phổ biến trên thế giới như tiếng Anh, tiếng Pháp. Vậy thì những đặc trưng này ảnh hưởng thế nào đến các kỹ thuật khai phá dữ liệu văn bản, ta cần phải có những ký thuật mới nào để có thể tận dụng được những ưu thế của tiếng Việt cũng như giải quyết được những phức tạp trong tiếng Việt. Để trả lời được những câu hỏi này, đồ án sẽ đi từ những bước nghiên cứu về Khai phá dữ liệu văn bản, tìm hiểu những đặc trưng của tiếng Việt, từ đó đề ra phương hướng giúp giải quyết bài toán phân loại văn bản tiếng Việt phức tạp ở các nghiên cứu cao hơn. Các kết quả của nghiên cứu trong đề tài thực tập này sẽ là nhưng bước tiến đầu tiên cho luận văn tốt nghiệp của em với đề tài “Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp.”

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC

HỖ TRỢ TÌM VÀ TẢI TÀI LIỆU

  • Từ ngày 01/05/2022

    Luanvan365 sẽ có thêm dịch vụ hỗ trợ các bạn tìm kiếm các tài liệu, luận văn ở nhiều website khác nhau
    Bạn có thể liên hệ với Admin để được hỗ trợ nhé
  • THÔNG TIN LIÊN HỆ


    Phone: 0909.773687 (Zalo, Text) Facebook : Facebook chat hỗ trợ

  • XEM THÊM THÔNG TIN

    Xem thêm bài viết
LIÊN HỆ NGAY

TIN KHUYẾN MÃI

  • thư viện luận văn

    Thư viện tài liệu Phong Phú

    Hỗ trợ download nhiều Website

  • thư viện luận văn

    Nạp thẻ & Download nhanh

    Hỗ trợ nạp thẻ qua Momo & Zalo Pay

  • thư viện luận văn

    Nhận nhiều khuyến mãi

    Khi đăng ký & nạp thẻ ngay Hôm Nay

NẠP THẺ NGAY