Một số giải pháp cho bài toán tìm kiếm trong CSDL Hypertext

Trong những năm gần đây, trên cơ sở phát triển và ứng dụng công nghệ Internet, khối lượng dữ liệu trên máy tính đã tăng trưởng không ngừng theo cả hai phương diện tạo mới và thu thập. Sự mở rộng các dữ liệu khoa học về địa lý, địa chất, khí tượng do vệ tinh thu thập, sự giới thiệu quảng bá mã vạch đối với hầu hết các sản phẩm thương mại, việc tin học hoá sâu rộng các thương vụ và giao dịch, sự phát triển việc ứng dụng CNTT trong quản lý hành chính nhà nước . đã phát sinh ra một khối lượng dữ liệu khổng lồ. Mặt khác, trong bối cảnh nền tảng cho một xã hội thông tin, nhu cầu nhận được thông tin một cách nhanh chóng, chính xác cũng như nhu cầu thu nhận được "tri thức" từ khối lượng thông tin khổng lồ nói trên đã trở nên cấp thiết. Bối cảnh đó đã đòi hỏi những phương pháp tiếp cận mới mà trong đó điển hình nhất là các phương pháp thuộc lĩnh vực khai phá dữ liệu và khám phá tri thức trong các cơ sở dữ liệu [7,9]. Sự tăng trưởng hàng năm về số lượng công trình được công bố, về hội thảo khoa học quốc tế liên quan đến việc nghiên cứu, giải quyết từng bước nhiều bài toán điển hình thuộc lĩnh vực này đã thể hiện đầy đủ sự phát triển vượt bậc của lĩnh vực nói trên. Các bài toán biểu diễn dữ liệu, lưu trữ dữ liệu, tìm kiếm dữ liệu, phân lớp dữ liệu, phân cụm dữ liệu . [2-4,6,8-14] là những bài toán điển hình nhất. Trong xu thế tăng trưởng không ngừng nguồn dữ liệu, thông qua sự phát triển của công nghệ Web, dạng dữ liệu phi cấu trúc và nửa cấu trúc (điển hình là hệ thống các trang web trên Internet) càng tăng trưởng theo tốc độ nhảy vọt. Đây là dạng dữ liệu gần nhất với con người, mà qua chúng con người mong muốn lưu trữ thông tin, tri thức hoặc chuyển tải nó cho nhiều người khác. Trong những năm gần đây WWW đã trở thành một kênh thông tin quan trọng nhất cho việc phân tán các thông tin về cá nhân, khoa học và thương mại. Một lý do của việc WWW phát triển nhanh chóng là giá cả cho việc tạo và xuất bản các trang web rất rẻ. So sánh với các phương pháp khác như sản xuất tờ rơi hay quảng cáo trên báo và tạp chí thì trang web rẻ hơn rất nhiều và lại được cập nhật thường xuyên hơn đến hàng tỷ người sử dụng, vì vậy mà ngay cả các công ty rất nhỏ cũng có khả năng đưa các sản phẩm và dịch vụ của họ lên WWW. Hơn nữa có rất nhiều các công ty hoạt động bán hàng trực tuyến trên Internet, vì vậy mà nhu cầu đưa các thông tin lên WWW là hoàn toàn tự nhiên. Nhưng với việc tăng không ngừng các site thì việc tìm ra một trang hay thậm chí một site mà mỗi cá nhân đang cần lại thực sự là một vấn đề ngày càng khó khăn. Việc nghiên cứu các bài toán liên quan đến hệ thống các dữ liệu dạng này (biểu diễn văn bản, tìm kiếm và phân lớp văn bản) cùng với việc đề xuất những giải pháp đối với các bài toán đó luôn là những vấn đề khoa học và công nghệ thời sự [1-4,6,8-14]. Chẳng hạn, vấn đề phát hiện ra một website mới thực sự thú vị cho người sử dụng là một vấn đề chưa được quan tâm đúng mức. Các hệ tìm kiếm trên Internet hiện nay như Yahoo, Altavista, Google. là những hệ triển khai để giải quyết bài toán tìm kiếm và được sử dụng khá phổ biến hiện nay. Tuy nhiên vẫn còn có các vấn đề chưa thoả mãn được nhu cầu thực tế của người sử dụng. Đó là khi sử dụng dịch vụ tìm kiếm trên các site này thì chỉ có thể tìm được các trang thông tin theo những điều kiện tìm kiếm hết sức giản đơn. Thêm vào đó, có rất nhiều trường hợp mục từ là không trọn vẹn và đôi khi quá hạn vì không được cập nhật thường xuyên. Hơn nữa các dịch vụ tìm kiếm này không cung cấp tất cả các lĩnh vực chuyên sâu hơn, nhất là các lĩnh vực hẹp cho một số người sử dụng đặc biệt. Các hệ này cũng chưa cho phép khai thác những thông tin truy nhập của người sử dụng vì vậy không có cơ chế phản hồi thông tin để sử dụng kết quả tìm kiếm trước đây vào lần tìm kiếm tiếp theo. Cơ chế này là cần thiết vì làm được như vậy hiệu quả và độ chính xác tìm kiếm chắc chắn được nâng cao. Một vấn đề nữa là các hệ tìm kiếm này thường xử lý các yêu cầu tìm kiếm dưới dạng các từ khoá tìm kiếm. Khi có nhiều hơn một từ khoá thì hệ tìm kiếm xử lý các từ khoá này theo cùng một cách thức mà không có cơ chế cho phép người sử dụng xác định độ quan trọng khác nhau cho các từ khoá tìm kiếm. Cũng như vậy, các hệ tìm kiếm điển hình hiện nay chưa quan tâm đến vấn đề đồng nghĩa và đa nghĩa của từ khóa, vì vậy trong quá trình tìm kiếm có thể đã bỏ qua rất nhiều các kết quả tìm kiếm. Nhiều nghiên cứu liên quan đã đề xuất một số phương pháp biểu diễn văn bản cho phép thi hành được những khía cạnh đã đề cập trên đây [2-4,8-14].

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC

HỖ TRỢ TÌM VÀ TẢI TÀI LIỆU

  • Từ ngày 01/05/2022

    Luanvan365 sẽ có thêm dịch vụ hỗ trợ các bạn tìm kiếm các tài liệu, luận văn ở nhiều website khác nhau
    Bạn có thể liên hệ với Admin để được hỗ trợ nhé
  • THÔNG TIN LIÊN HỆ


    Phone: 0909.773687 (Zalo, Text) Facebook : Facebook chat hỗ trợ

  • XEM THÊM THÔNG TIN

    Xem thêm bài viết
LIÊN HỆ NGAY

TIN KHUYẾN MÃI

  • Thư viện tài liệu Phong Phú

    Hỗ trợ download nhiều Website

  • Nạp thẻ & Download nhanh

    Hỗ trợ nạp thẻ qua Momo & Zalo Pay

  • Nhận nhiều khuyến mãi

    Khi đăng ký & nạp thẻ ngay Hôm Nay

NẠP THẺ NGAY