Trong những năm gần đây, trên cơ sở phát triển và ứng dụng công nghệ Internet, khối lượng dữ liệu trên máy tính đã tăng trưởng không ngừng theo cả hai phương diện tạo mới và thu thập. Sự mở rộng các dữ liệu khoa học về địa lý, địa chất, khí tượng do vệ tinh thu thập, sự giới thiệu quảng bá mã vạch đối với hầu hết các sản phẩm thương mại, việc tin học hoá sâu rộng các thương vụ và giao dịch, sự phát triển việc ứng dụng CNTT trong quản lý hành chính nhà nước . đã phát sinh ra một khối lượng dữ liệu khổng lồ. Mặt khác, trong bối cảnh nền tảng cho một xã hội thông tin, nhu cầu nhận được thông tin một cách nhanh chóng, chính xác cũng như nhu cầu thu nhận được "tri thức" từ khối lượng thông tin khổng lồ nói trên đã trở nên cấp thiết. Bối cảnh đó đã đòi hỏi những phương pháp tiếp cận mới mà trong đó điển hình nhất là các phương pháp thuộc lĩnh vực khai phá dữ liệu và khám phá tri thức trong các cơ sở dữ liệu [7,9]. Sự tăng trưởng hàng năm về số lượng công trình được công bố, về hội thảo khoa học quốc tế liên quan đến việc nghiên cứu, giải quyết từng bước nhiều bài toán điển hình thuộc lĩnh vực này đã thể hiện đầy đủ sự phát triển vượt bậc của lĩnh vực nói trên. Các bài toán biểu diễn dữ liệu, lưu trữ dữ liệu, tìm kiếm dữ liệu, phân lớp dữ liệu, phân cụm dữ liệu . [2-4,6,8-14] là những bài toán điển hình nhất. Trong xu thế tăng trưởng không ngừng nguồn dữ liệu, thông qua sự phát triển của công nghệ Web, dạng dữ liệu phi cấu trúc và nửa cấu trúc (điển hình là hệ thống các trang web trên Internet) càng tăng trưởng theo tốc độ nhảy vọt. Đây là dạng dữ liệu gần nhất với con người, mà qua chúng con người mong muốn lưu trữ thông tin, tri thức hoặc chuyển tải nó cho nhiều người khác. Trong những năm gần đây WWW đã trở thành một kênh thông tin quan trọng nhất cho việc phân tán các thông tin về cá nhân, khoa học và thương mại. Một lý do của việc WWW phát triển nhanh chóng là giá cả cho việc tạo và xuất bản các trang web rất rẻ. So sánh với các phương pháp khác như sản xuất tờ rơi hay quảng cáo trên báo và tạp chí thì trang web rẻ hơn rất nhiều và lại được cập nhật thường xuyên hơn đến hàng tỷ người sử dụng, vì vậy mà ngay cả các công ty rất nhỏ cũng có khả năng đưa các sản phẩm và dịch vụ của họ lên WWW. Hơn nữa có rất nhiều các công ty hoạt động bán hàng trực tuyến trên Internet, vì vậy mà nhu cầu đưa các thông tin lên WWW là hoàn toàn tự nhiên. Nhưng với việc tăng không ngừng các site thì việc tìm ra một trang hay thậm chí một site mà mỗi cá nhân đang cần lại thực sự là một vấn đề ngày càng khó khăn. Việc nghiên cứu các bài toán liên quan đến hệ thống các dữ liệu dạng này (biểu diễn văn bản, tìm kiếm và phân lớp văn bản) cùng với việc đề xuất những giải pháp đối với các bài toán đó luôn là những vấn đề khoa học và công nghệ thời sự [1-4,6,8-14]. Chẳng hạn, vấn đề phát hiện ra một website mới thực sự thú vị cho người sử dụng là một vấn đề chưa được quan tâm đúng mức. Các hệ tìm kiếm trên Internet hiện nay như Yahoo, Altavista, Google. là những hệ triển khai để giải quyết bài toán tìm kiếm và được sử dụng khá phổ biến hiện nay. Tuy nhiên vẫn còn có các vấn đề chưa thoả mãn được nhu cầu thực tế của người sử dụng. Đó là khi sử dụng dịch vụ tìm kiếm trên các site này thì chỉ có thể tìm được các trang thông tin theo những điều kiện tìm kiếm hết sức giản đơn. Thêm vào đó, có rất nhiều trường hợp mục từ là không trọn vẹn và đôi khi quá hạn vì không được cập nhật thường xuyên. Hơn nữa các dịch vụ tìm kiếm này không cung cấp tất cả các lĩnh vực chuyên sâu hơn, nhất là các lĩnh vực hẹp cho một số người sử dụng đặc biệt. Các hệ này cũng chưa cho phép khai thác những thông tin truy nhập của người sử dụng vì vậy không có cơ chế phản hồi thông tin để sử dụng kết quả tìm kiếm trước đây vào lần tìm kiếm tiếp theo. Cơ chế này là cần thiết vì làm được như vậy hiệu quả và độ chính xác tìm kiếm chắc chắn được nâng cao. Một vấn đề nữa là các hệ tìm kiếm này thường xử lý các yêu cầu tìm kiếm dưới dạng các từ khoá tìm kiếm. Khi có nhiều hơn một từ khoá thì hệ tìm kiếm xử lý các từ khoá này theo cùng một cách thức mà không có cơ chế cho phép người sử dụng xác định độ quan trọng khác nhau cho các từ khoá tìm kiếm. Cũng như vậy, các hệ tìm kiếm điển hình hiện nay chưa quan tâm đến vấn đề đồng nghĩa và đa nghĩa của từ khóa, vì vậy trong quá trình tìm kiếm có thể đã bỏ qua rất nhiều các kết quả tìm kiếm. Nhiều nghiên cứu liên quan đã đề xuất một số phương pháp biểu diễn văn bản cho phép thi hành được những khía cạnh đã đề cập trên đây [2-4,8-14].
Công ty Điện lực Thành phố Hồ Chí Minh, là một công ty lớn trực thuộc Tổng Công ty Điện lực Việt Nam hiện có khoảng 700.000 khách hàng (điện kế) phục vụ phân p ...
Internet bắt đầu xuất hiện từ những năm thập niên 60. Tuy nhiên tại thời điểm đó nó chỉ đƣợc sử dụng nội bộ và phục vụ chủ yếu cho quân sự. Ngày 19/11/1997 là ...
Trong môi trường hiện nay, một doanh nghiệp muốn hoạt động tốt đều cần phải có một qui trình các luồng xử lý công việc rõ ràng nhằm đảm bảo được sự vận hành tố ...
1. Tính cấp thiết của đề tài - Sự phát triển nhanh chong cua cac ưng dụng công nghệ thông tin và Internet và ở nhiều lĩ nh vự c đờ i số ng xã hộ i , ...
Trong những năm gần đây, người ta chứng kiến những bước thay đổi mạnh mẽ chưa từng thấy của các phương tiện thông tin đại chúng, một trong những dịch vụ hàng đầ ...
Hỗ trợ download nhiều Website
Hỗ trợ nạp thẻ qua Momo & Zalo Pay
Khi đăng ký & nạp thẻ ngay Hôm Nay