Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người trên mọi lĩnh vực. Mỗi phút trôi qua hàng triệu triệu trang web được đẩy lên nhằm làm giàu nguồn tài nguyên vô tận này. Vấn đề đặt ra là làm sao ta có thể nắm bắt, cập nhật, chia sẻ thông tin một cách tổng quát, nhanh chóng và dễ dàng trong một khối lượng thông tin khổng lồ như vậy. Do đó đòi hỏi phải khai phá nguồn dữ liệu đó để lấy được những thông tin có ích một cách tự động. Trên thế giới hiện nay, rất nhiều website cung cấp tập tin RSS để chia sẻ và cập nhật thông tin một cách dễ dàng và nhanh chóng. Một số website hỗ trợ đọc tin RSS như: Google Reader, Yahoo, và một số phần mềm như: RSSReader, FeedDemon. Còn hiện tại ở Việt Nam, có một số phần mềm hỗ trợ đọc tin như: Vietspider, iCA và website hỗ trợ đọc tin RSS trực tuyến thì chưa nhiều. Chính vì vậy đề tài “Tìm hiểu bài toán khai phá dữ liệu văn bản” được đưa ra nhằm ứng dụng khai phá dữ liệu vào việc xây dựng hệ thống thu thập tin tức từ nhiều nguồn website khác giúp cho người dùng có thể nắm bắt thông tin một cách dễ dàng và tiết kiệm thời gian. Nội dung đề tài gồm các phần chính sau: Chương 1 – Khái quát về khai phá dữ liệu Tìm hiểu khái niệm, quá trình và các bài toán trong khai phá dữ liệu. Chương 2 - Khai phá dữ liệu trong lấy tin tự động Nội dung của chương 2 là tìm hiểu về lấy tin tự động và ứng dụng khai phá dữ liệu trong lấy tin tự động (tìm hiểu ngôn ngữ XML và công nghệ RSS ) Chương 3 – Phân tích thiết kế chương trình Nội dung của chương 3 là quá trình khảo sát, phân tích và thiết kế chi tiết cho chương trình hỗ trợ đọc tin RSS. Chương 4 – Xây dựng chương trình Nêu ra các lớp, phương thức cơ bản để xây dựng website hỗ trợ đọc tin RSS. Và cuối cùng là đưa một số màn hình giao diện đạt được. Kết luận và phương hướng phát triển Phần cuối cùng này sẽ là những kết luận về kết quả đạt được và các ưu nhược điểm của đề tài. Bên cạnh đó, phần cùng này cũng nêu ra các phương hướng để có thể tiếp tục phát triển đề tài trong tương lai nhằm ngày một hoàn thiện và đáp ứng được nhu cầu ngày một cao của người sử dụng.
Công ty Điện lực Thành phố Hồ Chí Minh, là một công ty lớn trực thuộc Tổng Công ty Điện lực Việt Nam hiện có khoảng ...
Internet bắt đầu xuất hiện từ những năm thập niên 60. Tuy nhiên tại thời điểm đó nó chỉ đƣợc sử dụng nội bộ và phục ...
Trong môi trường hiện nay, một doanh nghiệp muốn hoạt động tốt đều cần phải có một qui trình các luồng xử lý công vi ...
1. Tính cấp thiết của đề tài - Sự phát triển nhanh chong cua cac ưng dụng công nghệ thông tin và Internet và ở n ...
Trong những năm gần đây, người ta chứng kiến những bước thay đổi mạnh mẽ chưa từng thấy của các phương tiện thông tin ...
Hỗ trợ download nhiều Website
Hỗ trợ nạp thẻ qua Momo & Zalo Pay
Khi đăng ký & nạp thẻ ngay Hôm Nay