Luận văn Phương pháp lọc thư rác dựa trên CBR

Một trong những dịch vụmà Internet mang lại đó là dịch vụthư điện tử, đó là phương tiện giao tiếp rất đơn giản, tiện lợi, rẻvà hiệu quảgiữa mọi người trong cộng đồng sửdụng dịch vụInternet. Tuy nhiên chính vì những lợi ích của dịch vụthư điện tử mang lại mà sốlượng thưtrao đổi trên Internet ngày càng tăng, và một sốkhông nhỏ trong số đó là thưrác (spam). Thưrác thường được gửi với sốlượng rất lớn, không được người dùng mong đợi, thường với mục đích quảng cáo, đính kèm virus, gây phiền toái khó chịu cho người dùng, làm giảm tốc độtruyền internet và tốc độxửlý của email server, gây thiệt hại rất lớn vềkinh tế. Đã có rất nhều phương pháp đưa ra đểgiảm sốlượng thưrác. Nhưviệc đưa ra các luật lệ đểhạn chếviệc gửi thưrác, đưa ra các phương pháp kĩthuật lọc thưrác như: lọc dựa trên địa chỉIP (whitelist, balacklist), lọc dựa trên danh tính người gửi, lọc dựa trên chuỗi hỏi đáp, phương pháp lọc dựa trên mạng xã hội, và phương pháp lọc nội dung Mỗi phương pháp đều có ưu nhược điểm riêng, không có phương pháp nào là hoàn hảo vì vậy đểcó bộlọc thưrác tốt cần phải kết hợp các phương pháp với nhau. Trong các phương pháp lọc thưrác phương pháp lọc dựa trên nội dung hiện đang được quan tâm nhiều, và được đánh giá là có triển vọng đưa ra kết quảcao. Phương pháp lọc nội dung dựa trên việc phân tích nội dung của email đểphân biệt spam email và nonspam email. Tuy đã có nhiều biện pháp ngăn chặn thưrác nhưng sốlượng thưrác vẫn càng ngày càng nhiều, tác hại gây ra càng lớn, cấu trúc nội dung của thưcàng ngày càng thay đổi tinh vi hơn đểvượt qua các bộlọc vì vậy cần có một hệthống lọc có khảnăng giải quyết được vấn đềthưrác ngày càng tăng, nội dung, cấu trúc của thưngày càng phức tạp tinh vi hơn (concept drift).

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC