Luận án Tiếp cận máy học và hệ chuyên gia để nhận dạng, phát hiện virus máy tính

1.1. Giới thiệu đềtài 1.1.1. Lý do chọn đềtài Ngày nay công nghệthông tin trởthành một lĩnh vực mũi nhọn trong công cuộc phát triển kinh tếxã hội. Cùng với công nghệsinh học và năng lượng mới, công nghệthông tin (CNTT) vừa là công cụ, vừa là động lực thúc đẩy quá trình công nghiệp hóa, hiện đại hóa đất nước. Trong giai đoạn hội nhập quốc tế, CNTT giữvai trò đặc biệt quan trọng trong việc xửlý tính toán dữliệu, kết nối thông tin liên lạc của các đơn vịtổchức trong và ngoài nước. Bảo vệan toàn dữliệu cho các hệthống tính toán, giữvững an ninh mạng, đảm bảo liên lạc thông suốt, duy trì chất lượng phục vụluôn là vấn đềquan tâm hàng đầu của các nhà quản trịhệthống. Sựphát triển của Internet tạo điều kiện cho các loại hình xâm nhập luận lý trái phép vào các hệthống CNTT cảchiều rộng (lây lan trên quy mô toàn thếgiới) và chiều sâu (can thiệp vào hạt nhân hệthống đích). Mỗi ngày các hệthống mạng phải đối phó với hàng loạt đợt tấn công bằng mã độc (malicious, harmful code) của tin tặc, khiến nhiều hệthống bị đình trệ, tắc nghẽn và tê liệt; gây thiệt hại không nhỏ. Dựán nghiên cứu vềsự phát triển toàn cầu của Viện Hàn lâm Công nghệQuốc gia Mỹ(National Academy of Engineering, USA - 2008) nhận định vấn đềan ninh thông tin và virus máy tính là một trong 14 thách thức công nghệlớn nhất của thế kỷ21 mà nếu giải quyết được, cuộc sống con người sẽ được cải thiện đáng kể[92]. Virus máy tính (từ đây gọi tắt là virus, phân biệt với từ“virút” trong y học) thực sự trởthành mối đe dọa thường xuyên và cấp bách của các hệthống CNTT hiện nay. Trong bối cảnh đó, đềtài “Tiếp cận Máy học và Hệchuyên gia đểnhận dạng, phát hiện virus máy tính” được tiến hành nhằm góp phần giải quyết vấn đề bảo vệan toàn dữliệu cho các hệthống CNTT ởViệt Nam. 1.1.2. Mục tiêu của đềtài Đểphòng chống virus máy tính, các hệthống CNTT sửdụng các phần mềm chống virus (anti-virus, gọi tắt là AV). Qua khảo sát, phần lớn các AV chỉphát huy tác dụng trên các mẫu virus xác định, khảnăng dự đoán virus mới còn hạn chếnên thường bị động khi có dịch virus bùng phát. Trên cơsởxác định loại hình nghiên cứu của đềtài là nghiên cứu ứng dụng, mục tiêu của đềtài là tìm giải pháp cho bài toán nhận dạng virus máy tính và lựa chọn mô hình thích hợp đểxây dựng HệPhòng chống virus máy tính hướng tiếp cận Máy học và Hệchuyên gia MAVES - Machine Learning Approach to Anti-Virus Expert System(gọi tắt là MAV) với các chỉtiêu cơbản: - Nhận dạng nhanh, phát hiện chính xác các trường hợp lây nhiễm, tiềm ẩn của các virus đã biết trên hệthống đích. - Có khảnăng dựbáo biến thểvirus; ngăn chận kịp thời, chủ động phòng tránh các tình huống lây nhiễm khi hệthống chưa cập nhật mẫu virus mới. 1.1.3. Các giai đoạn thực hiện đềtài Quá trình nghiên cứu đềtài được tiến hành qua các bước nhưsau: • Giai đoạn 1 - Thu thập dữliệu: Khảo sát tình hình thực tiễn, thu thập dữliệu (mẫu virus, các phần mềm diệt virus trong nước và nước ngoài, các bài viết, tài liệu liên quan ). Nghiên cứu tài liệu, tìm hiểu các phương pháp, tiếp cận đã biết, tham khảo các anti-virus đang sửdụng phổbiến. Phác họa bức tranh tổng thể, tìm hiểu các công nghệnhận dạng virus máy tính qua các thời kỳ. • Giai đoạn 2 - Phân loại dữliệu: Sắp xếp, phân loại, tìm hiểu đặc điểm dữ liệu, cơchếlây nhiễm của từng loại virus trên vật chủtương ứng. Sàng lọc, loại bỏdữliệu dưthừa (các mẫu virus “chết” hoặc không phù hợp với môi trường, điều kiện nghiên cứu ). Bổsung, làm giàu dữliệu từnhiều nguồn khác nhau (dữliệu mẫu của các lớp vật chủ, tập chỉthịthi hành ). • Giai đoạn 3 - Xửlý dữliệu: Dựa vào các lớp dữliệu đã phân loại, lựa chọn, sắp xếp dữliệu, xây dựng các mô hình, công cụxửlý thích hợp trên cơsởlý thuyết máy học. Phân tích, nhận xét, đánh giá hiệu quảcủa từng mô hình. • Giai đoạn 4 - Tổng kết: Khái quát hóa và rút ra kết luận chung cho đềtài. Viết báo cáo, công bốkết quảnghiên cứu đềtài. 1.2. Đối tượng, phạm vi nghiên cứu của đềtài 1.2.1. Virus máy tính và các hệthống đích Có ba vấn đềcân nhắc khi nghiên cứu virus máy tính là môi trường (hệ điều hành, kiến trúc máy), phương tiện (vật chứa tin, cơchếlan tỏa) và cơhội (cộng đồng sửdụng, tần suất kích hoạt, kỹthuật lây lan ). Mặc dù có nhiều loại virus máy tính lây nhiễm trên nhiều hệthống và môi trường khác nhau, nhưng do tính phổbiến của Windows nên virus máy tính trên hệ điều hành này cũng nhiều hơn. Để đáp ứng nhu cầu thực tếbức thiết, đềtài tập trung nghiên cứu các loại virus máy tính hoạt động trên các hệ điều hành (HĐH) Windows 9x/Me và Windows NT/2000/XP dành cho máy tính IBM-PC (máy vi tính cá nhân đểbàn hoặc xách tay, sửdụng kiến trúc vi xửlý x86/Pentium hoặc tương thích). Mặc dù vậy, đềtài cũng được định hướng nghiên cứu đểcó thểmởrộng kết quảnghiên cứu cho các hệanti-virus sửdụng các HĐH khác Windows. 1.2.2. Các hệhọc và khám phá tri thức Con người đã tốn rất nhiều công sức đểgiải quyết bài toán nhận dạng virus máy tính. Tuy nhiên, các anti-virus vẫn chưa làm chủ được tình hình. Virus máy tính vẫn liên tục quấy nhiễu, thâm nhập mạng, đánh cắp thông tin, làm sai lệch dữ liệu nhiều hệthống CNTT trên thếgiới. Virus máy tính là sản phẩm của con người. Cuộc chiến giữa AV và virus máy tính là cuộc đấu trí giữa chuyên gia hệthống và tin tặc, là trò chơi trí tuệ của con người. Xuất phát từnhận định này, đềtài chọn cách phối hợp tiếp cận dựa trên tri thức (knowledge based) và tiếp cận học (machine learning) đểtìm lời giải cho bài toán nhận dạng virus máy tính. Đểkiểm tra và đánh giá kết quả, một phần mềm thực nghiệm sẽ được thiết kếtrên mô hình các hệkhám phá tri thức nhằm phát hiện các quy luật hình thành virus mới từcơsởdữliệu (CSDL) virus đã biết. 1.2.3. Các hệchuyên gia Các hệchuyên gia là một loại hệcơsởtri thức (CSTT) được thiết kế đểphần mềm máy tính hoạt động nhưmột chuyên gia (human expert) thực thụtrong một lĩnh vực cụthể. Dựa trên tri thức, hệchuyên gia cho phép mô hình hóa tri thức của chuyên gia (kiến thức, kinh nghiệm, lời khuyên ) đểgiải quyết các vấn đềphức tạp trong từng lĩnh vực. Trong y học, bác sĩcần khám bệnh đểbiết nguyên nhân (người bệnh nhiễm loại virút gây bệnh nào, đặc điểm ra sao), chẩn đoán bệnh (dựa vào triệu chứng, xác định bệnh), xét các điều kiện ràng buộc (sức khoẻbệnh nhân, trang thiết bịy tế, chi phí cho phép ) và lựa chọn phương pháp chữa trị(phác đồ điều trị, công nghệxử lý bệnh ). Trong tin học, virus máy tính là tác nhân gây bệnh và các anti-virus là “thuốc” chữa bệnh cho máy tính. Do “bệnh nhân” (máy tính nhiễm virus) không thể đến “bệnh viện” (phòng nghiên cứu phần mềm) để được các “bác sĩ” (chuyên gia anti-virus) khám chữa trịbệnh, giải pháp của đềtài là xây dựng một hệcơsởtri thức vềvirus máy tính nhằm tưvấn chữa bệnh cho máy dựa trên kinh nghiệm của chuyên gia anti-virus đã tích hợp trong hệthống. 1.3. Ý nghĩa khoa học và thực tiễn của đềtài Giống nhưtrong công tác vệsinh dịch tễ, trong lĩnh vực phòng chống virus máy tính, phòng bệnh vẫn là chủyếu với các hoạt động cơbản: nhận dạng bệnh cũ và dựbáo bệnh mới. Các hoạt động này đều dựa vào các kỹthuật chủ đạo của lớp bài toán nhận dạng. Giải quyết vấn đềan toàn dữliệu, đềtài nhận dạng virus máy tính hướng tiếp cận máy học còn làm phong phú thêm tập lời giải cho các bài toán nhận dạng cùng loại và có thểmởrộng đểnhận dạng các đối tượng biến đổi. Ởnước ta mặc dù đã có nhiều đềtài nghiên cứu vềvirus máy tính, nhưng chưa có công trình nào đềcập và giải quyết bài toán nhận dạng biến thểvirus máy tính một cách khoa học và toàn diện. Không chỉdừng lại ởviệc nghiên cứu lý thuyết, đềtài cũng đặt ra mục tiêu thực tiễn là xây dựng một hệphần mềm thông minh chống virus máy tính, đáp ứng kịp thời nhu cầu bức xúc của xã hội, từng bước giải quyết nạn virus máy tính, góp phần làm trong sạch môi trường CNTT hiện nay. 1.4. Cấu trúc của luận án Luận án gồm năm chương. Chương 1 dẫn nhập và giới thiệu chung về đềtài. Chương 2 trình bày các cơchếchẩn đoán virus máy tính và một sốvấn đềliên quan. Trước tiên, Chương 2 sẽgiới thiệu các chiến lược nhận dạng virus; khảo sát các hoạt động nghiên cứu ứng dụng phòng chống virus trong và ngoài nước; phân tích các vấn đềmởcủa công nghệanti-virus; đánh giá tình hình và đềxuất hướng tiếp cận, phương pháp giải quyết vấn đề. Kếtiếp, Chương 2 trình bày cơsởlý thuyết của các hệkhám phá tri thức từCSDL, các hệhọc và hệchuyên gia. Phần cuối Chương 2 trình bày quá trình tìm hiểu, phân tích các nghiên cứu hướng tiếp cận máy học và hệchuyên gia trong lĩnh vực nhận dạng mã độc. Các Chương 3 và Chương 4 chứa nội dung nghiên cứu chính của đềtài. Chương 3 trình bày các cơchếmáy học chẩn đoán virus máy tính. Bằng chiến lược “chia đểtrị”, bài toán nhận dạng virus máy tính được phân hoạch thành năm bài toán con. Mỗi bài toán được xây dựng dựa vào các kỹthuật học từ đơn giản đến phức tạp: học vẹt (lớp text virus), học tương tự(lớp macro virus), học chỉdẫn (lớp boot virus), học tình huống (lớp file virus) và học quy nạp (lớp mã độc, sâu trình và trojan horse). Chương 4 trình bày phương pháp thiết kếhệthống MAV, hệphần mềm thực nghiệm xây dựng trên cơsởcác nghiên cứu lý thuyết của đềtài. Phần đầu Chương 4 mô tảmô hình cơsởtri thức và mô hình tổng quát của hệ. Áp dụng tiếp cận máy học và hệchuyên gia, MAV sẽ được triển khai qua ba giai đoạn. Giai đoạn Học dữ liệu - mức chuyên gia, giai đoạn Xửlý dữliệu - thành phần cốt lõi (kernel) và giai đoạn Tổng kết - mức người dùng. Triển khai trên hệthống mạng theo mô hình client-server, MAV được thiết kếgồm hai gói cài đặt chạy trên máy chủ(dành cho chuyên gia) và các máy trạm (dành cho người dùng). Mỗi gói có chức năng, cấu trúc dữliệu sửdụng các thuật giải học phân cụm, phân lớp dữliệu khác nhau. Phần cuối Chương 4 trình bày các kết quảthực nghiệm của đềtài. Chương 5 tổng kết các đóng góp vềmặt lý thuyết, đánh giá ý nghĩa thực tiễn, phân tích hạn chế, đềxuất các biện pháp khắc phục và dựkiến hướng phát triển tương lai của đềtài. Phần tài liệu tham khảo gồm (i) các công trình đã công bốtrong các tạp chí chuyên ngành, kỷyếu hội nghịkhoa học trong nước - quốc tếvà (ii) các tài liệu tham khảo sửdụng trong quá trình nghiên cứu đềtài. Cuối cùng, phần phụlục nhằm làm rõ các vấn đềliên quan đến đềtài gồm Phụlục 1: Khảo sát virus máy tính; Phụlục 2: Các định dạng dữliệu nhiễm virus máy tính; Phụlục 3: Các tác tửhoạt động và thuật toán SID Tìm kiếm – Suy luận – Chẩn đoán; Phụlục 4: Phân tích hệthống phần mềm MAV; Phụlục 5: Phân hệmáy chủMAVSR và Phụlục 6: Phân hệmáy trạm MAVCL.

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC

HỖ TRỢ TÌM VÀ TẢI TÀI LIỆU

  • Từ ngày 01/05/2022

    Luanvan365 sẽ có thêm dịch vụ hỗ trợ các bạn tìm kiếm các tài liệu, luận văn ở nhiều website khác nhau
    Bạn có thể liên hệ với Admin để được hỗ trợ nhé
  • THÔNG TIN LIÊN HỆ


    Phone: 0909.773687 (Zalo, Text) Facebook : Facebook chat hỗ trợ

  • XEM THÊM THÔNG TIN

    Xem thêm bài viết
LIÊN HỆ NGAY

TIN KHUYẾN MÃI

  • Thư viện tài liệu Phong Phú

    Hỗ trợ download nhiều Website

  • Nạp thẻ & Download nhanh

    Hỗ trợ nạp thẻ qua Momo & Zalo Pay

  • Nhận nhiều khuyến mãi

    Khi đăng ký & nạp thẻ ngay Hôm Nay

NẠP THẺ NGAY