Luận văn Giải pháp tính hạng trang khai thác cấu trúc Block của web và áp dụng vào máy tìm kiếm

Ngày nay, với những tác động to lớn và mạnh mẽcủa mạng Internet tới đời sống kinh tế, chính trịvà văn hóa của con người, lĩnh vực khai phá dữliệu Web đã và đang trởthành lĩnh vực nghiên cứu thời sự, thu hút được sựquan tâm của rất nhiều nhà nghiên cứu. Khai phá dữliệu Web là điểm hội tụcủa rất nhiều lĩnh vực nghiên cứu như: cơsởdữliệu, truy xuất thông tin (information retrival), trí tuệnhân tạo, nó còn là một lĩnh vực nhỏtrong học máy (machine learning) và xửlý ngôn ngữtựnhiên. Một trong những lĩnh vực nghiên cứu đang rất được quan tâm hiện nay trong khai phá Web là việc xây dựng các công cụtìm kiếm trên Web. Bởi trong bối cảnh xã hội thông tin ngàynay, nhu cầu nhận được các thông tin một cách nhanh chóng, chính xác đang ngày càng trởnên cấp thiết. Đểtìm ra được các thông tin có ích đối với mỗi người dùng, đặc biệt là với những người dùng thiếu kinh nghiệm hoàn toàn không phải là việc đơn giản. Với một công cụtìm kiếm, khảnăng người dùng có thểduyệt Web và định vị được các trang Web mình quan tâm đã trởnên dễdàng hơn nhiều. Tuy nhiên hiện nay, do sựphát triển và thay đổi với tốc độquá nhanh của Internet, các công cụtìm kiếm đang phải đối mặt với những bài toán nan giải vềtốc độ. Trong đó có bài toán vềtốc độtính toán hạng cho các trang Web, thực thi nhiệm vụtính toán độ“quan trọng” cho các trang thông tin kết quảtìm được so với yêu cầu tìm kiếm của người dùng. Vì kích thước của World Wide Web là vô cùng lớn, lên tới hàng tỉtrang web, không những thếcác trang Web này không ởtrạng thái tĩnh mà luôn luôn thay đổi. Do đó tính hiệu quảvềthời gian càng trởnên quan trọng. Nếu phép tính PageRank cho tập các trang web trong cơsởdữliệu không đủnhanh, hệthống tìm kiếm sẽkhông cung cấp được chất lượng tìm kiếm tốt cho người dùng. Ý thức đây là một lĩnh vực nghiên cứu có nhiều triển vọng, chúng tôi đã chọn hướng nghiên cứu “Giải pháp tính hạng trang khai thác cấu trúc Block của Web và áp dụng vào máy tìm kiếm”cho đềtài khóa luận tốt nghiệp của mình. Khóa luận tập trung nghiên cứu bài toán tính hạng trang web (PageRank) trong các máy tìm kiếm: cấu trúc, thuật toán cũng nhưcác tiêu chuẩn đánh giá quá trình này. Chúng tôi cũng đã áp dụng các lý thuyết trên để đi sâu phân tích mã nguồn, tìm hiểu cơchếthực thi quá trình tính PageRank trong máy tìm kiếm Vinahoo, một máy tìm kiếm tiếng Việt mã nguồn mởvới nhiều tính năng ưu việt. Từviệc nghiên cứu này, chúng tôi đã đềxuất một giải pháp áp dụng khái niệm thành phần liên thông trong ma trận liên kết Web trong Vinahoo, đồng thời thực hiện việc cài đặt thửnghiệm trên mã nguồn của máy tìm kiếm này

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC