Phân tích thống kê mô tả

Sách giáo khoa thống kê thường giải thích hai khái niệm này một cách mù mờvà có khi vô nghĩa. Chẳng hạn nhưcuốn “Modern Mathematical Statistics” (E. J. Dudewicz và S. N. Mishra, Nhà xuất bản Wiley, 1988) giải thích tổng thểrằng “population is a set of n distinct elements (points)a1, a2, a3, … an.” (trang 24, tạm dịch: “tổng thểlà tập hợp gồm n phần tửhay điểm a1, a2, a3, … an”), còn L. Fisher và G. van Belle trong “Biostatistics – A Methodology for the Health Science” (Nhà xuất bản Wiley, 1993), giải thích rằng “The sample space or population is the set of all possible values of a variable” (trang 38, tạm dịch “Không gian mẫu hay tổng thểlà tập hợp tất cảcác giá trịkhảdĩcủa một biến”). Đối với một nhà nghiên cứu thực nghiệm phải nói những định nghĩa loại này rất trừu tượng và khó hiểu, và dường nhưchẳng có liên quan gì với thực tế! Trong phần này tôi sẽgiải thích hai khái niệm này bằng mô phỏng và hi vọng là bạ đọc sẽhiểu rõ hơn. Có thểnói mục tiêu của nghiên cứu khoa học thực nghiệm là nhằm tìm hiểu và khám phá những cái chưa được biết(unknown), trong đó bao gồm những qui luật hoạt động của tựnhiên. Đểkhám phá, chúng ta sửdụng đến các phương pháp phân loại, so sánh, và phỏng đoán. Tất cảcác phương pháp khoa học, kểcảthống kê học, được phát triển nhằm vào ba mục tiêu trên. Đểphân loại, chúng ta phải đo lường một yếu tốhay tiêu chí có liên quan đến vấn đềcần nghiên cứu. Đểso sánh và phỏng đoán, chúng ta cần đến các phương pháp kiểm định giảthiết và mô hình thống kê học. Cũng nhưbất cứmô hình nào, mô hình thống kê phải có thông số. Và muốn có thông số, chúng ta trước hết phải tiến hành đo lường, và sau đó là ước tính thông sốtừ đo lường. Chẳng hạn như đểbiết sinh viên nữcó chỉsốthông minh (IQ) bằng sinh viên nam hay không, chúng ta có thểlàm nghiên cứu theo hai phương án: (a) Một là lập danh sánh tất cảsinh viên nam và nữtrên toàn quốc, rồi đo lường chỉ sốIQ ởtừng người, và sau đó so sánh giữa hai nhóm; (b) Hai là chọn ngẫu nhiên một mẫu gồm n nam và m nữsinh viên, rồi đo lường chỉ sốIQ ởtừng người, và sau đó so sánh giữa hai nhóm. Phương án (a) rất tốn kém và có thểnói là không thực tế, vì chúng ta phải tập hợp tất cảsinh viên của cảnước, một việc làm rất khó thực hiện được. Nhưng giảdụnhư chúng ta có thểlàm được, thì phương án này không cần đến thống kê học. Giá trịIQ trung bình của nữvà nam sinh viên tính từphương án (a) là giá trịcuối cùng, và nó trảlời câu hỏi của chúng ta một cách trực tiếp, chúng ta không cần phải suy luận, không cần đến kiểm định thống kê gì cả! Phương án (b) đòi hỏi chúng ta phải chọn n nam và m nữsinh viên sao cho đại diện(representative) cho toàn quần thểsinh viên của cảnước. Tính “đại diện” ở đây có nghĩa là các số n nam và m nữsinh viên này phải có cùng đặc tính như độtuổi, trình độ học vấn, thành phần kinh tế, xã hội, nơi sinh sống. v.v… so với tổng thểsinh viên của cả nước. Bởi vì chúng ta không biết các đặc tính này trong toàn bộtổng thểsinh viên, chúng ta không thểso sánh trực tiếp được, cho nên một phương pháp rất hữu hiệu là lấy mẫu một cách ngẫu nhiên. Có nhiều phương pháp lấy mẫu ngẫu nhiên đã được phát triển và tôi sẽkhông bàn qua chi tiết của các phương pháp này, ngoại trừmuốn nhấn mạnh rằng, nếu cách lấy mẫu không ngẫu nhiên thì các ước sốtừmẫu sẽkhông có ý nghĩa khoa học cao, bởi vì các phương pháp phân tích thống kê dựa vào giả định rằng mẫu phải được chọn một cách ngẫu nhiên.

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC