Thực nghiệm luận (Empirisism) phụ thuộc vào sự quan sát; sự quan sát cụ thể phụ thuộc vào phép đo; và phép đo cần những con số. Do đó, các nhà khoa học sẽ phân tích dữ liệu số để đưa ra kết luận của mình. Trong 1 văn bản nếu có hơn 3000 nghiên cứu thực nghiệm được trích dẫn, thì tất cả, ngoại trừ một vài khái niệm đơn giản nhất, yêu cầu phải có phân tích thống kê. Thống kê là việc sử dụng toán học để tổ chức, tóm tắt và diễn giải dữ liệu số.
Để minh họa các số liệu thống kê trong thực tế, hãy giả sử ta muốn kiểm tra một giả thiết đã tạo ra khá nhiều tranh luận trong lớp tâm lý. Giả thiết cho rằng sinh viên đại học “sáng sủa” hơn (điểm SAT cao hơn) thì xem TV ít hơn những sinh viên “buồn tẻ” (điểm SAT thấp hơn). Để thú vị hơn, lớp của bạn quyết định tự thực hiện một nghiên cứu tương quan (correlation), thu thập dữ liệu khảo sát và test tâm lý. Các bạn trong lớp đều đồng ý trả lời một cuộc khảo sát ngắn về thói quen xem TV của họ. Bởi vì tất cả mọi người ở trường đều phải thi SAT, lớp quyết định sử dụng điểm số trong bài kiểm tra ngolf ngữ SAT làm chỉ số đánh giá mức độ xuất sắc của học sinh. Tất cả học sinh đều đồng ý cho phép văn phòng hồ sơ tại trường cung cấp điểm SAT của họ cho thày giáo, người này sẽ thay thế tên của học sinh bằng mã số (để bảo vệ quyền riêng tư của học sinh). Hãy xem làm thế nào ta có thể sử dụng số liệu thống kê để phân tích dữ liệu thu thập được trong nghiên cứu thử nghiệm (một cuộc điều tra nhỏ, sơ bộ) của ta.
Dữ liệu đồ thị
Sau khi thu thập dữ liệu, bước tiếp theo của ta là sắp xếp dữ liệu để có được cái nhìn tổng quan nhanh chóng về kết quả số. Giả sử có 20 sinh viên trong lớp và khi họ ước tính xem họ dành bao nhiêu giờ mỗi ngày để xem TV, kết quả như sau:
3 | 2 | 0 | 3 | 1 |
3 | 4 | 0 | 5 | 1 |
2 | 3 | 4 | 5 | 2 |
4 | 5 | 3 | 4 | 6 |
Để đơn giản hơn, ta có thể tổ chức dữ liệu bằng cách lập ra bảng phân bố tần suất (frequency distribution) — sắp xếp các điểm số theo trật tự nhằm cho thấy tần suất xuất hiện (độ thường xuyên) của mỗi điểm hoặc nhóm điểm. Hình B.1 (a) cho thấy phân bố tần suất cho dữ liệu của ta về việc xem TV. Cột bên trái liệt kê các điểm số có thể có (số giờ xem TV ước tính) theo thứ tự và cột bên phải liệt kê số lượng đối tượng với từng điểm số. Đồ thị có thể cung cấp một cái nhìn tổng quát hơn về dữ liệu. Một cách tiếp cận là mô tả dữ liệu trong một histogram, đó là một biểu đồ hình cột trình bày dữ liệu từ một phân bố tần suất. Một biểu đồ tóm tắt dữ liệu xem TV của ta như vậy, được trình bày trong Hình B.1 (b).
Hình B.1: Dữ liệu đồ thị. (a) Dữ liệu thô của chúng ta được tính vào phân phối tần số. (b) cùng một dữ liệu được mô tả trong một biểu đồ thanh được gọi là histogram. (c) Một đa giác tần suất được vẽ theo biểu đồ. (d) Đa giác tần suất.

B.1 (a): Phân phối tần suất

B.1 (b): Biểu đồ histogram. Trục hoành: Số giờ xem TV/ngày được ước tính/Trục tung: Tần suất điểm SAT

B.1 (c): Chuyển đổi từ histogram sang đa giác tần suất

B.1 (d): Đa giác tần suất
Một phương pháp khác được sử dụng rộng rãi để miêu tả dữ liệu bằng đồ thị là đa giác tần suất (frequency polygon) — một hình đường thẳng được sử dụng để trình bày dữ liệu từ một phân bố tần suất. Hình B.1 (c) và B.1 (d) cho thấy cách dữ liệu xem TV của ta có thể được chuyển đổi từ biểu đồ thành đa giác tần suất. Trong cả biểu đồ thanh và hình đường thẳng, trục hoành liệt kê các điểm có thể có và trục tung được sử dụng để chỉ ra tần suất của mỗi điểm. Việc sử dụng các trục này mang tính gần như phổ quát đối với đa giác tần suất, mặc dù đôi khi nó bị đảo ngược trong biểu đồ histograms (trục tung liệt kê các điểm có thể có, do đó các thanh trở nên ngang).
Biểu đồ của ta cải thiện tập hợp các điểm lộn xộn mà ta có ban đầu, nhưng thống kê mô tả (descriptive statistics), được sử dụng để tổ chức và tóm tắt dữ liệu, mang lại những lợi thế bổ sung. Hãy xem ba cách đo xu hướng trung tâm (central tendency) cho ta biết gì về dữ liệu của mình.
Đo lường xu hướng trung tâm
Khi kiểm tra một tập hợp dữ liệu, bạn nên hỏi “Điểm điển hình trong phân phối là gì?” Ví dụ, trong trường hợp này, ta có thể so sánh thời lượng xem TV trung bình trong mẫu của ta với các ước tính quốc gia để xác định xem các chủ thể (subject) của ta có đại diện cho dân số hay không. Ba thước đo của xu hướng trung tâm, trung vị (median), trung bình (mean) và mốt (mode), cho ta các chỉ dẫn liên quan đến điểm số điển hình trong một tập hợp dữ liệu. Trung vị là điểm nằm ở trung tâm của phân phối, trung bình là trung bình cộng của điểm số và mốt là điểm xuất hiện thường xuyên nhất.

Hình B.2: Đo xu hướng trung tâm. Trung bình, trung vị và mốt đôi khi mang lại kết quả khác nhau, nhưng chúng thường hội tụ, như trong trường hợp dữ liệu xem TV của chúng ta.
Cả ba thước đo về xu hướng trung tâm đều được tính toán cho dữ liệu xem TV của ta trong Hình B.2. Như bạn có thể thấy, trong tập dữ liệu này, giá trị trung bình, trung vị và mốt đều là cùng một điểm số, 3. Sự tương ứng giữa ba thước đo xu hướng trung tâm được thấy trong dữ liệu xem TV của ta là khá phổ biến, nhưng có những tình huống trong đó giá trị trung bình, trung bình và mốt có thể cho ra ước đoán rất khác nhau về xu hướng trung tâm. Để minh họa, hãy tưởng tượng bạn đang phỏng vấn cho vị trí bán hàng tại một công ty. Bạn không biết rằng trong năm trước, 5 nhân viên bán hàng của công ty đã kiếm được các khoản thu nhập sau: 20.000 đô la, 20.000 đô la, 25.000 đô la, 35.000 đô la và 200.000 đô la. Bạn hỏi nhân viên bán hàng điển hình kiếm được bao nhiêu trong một năm. Giám đốc bán hàng tự hào thông báo rằng năm nhân viên bán hàng của cô ấy đã kiếm được thu nhập trung bình là 60.000 đô la vào năm ngoái. Tuy nhiên, trước khi quyết định, bạn nên hỏi kỹ hơn về thu nhập trung vị và mốt của nhóm nhân viên bán hàng. Trong trường hợp này, một điểm cực trị (200.000 đô la) đã làm tăng giá trị trung bình, khiến nó không còn mang tính đại diện cho thu nhập của nhân viên bán hàng. Theo quan điểm này, mức trung vị (25.000 đô la) và mốt (20.000 đô la) đều cung cấp ước tính tốt hơn về số tiền bạn có khả năng bán được.
Nói chung, giá trị trung bình là thước đo hữu ích nhất cho xu hướng trung tâm vì các thao tác thống kê bổ sung có thể được thực hiện trên nó, trong khi chúng không thực hiện được với trung vị hoặc mốt. Tuy nhiên, giá trị trung bình lại nhạy cảm với các điểm cực trị trong phân phối, điều này đôi khi có thể làm cho giá trị trung bình bị hiểu nhầm. Do đó, sự thiếu thống nhất giữa ba kết quả của của xu hướng trung tâm thường xảy ra khi một vài điểm cực trị kéo lệch giá trị trung bình khỏi trung tâm của phân bố, như được thể hiện trong hình B.3. Các đường cong được vẽ trong Hình B.3 chỉ đơn giản là “làm mịn” các đa giác tần suất dựa trên dữ liệu từ nhiều đối tượng. Chúng chỉ ra rằng: khi một phân phối mang tính đối xứng, các số đo của xu hướng trung tâm sẽ trùng nhau, nhưng điều này không đúng trong các phân phối lệch hoặc không cân bằng.
Hình B.3 Các phép đo xu hướng trung tâm trong các phân phối lệch. Trong một phân phối đối xứng (a), ba thước đo xu hướng trung tâm hội tụ. Tuy nhiên, trong phân phối lệch âm (b) hoặc trong phân phối lệch dương (c), giá trị trung bình, trung vị và mốt sẽ bị đẩy đi như dưới đây. Thông thường, trong những tình huống này, trung vị cung cấp chỉ số tốt nhất về xu hướng trung tâm.

Hình B.3 (a) Phân phối đối xứng

Hình B.3 (b) Phân phối lệch âm

Hình B.3 (c) Phân phối lệch dương
Hình B.3 (b) cho thấy một phân phối lệch âm (negatively skewed distribution), trong đó hầu hết các điểm số đều xếp tập trung ở đầu cao nhất của thang điểm (độ lệch âm đề cập đến hướng mà “đuôi” của đường cong hướng vào). Phân bố lệch dương (positively skewed distribution), trong đó điểm số tập trung ở cuối thang điểm, được thể hiện trong Hình B.3 (c). Trong cả hai loại phân phối lệch, một vài điểm cực trị ở một đầu sẽ kéo giá trị trung bình, và trung vị ở mức độ thấp hơn, lệch ra khỏi mốt.
Trong những tình huống này, giá trị trung bình có thể bị sai lệch và giá trị trung vị thường mang lại chỉ số tốt nhất về xu hướng trung tâm.
Dù trong trường hợp nào, các thước đo về xu hướng trung tâm đối với dữ liệu xem TV ở ví dụ trên đều khiến ta yên tâm vì tất cả đều đồng nhất và nằm ở mức hợp lý gần với các ước tínhcủa quốc gia về lượng người trẻ xem TV. Với quy mô nhỏ của nhóm ta, sự tương thuận này với tiêu chuẩn quốc gia không chứng minh được rằng mẫu của ta là đại diện cho dân số, nhưng ít nhất cũng không có lý do rõ ràng để tin rằng chúng không mang tính đại diện.
Đo lường tính biến thiên (Variability)
Tất nhiên, không phải ai trong mẫu của ta cũng báo cáo thói quen xem TV giống nhau. Hầu như tất cả các tập dữ liệu được đặc trưng bởi một vài tính biến thiên. Tính biến thiên (variability) cho thấy điểm số có xu hướng thay đổi hay khác xa so với điểm trung bình đến mức độ nào. Ví dụ: phân phối điểm số môn đánh golf cho một người chơi golf tầm thường, với thành tích thất thường sẽ được đặc trưng bởi độ biến thiên cao, trong khi điểm số cho một người chơi golf tầm thường nhưng thành tích ổn định hơn sẽ ít biến động hơn.
Độ lệch chuẩn (standard deviation) là một chỉ số về lượng biến thiên trong một tập hợp dữ liệu. Nó phản ánh sự phân tán của điểm số trong một phân phối. Nguyên tắc cơ bản này được mô tả bằng đồ thị trong Hình B.4, trong đó hai phân phối điểm đánh golf có cùng giá trị trung bình nhưng phân bố ở bên trái ít biến thiên hơn vì các điểm tập trung ở trung tâm (đối với người chơi golf nhất quán). Phân phối trong Hình B.4 (b) được xác định bởi tính biến thiên nhiều hơn, vì điểm số của người chơi golf thất thường được trải rộng hơn. Phân phối này sẽ mang lại độ lệch chuẩn cao hơn so với phân phối trong Hình B.4 (a).

Hình B.4: Độ lệch chuẩn và độ phân tán của dữ liệu. Mặc dù cả hai cách phân bổ điểm đánh golf này đều có giá trị trung bình như nhau, độ lệch chuẩn của chúng sẽ khác nhau. Trong (a) điểm số nhất quán ít biến thiên hơn trong (b), tạo ra độ lệch chuẩn thấp hơn cho dữ liệu thuộc phân phối (a).
Công thức tính độ lệch chuẩn được thể hiện trong Hình B.5, trong đó d là độ lệch của mỗi điểm so với giá trị trung bình và S là tổng. Ứng dụng tính công thức này từng bước cho dữ liệu xem TV được hiển thị trong Hình B.5, cho thấy độ lệch chuẩn cho dữ liệu xem TV của ta là 1 .64. Độ lệch chuẩn có nhiều cách sử dụng. Một trong những cách sử dụng này sẽ xuất hiện trong phần tiếp theo, nơi ta thảo luận về phân phối chuẩn.

Hình B.5: Các bước tính toán độ lệch chuẩn:
(1) Cộng các điểm (SX) và chia cho số điểm (N) để tính giá trị trung bình (trong trường hợp này là 3,0).
(2) Tính toán độ lệch của mỗi điểm so với giá trị trung bình bằng cách trừ điểm trung bình cho mỗi điểm (kết quả ở trong cột thứ hai).
(3) Tính bình phương độ lệch so với giá trị trung bình và tổng các kết quả thu được (Sd2) được biểu thị trong cột thứ ba.
(4) Nhập N và Sd2 vào công thức để tính kết quả độ lệch chuẩn (căn bậc hai của Sd2/N).
Phân phối chuẩn
Giả thiết trong nghiên cứu của ta là những sinh viên thông minh hơn thì xem TV ít hơn những sinh viên “buồn tẻ (dull)”. Để kiểm tra giả thiết này, chúng ta sẽ thực hiện tương quan giữa việc xem TV với điểm SAT.
Nhưng để sử dụng hiệu quả dữ liệu SAT, ta cần phải hiểu điểm SAT có ý nghĩa gì, điều này dẫn ta về phân phối chuẩn.
Phân phối chuẩn (normal distribution) là một đường cong đối xứng, có hình chuông biểu thị kiểu phân tán nhiều đặc điểm của con người trong dân số. Rất nhiều đặc điểm thể chất (ví dụ, chiều cao, chiều dài mũi và tốc độ chạy) và các đặc điểm tâm lý (trí thông minh, khả năng suy luận không gian, hướng nội) được phân bố theo cách gần giống với đường cong hình chuông này. Khi một đặc điểm được phân phối chuẩn, hầu hết các điểm số rơi vào gần trung tâm của phân phối (giá trị trung bình) và số điểm giảm dần khi một đặc điểm di chuyển ra khỏi trung tâm theo một trong hai hướng (xem Hình B.6). Phân phối chuẩn không phải là quy luật tự nhiên. Đó là một hàm toán học, hay đường cong mang tính lý thuyết (theoretical curve), phán đoán một cách xấp xỉ cách tự nhiên vận hành.

Hình B.6
Phân phối chuẩn. Nhiều đặc điểm được phân bố theo một mẫu được thể hiện bởi đường cong hình chuông này (mỗi chấm biểu thị một trường hợp). Trục hoành hiển thị cao hơn hay thấp hơn điểm trung bình bao xa (được đo bằng cộng hoặc trừ độ lệch chuẩn). Trục tung hiển thị số trường hợp đạt được mỗi điểm. Trong phân phối chuẩn, hầu hết các trường hợp rơi vào gần trung tâm của phân phối, do đó 68,26% các trường hợp nằm trong cộng hoặc trừ 1 độ lệch chuẩn của giá trị trung bình. Số lượng các trường hợp giảm dần khi điểm chuyển động xa trung bình theo cả hai hướng, do đó chỉ có 13,59% trường hợp nằm trong khoảng từ 1 đến 2 độ lệch chuẩn trên hoặc dưới mức trung bình, và nằm giữa 2 và 3 độ lệch chuẩn trên hoặc dưới giá trị trung bình thì còn ít trường hợp hơn (2,14%).
Phân phối chuẩn là nền tảng của hệ thống tính điểm cho hầu hết các bài kiểm tra tâm lý, bao gồm cả SAT. Các bài test tâm lý là các phép đo tương đối ; đánh giá cách mọi người mang điểm số bao nhiêu về một đặc điểm, trong tương quan so sánh với những người khác. Phân phối chuẩn cho ta một cách chính xác để đo lường người ta tương đồng ở điểm nào, trong tương quan so sánh với những người khác. Các điểm dưới đường cong chuẩn thường phân tán theo một mẫu cố định, với độ lệch chuẩn (standard deviation) dùng làm đơn vị đo lường, như trong Hình B.6. Khoảng 68% điểm số trong phân phối nằm trong khoảng cộng hoặc trừ 1 độ lệch chuẩn của giá trị trung bình, trong khi 95% điểm số nằm trong khoảng cộng hoặc trừ 2 độ lệch chuẩn của giá trị trung bình. Với mô hình cố định này, nếu bạn biết giá trị trung bình và độ lệch chuẩn của một đặc điểm có phân phối chuẩn, bạn có thể biết một điểm bất kỳ nằm ở đâu trong phân phối của đặc điểm đó.
Mặc dù bạn có thể không nhận ra điều này, nhưng có thể bạn đã có nhiều điểm số trong đó hệ thống tính điểm dựa trên phân phối chuẩn. Ví dụ: trong bài thi SAT, điểm thô (số mục trả lời đúng trên mỗi bài kiểm tra con) được chuyển thành điểm tiêu chuẩn cho biết bạn nằm ở vị trí nào trong phân phối chuẩn cho đặc điểm được đo. Trong sự chuyển đổi này, giá trị trung bình được đặt ở mức 500 và độ lệch chuẩn thứ là 100, như thể hiện trong Hình B.7. Do đó, điểm SAT 400 trong phần thi con kiểm tra kỹ năng nói cho biết rằng bạn nằm ở độ lệch chuẩn 1 dưới trung bình, trong khi điểm SAT 600 chỉ ra rằng bạn nằm ở độ lệch chuẩn 1 trên trung bình. Do đó, điểm SAT cho bạn biết điểm của bạn thuộc độ lệch chuẩn cao hơn hoặc thấp hơn điểm trung bình bao nhiêu lần.

Hình B.7: Phân phối chuẩn và điểm SAT.
Phân phối chuẩn là cơ sở cho hệ thống chấm điểm trên nhiều bài kiểm tra tiêu chuẩn hóa.
Ví dụ: trong kỳ thi SAT, giá trị trung bình được đặt ở 500 và độ lệch chuẩn là 100. Do đó, một điểm thi SAT cho bạn biết có bao nhiêu độ lệch chuẩn trên hoặc dưới mức trung bình mà bạn đã đạt được. Ví dụ, điểm 700 có nghĩa là bạn đã đạt 2 điểm độ lệch chuẩn trên mức trung bình.
Hệ thống này cũng cung cấp thước đo cho các thang đo IQ và nhiều loại bài test tâm lý khác.
Điểm bài thi theo phân phối chuẩn luôn có thể được chuyển đổi thành điểm bách phân vị (percentile scores), điều này giúp việc diễn giải trở nên dễ dàng hơn một chút. Điểm bách phân vị (percentile scores) cho biết tỷ lệ những người đạt hoặc thấp hơn điểm bạn đạt được. Ví dụ: nếu bạn đạt điểm ở phân vị thứ 60, 60% số người làm bài kiểm tra có điểm bằng hoặc thấp hơn bạn, trong khi 40% còn lại cao hơn bạn. Có sẵn các bảng cho phép ta chuyển đổi bất kỳ vị trí độ lệch chuẩn nào trong phân phối chuẩn thành điểm phân vị chính xác. Hình B.6 đưa ra một số chuyển đổi bách phân vị cho đường cong thông thường.
Tất nhiên, không phải tất cả phân phối nào cũng chuẩn. Như ta đã thấy trong Hình B.3, một số phân phối bị lệch theo hướng này hoặc hướng khác. Ví dụ, hãy xem xét điều gì sẽ xảy ra nếu một kỳ thi trên lớp quá dễ hoặc quá khó. Nếu bài kiểm tra quá dễ, điểm số sẽ tập trung ở đầu cao nhất của thang điểm, như trong Hình B.3 (b). Nếu bài kiểm tra quá khó, điểm số sẽ bị dồn lại ở mức thấp, như trong Hình B.3 (c).
Đo lường mối tương quan (correlation)
Để xác định xem việc xem TV có liên quan đến điểm SAT hay không, ta phải tính toán hệ số tương quan (correlation coefficient) — một chỉ số bằng liệu (numerical index) của mức độ quan hệ giữa hai biến số (variables). Như đã thảo luận trong Chương 2, mối tương quan dương/thuận (positive) có nghĩa là hai biến — giả sử X và Y — đồng biến (covary) với nhau. Điều này cho thấy điểm cao trên biến X có liên quan đến điểm cao trên biến Y và điểm thấp trên X có liên quan đến điểm thấp trên Y. Một mối tương quan âm/nghịch (negative) chỉ ra rằng có mối quan hệ nghịch đảo giữa hai biến. Điều này có nghĩa là những người đạt điểm cao trên biến X có xu hướng đạt điểm thấp trên biến Y, trong khi những người đạt điểm thấp trên X có xu hướng đạt điểm cao trên Y. Trong nghiên cứu của ta, ta đưa ra giả thiết rằng khi xem TV nhiều, điểm SAT sẽ giảm, vì vậy ta nên kỳ vọng mối tương quan nghịch giữa việc xem TV và điểm SAT.
Độ lớn (Magnitude) của hệ số tương quan cho biết mức độ liên kết giữa hai biến. Hệ số này có thể thay đổi trong khoảng từ 0 đến ±1,00. Hệ số thường được biểu thị bằng chữ cái r (ví dụ: r = 0,45). Hệ số gần bằng 0 cho ta biết rằng không có mối quan hệ nào giữa hai biến. Hệ số +1,00 hoặc -1,00 chỉ ra rằng có sự tương ứng hoàn hảo, 1-1 giữa hai biến. Mối tương quan hoàn hảo là hiếm thấy khi làm việc với dữ liệu thực. Hệ số càng gần với +1,00 hoặc -1,00, mối tương quan càng mạnh mẽ.
Hướng và mức độ mạnh của các mối tương quan có thể được minh họa bằng đồ thị trong biểu đồ phân tán (scatter diagrams). Biểu đồ phân tán (scatter diagrams) là một biểu đồ trong đó các điểm X và Y được ghép đôi cho mỗi chủ thể được vẽ dưới dạng các điểm đơn lẻ. Hình B.8 dưới đây cho thấy biểu đồ phân tán cho các tương quan dương ở nửa trên và tương quan âm ở nửa dưới. Tương quan dương hoàn hảo và tương quan âm hoàn hảo được hiển thị ở phía ngoài cùng bên trái. Khi mối tương quan là hoàn hảo, các điểm dữ liệu trong biểu đồ phân tán nằm chính xác trên một đường thẳng. Tuy nhiên, các mối tương quan dương và âm mang tới các đường nghiêng theo hướng ngược lại vì các đường vạch ra các kiểu liên kết đối lập. Ở phía bên phải của Hình B.8, bạn có thể thấy điều gì sẽ xảy ra khi độ lớn của mối tương quan giảm xuống. Các điểm dữ liệu phân tán ngày càng xa khỏi đường thẳng vốn đại diện cho một mối tương quan hoàn hảo.

Hình B.8
Biểu đồ phân tán của các mối tương quan dương và âm. Biểu đồ phân tán vẽ các điểm X và Y được ghép đôi thành các điểm đơn lẻ. Các điểm nghiêng theo hướng ngược nhau là kết quả của các mối tương quan dương (hàng trên) trái ngược với các mối tương quan âm (hàng dưới). Các mối tương quan ngày càng yếu dẫn đến ngày càng có nhiều điểm dữ liệu phân tán hơn.
Còn dữ liệu của ta liên quan đến việc xem TV với điểm SAT thì sao? Hình B.9 cho thấy một biểu đồ phân tán của những dữ liệu này. Chỉ cần tìm hiểu về biểu đồ phân tán, bạn có thể ước tính mức độ tương quan giữa việc xem TV và điểm SAT. Các sơ đồ phân tán của dữ liệu của ta trông rất giống hình ta thấy nhìn thấy ở góc dưới bên phải của Hình B.8, cho thấy mối tương quan sẽ nằm trong vùng lân cận -0,20.

Hình B.9: Biểu đồ phân tán về mối tương quan giữa việc xem TV và điểm SAT. Dữ liệu giả định của ta liên quan đến việc xem TV với điểm SAT được vẽ trong biểu đồ phân tán này.
Công thức để tính toán thước đo tương quan được sử dụng rộng rãi nhất – tương quan Pearson product-moment – được trình bày trong Hình B.10, cùng với các phép tính cho dữ liệu của ta về việc xem TV và điểm SAT. Dữ liệu mang lại mối tương quan r = -0,24. Đây hệ số tương quan cho thấy rằng ta có tương quan âm giữa việc xem TV và điểm SAT. Trong số các chủ thể được nghiên cứu, khi số giờ xem TV tăng lên, điểm SAT giảm, nhưng xu hướng này không mạnh lắm. Ta có thể hiểu rõ hơn về mức độ mạnh mẽ của mối tương quan này bằng cách kiểm tra khả năng dự đoán của nó.

Hình B.10
Tính toán hệ số tương quan. Các phép tính cần thiết để tính toán hệ số tương quan Pearson được biểu thị ở đây.
Tương quan (Correlation) và dự đoán (Prediction)
Khi độ lớn của mối tương quan tăng lên (tiến gần hơn đến -1,00 hoặc +1,00), khả năng dự đoán một biến dựa trên hiểu biết về biến kia của ta sẽ tăng đều đặn.
Mối quan hệ giữa độ lớn của mối tương quan và khả năng dự đoán có thể được định lượng một cách chính xác. Tất cả những gì ta phải làm là bình phương hệ số tương quan (nhân nó với chính nó) và điều này cho ta hệ số xác định (coefficient of determination), tỷ lệ phần trăm biến động trong một biến có thể được dự đoán dựa trên biến kia. Do đó, mối tương quan là 0,70 tạo ra hệ số xác định là 0,49 (0,70 ´ 0,70 = 0,49), cho thấy rằng biến X có thể chi phối 49% sự biến thiên trong biến Y. Hình B.11 cho thấy hệ số xác định tăng lên khi độ lớn của mối tương quan tăng lên.

Hình B.11: Tương quan và hệ số xác định. Hệ số xác định là một chỉ số về khả năng dự đoán của mối tương quan. Như bạn có thể thấy, dù âm hay dương, mối tương quan mạnh hơn mang lại sức mạnh dự đoán cao hơn.
Thật không may, tương quan -0,24 không cung cấp cho ta nhiều khả năng dự đoán. Ta chỉ có thể dự đoán được hơn 6% sự biến thiên trong biến Y. Vì vậy, nếu ta cố gắng dự đoán điểm SAT của các cá nhân dựa trên thời lượng xem TV, thì dự đoán của ta sẽ không chính xác lắm. Mặc dù mối tương quan thấp không có nhiều khả năng ứng dụng và dự đoán, nó có thể vẫn có giá trị lý thuyết. Chỉ cần biết là có một mối quan hệ giữa hai biến là đã có thể thú vị về mặt lý thuyết. Tuy nhiên, ta vẫn chưa giải quyết được câu hỏi liệu mối tương quan quan sát được của ta có đủ mạnh để hỗ trợ giả thiết rằng: có mối quan hệ giữa việc xem TV và điểm SAT hay không. Để đưa ra nhận định này, ta phải chuyển sang thống kê suy luận và quá trình kiểm định giả thiết.
Kiểm định giả thiết (Hypothesis Testing)
Thống kê suy luận (Inferential statistics) vượt ra ngoài việc mô tả dữ liệu đơn thuần. Thống kê suy luận (Inferential statistics) được sử dụng để giải thích dữ liệu và đưa ra kết luận. Chúng cho các nhà nghiên cứu quyết định xem dữ liệu của họ có hỗ trợ các giả thiết của họ hay không.
Trong nghiên cứu của ta về việc xem TV, ta đã giả thiết là sẽ tìm thấy mối quan hệ nghịch đảo giữa thời lượng TV đã xem và điểm SAT. Chắc chắn, đó là những gì ta tìm thấy. Tuy nhiên, ta phải tự hỏi mình một câu hỏi quan trọng: Liệu mối tương quan được quan sát này có đủ lớn để hỗ trợ giả thiết của ta không, hay một mối tương quan với kích thước mẫu này đã xảy ra một cách tình cờ?
Chúng ta phải hỏi một câu hỏi tương tự hầu như mỗi khi tiến hành một nghiên cứu. Tại sao?
Bởi vì ta chỉ làm việc với một mẫu. Trong nghiên cứu, ta quan sát một mẫu (sample) giới hạn (trong trường hợp này là 20 đối tượng) để đưa ra kết luận về một tổng thể (population) lớn hơn nhiều (sinh viên đại học nói chung). Luôn có khả năng nếu ta sử dụng lại một mẫu khác trong tổng thể, kết quả có thể khác. Có lẽ kết quả của ta là duy nhất đối với mẫu của ta và không thể khái quát hóa cho tổng thể lớn hơn. Nếu ta thu thập dữ liệu về toàn bộ dân số, ta sẽ không phải vật lộn với vấn đề này, nhưng sự phụ thuộc của ta vào một mẫu đòi hỏi phải sử dụng thống kê suy luận để đánh giá chính xác khả năng kết quả của ta là do các yếu tố may rủi. trong lấy mẫu. Do đó, thống kê suy luận là chìa khóa để tạo ra bước nhảy vọt từ mẫu sang tổng thể (xem Hình B.12).

Hình B.12:
Mối quan hệ giữa tổng thể và mẫu. Trong nghiên cứu, ta thường quan tâm đến tổng thể lớn, nhưng ta chỉ có thể quan sát một mẫu nhỏ từ tổng thể. Sau khi quan sát mẫu, ta rút ra các suy luận về tổng thể, dựa trên mẫu. Quá trình suy luận này hoạt động tốt nếu mẫu đại diện cho tổng thể một cách hợp lý
Mặc dù việc này có vẻ đi lùi, nhưng trong quá trình kiểm tra giả thiết, ta chính thức kiểm tra giả thiết vô hiệu (null). Như được áp dụng cho dữ liệu tương quan, giả thiết vô hiệu (null hypothesis) là giả định rằng không có mối quan hệ thực sự giữa các biến được quan sát. Trong nghiên cứu của ta, giả thiết vô hiệu là không có mối liên hệ thực sự giữa việc xem TV và điểm SAT.
Ta muốn xác định xem liệu kết quả của ta có cho phép ta bác bỏ giả thiết không và do đó kết luận rằng giả thiết nghiên cứu (research hypothesis) của ta (rằng có mối quan hệ giữa các biến) đã được ủng hộ. Tại sao ta lại kiểm tra giả thiết vô hiệu thay vì giả thiết nghiên cứu ? Bởi vì các phép tính xác suất của ta phụ thuộc vào các giả định gắn với giả thiết vô hiệu. Cụ thể, ta tính toán xác suất thu được các kết quả mà ta đã quan sát được nếu giả thiết vô hiệu thực sự là đúng. Việc tính toán xác suất này phụ thuộc vào một số yếu tố. Một yếu tố quan trọng là lượng biến thiên trong dữ liệu, đó là lý do độ lệch chuẩn là số liệu thống kê quan trọng.
Ý nghĩa thống kê
Khi ta bác bỏ được giả thiết vô hiệu, ta kết luận rằng ta đã tìm thấy kết quả có ý nghĩa thống kê. Ý nghĩa thống kê (statistical significance) được cho là tồn tại khi xác suất mà các phát hiện quan sát được do ngẫu nhiên là rất thấp, thường là dưới 5 cơ hội (chance) trên 100. Điều này có nghĩa là nếu giả thiết vô hiệu là đúng và ta thực hiện nghiên cứu của mình 100 lần, rút ra một mẫu mới từ tổng thể mỗi lần, ta sẽ nhận được kết quả chẳng hạn như kết quả được quan sát chỉ 5 lần trong số 100. Nếu tính toán của ta cho phép ta bác bỏ giả thiết vô hiệu, ta kết luận rằng kết quả của ta hỗ trợ giả thiết nghiên cứu của ta. Do đó, các kết quả có ý nghĩa thống kê thường là những phát hiện hỗ trợ một giả thiết nghiên cứu.
Yêu cầu có ít hơn 5 cơ hội trong 100 kết quả nghiên cứu là do ngẫu nhiên là yêu cầu tối thiểu cho ý nghĩa thống kê. Khi yêu cầu này được đáp ứng, ta cho rằng kết quả là đáng kể ở mức 0,05. Nếu nhà nghiên cứu tính toán rằng có ít hơn 1 cơ hội trên 100 rằng kết quả của họ là do thực tế ngẫu nhiên trong quá trình lấy mẫu, thì kết quả có ý nghĩa ở mức 0,01. Nếu có ít hơn 1/1000 cơ hội cho rằng các phát hiện là do lỗi lấy mẫu, thì kết quả có ý nghĩa ở mức 0,001. Vì vậy, có một số cấp độ (level) ý nghĩa mà bạn có thể thấy được trích dẫn trong các bài báo khoa học.
Bởi vì ta chỉ giải quyết các vấn đề về xác suất, luôn có khả năng rằng quyết định chấp nhận hoặc bác bỏ giả thiết vô hiệu của ta là sai. Các mức ý nghĩa khác nhau chỉ ra xác suất việc bác bỏ giả thiết vô hiệu là sai lầm (và chấp nhận giả thiết nghiên cứu một cách không chính xác). Với mức ý nghĩa 0,05, có 5 trong số 100 cơ hội là ta đã mắc sai lầm khi cho rằng kết quả ta có hỗ trợ giả thiết của ta; và mức ý nghĩa 0,01 nghĩa là tỷ lệ của một kết luận sai là 1 trên 100. Mặc dù các nhà nghiên cứu cho rằng xác suất mắc lỗi dạng này khá thấp, nhưng xác suất này không bao giờ bằng không. Đây là một trong những lý do mà các nghiên cứu được thực hiện một cách thành thạo về cùng một câu hỏi có thể mang lại những phát hiện trái ngược nhau. Sự khác biệt có thể là do sự thay đổi ngẫu nhiên trong việc lấy mẫu mà không thể ngăn chặn được.
Ta tìm thấy gì khi đánh giá dữ liệu của ta liên kết việc xem TV với điểm SAT của học sinh ? Các tính toán chỉ ra rằng, với kích thước mẫu và sự thay đổi trong dữ liệu của ta, xác suất để có được mối tương quan là -0,24 một cách tình cờ là lớn hơn 20%. Đó không phải là một xác suất cao, nhưng nó không đủ thấp để bác bỏ giả thiết vô hiệu. Do đó, phát hiện của ta không đủ mạnh để cho phép kết luận rằng ta ủng hộ giả thiết của mình.
Thống kê và Thực nghiệm luận
Tóm lại, các kết luận dựa trên nghiên cứu thực nghiệm chỉ là vấn đề của xác suất, và luôn có khả năng các kết luận đó là sai. Tuy nhiên, hai sức mạnh lớn của cách tiếp cận thực nghiệm là độ chính xác (precision) và không dung thứ lỗi (intolerance of error). Các nhà khoa học có thể cung cấp cho bạn những ước tính chính xác về khả năng các mối liên hệ của họ là sai, và bởi vì họ không dung thứ lỗi, họ giữ xác suất này cực kỳ thấp. Sự phụ thuộc vào số liệu thống kê cho phép họ đạt được những mục tiêu này.
Vân Anh dịch và tổng hợp
Nguồn: Wayne Weiten, Psychology: Themes and Variations, 10th Edition, 2017, Cengage Learning
Bản quyền bài viết thuộc về Viện Tâm Lý Học & Truyền Thông. Khi chia sẻ, cần phải trích dẫn nguồn đầy đủ tên tác giả và nguồn là “Nguồn: Viện Tâm Lý Học & Truyền Thông”. Các bài viết trích nguồn không đầy đủ, đều không được chấp nhận và phải gỡ bỏ.
Fanpage Viện Tâm Lý Học & Truyền Thông: https://www.facebook.com/InstituteofPsychologyandMedia