[ §4.2 · أمثلة النموذج العشوائي ]

أربعة أمثلة
تكشف قوة
نظرية التعميم

من البيانات الاصطناعية إلى تقويم الأداء الحقيقي — كيف تنجح نظرية التعميم حيث تفشل النظرية التقليدية

4.2.1
p × I × O
4.2.2
p × (I:O)
4.2.3
p × (R:T)
4.2.4
CAP أداء

نظرة شاملة

أربعة أمثلة — أربعة دروس

كل مثال يُبرز درساً مختلفاً لا يمكن اكتشافه بالنظرية التقليدية

§4.2.1 — p × I × O
تأثير أحجام العينات

كيف تتغير تباينات الخطأ والمعاملات عند تغيير عدد الفقرات والمناسبات؟ وما حدود صيغة سبيرمان-براون؟

§4.2.2 — p × (I:O)
المتقاطع مقابل المتداخل

التصميم المتداخل يُعطي تباينات خطأ أصغر ومعاملات أكبر من المتقاطع مع نفس أحجام العينات. لماذا؟

§4.2.3 — p × (R:T)
النتيجة المتناقضة

خفض عدد التقديرات قد يرفع المعامل! نتيجة مستحيلة في النظرية التقليدية ولكنها منطقية في التعميم.

§4.2.4 — CAP أداء
تقويم الأداء الحقيقي

σ²(pt) أكبر من σ²(p) — المهام أهم من المقيمين. مقيّم واحد قد يكفي. نتائج نموذجية لتقويمات الأداء.

📋 البيانات المُستخدَمة في هذا القسم
البيانات الاصطناعية رقم 3 (جدول 3.3)
تصميم G: p × i × o · np=10، ni=4، no=2
تُستخدم في §4.2.1 و§4.2.2
σ²(p)=.553, σ²(i)=.442, σ²(o)=.007
σ²(pi)=.575, σ²(po)=.101, σ²(io)=.157, σ²(pio)=.935
البيانات الاصطناعية رقم 4 (جدول 3.4)
تصميم G: p × (r:t) · np=10، nt=3، nr=4
تُستخدم في §4.2.3
σ²(p)=.473, σ²(t)=.325, σ²(r:t)=.648
σ²(pt)=.560, σ²(pr:t)=2.380
§4.2.1 — الجدول 4.4

تصميم p × I × O — كيف يتأثر الخطأ بأحجام العينات؟

مناسبة واحدة أم اثنتان؟ 4 فقرات أم 16؟ — جدول شامل يُجيب على الأسئلة العملية

🎛️ حاسبة دراسة D — تصميم p × I × O
n′_i (فقرات)
4
n′_o (مناسبات)
1
σ²(τ)
0.553
σ²(δ)
Eρ²
Φ
📊
الاستنتاج
n′_o / n′_i σ²(τ) σ²(δ) σ²(Δ) Eρ² Φ SEM(δ)
1 مناسبة / 4 فقرات 0.5530.690.850.440.390.83
1 مناسبة / 8 فقرات 0.5530.500.620.520.470.71
1 مناسبة / 16 فقرة 0.5530.410.510.570.520.64
2 مناسبتان / 4 فقرات 0.5530.310.450.640.550.56
2 مناسبتان / 8 فقرات 0.5530.210.320.720.630.46
2 مناسبتان / 16 فقرة 0.5530.160.250.780.690.40
📊 مخطط صندوق–عارضة — الشكل 4.3 (الفكرة)
σ²(τ) — ثابت
σ²(δ) فوقه
زيادة σ²(Δ) عن σ²(δ)
✅ σ²(τ) = 0.553 ثابت دائماً
📈 زيادة n′_i أو n′_o تُنقص σ²(δ) وترفع Eρ²
⚠️ عند n′_o=1: σ²(pO) تسهم كثيراً في الخطأ النسبي
❌ σ²(Δ) > σ²(δ) دائماً
اكتشاف مهم

صيغة سبيرمان–براون لا تنطبق هنا!

عند وجود أكثر من وجه عشوائي — مضاعفة الفقرات لا تعني مضاعفة الثبات وفق سبيرمان–براون

📐 مقارنة: n′_o = 2، n′_i = 4 → مضاعفة الفقرات إلى 8
سبيرمان–براون
Eρ̂² = 2 × 0.64 / (1 + 0.64)
0.78
التنبؤ
التعميم G
دراسة D: n′_o = 2، n′_i = 8
0.75
الحقيقي
لماذا تفشل صيغة سبيرمان–براون؟
سبيرمان–براون تقسم جميع مكوّنات σ²(δ) على نفس العدد (2):
σ²(pI) ÷ 2  ·  σ²(pO) ÷ 2  ·  σ²(pIO) ÷ 2
لكن نظرية التعميم تُبقي σ²(pO) ثابتاً مهما زادت الفقرات! لأن σ²(pO) لا علاقة له بعدد الفقرات n′_i.
σ²(δ) ← σ²(pO)/n′_o  يبقى ثابتاً عند زيادة n′_i فقط
🚫
الخلاصة الجوهرية
صيغة سبيرمان–براون تنطبق فقط عند وجه عشوائي واحد (الفصل الثاني). في التصاميم متعددة الأوجه تُبالغ في التقدير وتُعطي ثباتاً أعلى من الحقيقي.
🔄 علاقة معاملات التعميم بالمعاملات التقليدية
Eρ² عند n′_o=2: يشبه ظاهرياً معامل إعادة الاختبار — لكن الفرق أن التعميم على مجموعات فقرات ومناسبات معاً، لا على نفس الفقرات
Eρ² عند n′_o=1: يشبه الاتساق الداخلي — لكن يتضمن التعميم عبر المناسبات. أنسب من KR-20 إذا كان الهدف التعميم عبر الأوقات
💡
لتقدير Eρ² في النموذج العشوائي عند n′_o=1 — يجب أن تكون n_o ≥ 2 في دراسة G حتى نتمكن من فصل σ²(po) وσ²(io) وσ²(pio)!
§4.2.2 — الجدول 4.5

تصميم p × (I:O) — المتداخل أكفأ من المتقاطع

بيانات دراسة G نفسها — لكن تصميم D مختلف → خطأ أصغر ومعاملات أكبر

📊 مقارنة النتائج عند n′_o=2، n′_i=4 (نفس الأحجام)
p × I × O
σ²(δ) = 0.31
Eρ² = 0.64

σ²(pI)÷n′_i + σ²(pO)÷n′_o + σ²(pIO)÷n′_in′_o

تداخل I في O
p × (I:O)
σ²(δ) = 0.24
Eρ² = 0.70

σ²(pO)÷n′_o + σ²(pI:O)÷n′_in′_o
السبب الجذري:
p×I×O:  σ²(pI)/n′_i  = .575/4 = .1438
p×(I:O): σ²(pi:o)/(n′_i·n′_o) = (.575+.935)/(4×2) = .1888/8 = .0719
في المتداخل: σ²(pi) يُقسَم على n′_i × n′_o بدلاً من n′_i فقط → أصغر بمقدار n′_o
n′_o / n′_i σ²(τ) σ²(δ) σ²(Δ) Eρ² Φ مقارنة بـ p×I×O
1 مناسبة / 4 فقرات 0.5530.690.850.440.39 = نفس النتيجة
1 مناسبة / 8 فقرات 0.5530.500.620.520.47 = نفس النتيجة
2 مناسبتان / 4 فقرات 0.5530.240.320.700.63 ↑ vs 0.64 في المتقاطع
2 مناسبتان / 8 فقرات 0.5530.170.230.760.71 ↑ vs 0.72
2 مناسبتان / 16 فقرة 0.5530.130.180.810.75 ↑ vs 0.78
🔑
عند n′_o=1 النتائج متطابقة في التصميمَين!
لأنه عندما تكون n′_o=1، لا فرق وظيفي بين التقاطع والتداخل. المناسبة تصبح "وجهاً خفياً" في كلا التصميمَين (مفهوم سيُناقش في §5.1.4).
§4.2.3 — الجدول 4.6 — النتيجة المدهشة!

تصميم p × (R:T) — أقل تقديرات = معامل أعلى؟!

مستحيل في النظرية التقليدية — لكن منطقي تماماً في نظرية التعميم عند وجود σ²(pT) كبير

⚡ النتيجة المتناقضة (ص117)
n′_t=2, n′_r=6
= 12 تقديراً لكل مفحوص
Eρ² = 0.50
VS
n′_t=5, n′_r=2
= 10 تقديرات فقط
Eρ² = 0.58
السبب: σ̂²(pT) = 0.560 كبير جداً! هذا يعني أن ترتيب الأشخاص يتغير من مهمة لأخرى. زيادة عدد المهام تُخفِّض تأثير σ²(pT) في σ²(δ) بشكل أكبر بكثير من زيادة المقيمين.
σ²(δ) = σ²(pT)/n′_t + σ²(pR:T)/(n′_t·n′_r) ← n′_t في المقام الأول أكثر أهمية!
n′_t مهام / n′_r مقيمين إجمالي التقديرات σ²(δ) σ²(Δ) Eρ² Φ الكفاءة
2 / 6120.440.700.500.44⬇ أسوأ مع أكثر تقديرات
3 / 4120.340.580.560.49
4 / 3120.270.490.620.53
6 / 2120.210.400.680.58✅ أفضل!
5 / 210 (أقل!)0.240.430.580.50⭐ 10 تقديرات أفضل من 12!
📊 مكوّنات تباين دراسة G — البيانات رقم 4
σ²(p)
.473
.473
قدرة الأشخاص
σ²(t)
.325
.325
صعوبة المهام
σ²(r:t)
.648
.648
تفاوت المقيمين داخل المهام
σ²(pt)
.560
.560
⭐ تفاعل شخص×مهمة — المفتاح!
σ²(pr:t)
2.380
2.380
🚨 الأكبر! تفاعل شخص×مقيم داخل مهمة
لماذا المهام أهم من المقيمين؟
σ²(pt)=0.560 يعني: ترتيب الأشخاص يتغير بشكل كبير من مهمة لأخرى. لذا زيادة عدد المهام تُحسِّن القياس أكثر بكثير من زيادة المقيمين لكل مهمة.
🎓
الدرس: النظرية التقليدية بخطئها غير المتمايز لا تستطيع اكتشاف هذه النتيجة أبداً
الخطأ غير المتمايز يجمع كل المصادر في رقم واحد. نظرية التعميم تُفصِّل المصادر وتُبيِّن أن زيادة عدد المهام تُخفِّض σ²(pT)/n′_t بشكل فعال، بينما زيادة المقيمين تُخفِّض σ²(pR:T)/(n′_t·n′_r) الذي هو أصلاً في مقام مضاعف.
§4.2.4 — الجدول 4.7

برنامج تقويم الأداء CAP — نتائج نموذجية

5 مهام علمية × 3 مقيمين × طلاب كاليفورنيا — Shavelson وآخرون (1993)

المهام الخمس في برنامج CAP
T1
حل المشكلات
الموصلية الكهربائية
T2
نظام تصنيف
الأوراق النباتية
T3
اختبارات الصخور
وتحديد الهوية
T4
قياس خصائص
الماء
T5
تحليل عينات
ماء البحيرة
n_t = 5 مهام n_r = 3 مقيمين سلم 0–4 تصميم G: p×t×r
📊 مكوّنات تباين دراسة G — برنامج CAP
σ²(p)
.298
.298
قدرة الطلاب
σ²(t)
.003
.003
المهام متشابهة الصعوبة ✓
σ²(r)
.014
.014
المقيمون متسقون تقريباً ✓
σ²(pt)
.493
.493
⭐⭐ الأكبر! الطلاب يتفاوتون بين المهام
σ²(pr)
.025
.025
تفاعل ضئيل مع المقيمين
σ²(tr)
.039
.039
تفاعل ضئيل مهمة×مقيم
σ²(ptr)
.479
.479
خطأ متبقٍّ + تفاعل ثلاثي
n′_t مهام / n′_r مقيمين σ²(τ) σ²(δ) σ²(Δ) Eρ² Φ
1 / 30.2980.5320.5600.360.35
2 / 30.2980.2870.3140.510.49
3 / 30.2980.1980.2220.600.57
5 / 10.2980.1470.1620.670.65
5 / 20.2980.1260.1410.700.68
5 / 30.2980.1160.1310.720.69
💡
مقيّم واحد قد يكفي!
الفرق بين مقيّم واحد وثلاثة مقيمين ضئيل جداً (0.67 vs 0.72). لأن σ²(r)≈0 وσ²(pr)≈0. المقيمون متسقون — المشكلة في المهام لا المقيمين.
المهام هي المفتاح!
زيادة المهام من 1 إلى 5 تُحسِّن Eρ² من 0.36 إلى 0.72. لأن σ²(pt)=0.493 كبير — المهام متفاوتة في أداء الطلاب.
⚠️ الأوجه الخفية في تقويمات الأداء
مناسبة التقدير: متى يصحح المقيّم؟ وقت الاختبار أم لاحقاً؟ وجه خفي قد يُضيف خطأ (Wainer, 1993)
سلم التقدير: هل نفس الأداء يأخذ نفس الدرجة بسلالم مختلفة؟
نمط الاختبار: أداء مباشر أم فيديو أم دفتر ملاحظات؟ (Ruiz-Primo وآخرون، 1993)
📌
σ²(pt) الكبيرة قد تكون في الحقيقة σ²(pto) — أي التفاعل مع المناسبة! غياب وجه المناسبة يُخفي هذا المصدر المهم.
خلاصة §4.2

ثلاثة دروس لا تعلّمها النظرية التقليدية

كل درس من أمثلة هذا القسم يكشف قصوراً في الإطار التقليدي أحادي الوجه

🔀

الدرس الأول: منظور متعدد الأبعاد

تباين الخطأ له مصادر متعددة. فهمها — وليس مجرد رقم واحد — هو المفتاح للقرارات التصميمية الصحيحة.

📐

الدرس الثاني: المكوّنات + الأحجام معاً

لفهم تباين الخطأ يجب النظر في المكوّنات وأحجام عينات D معاً. رقم σ²(pT) وحده لا يكفي بدون n′_t.

🚫

الدرس الثالث: الحكمة التقليدية قاصرة

سبيرمان–براون لا تنطبق. "أكثر تقديرات = أعلى ثبات" ليست قاعدة مطلقة. نظرية التعميم أدق وأشمل.

σ²(p) ثابت — الخطأ يتغير

تباين درجة الكون لا يتأثر بأحجام العينات. كل التحسن في الاعتمادية يأتي من خفض تباينات الخطأ.

تداخل > تقاطع في الكفاءة

التصميم p×(I:O) يُعطي معاملات أعلى من p×I×O بنفس الأحجام لأنه يُعاين مزيداً من شروط الفقرات.

σ²(pt) الكبيرة = زِد المهام

عندما يكون σ²(pt) كبيراً — زيادة المهام أكثر فاعلية من أي شيء آخر. مثل CAP وكثير من تقويمات الأداء.

احذر الأوجه الخفية

مناسبة الاختبار، مناسبة التقدير، سلم التقدير، نمط الاختبار — كلها أوجه محتملة لا تظهر في الجدول لكنها تؤثر في الخطأ.