من البيانات الاصطناعية إلى تقويم الأداء الحقيقي — كيف تنجح نظرية التعميم حيث تفشل النظرية التقليدية
كل مثال يُبرز درساً مختلفاً لا يمكن اكتشافه بالنظرية التقليدية
كيف تتغير تباينات الخطأ والمعاملات عند تغيير عدد الفقرات والمناسبات؟ وما حدود صيغة سبيرمان-براون؟
التصميم المتداخل يُعطي تباينات خطأ أصغر ومعاملات أكبر من المتقاطع مع نفس أحجام العينات. لماذا؟
خفض عدد التقديرات قد يرفع المعامل! نتيجة مستحيلة في النظرية التقليدية ولكنها منطقية في التعميم.
σ²(pt) أكبر من σ²(p) — المهام أهم من المقيمين. مقيّم واحد قد يكفي. نتائج نموذجية لتقويمات الأداء.
مناسبة واحدة أم اثنتان؟ 4 فقرات أم 16؟ — جدول شامل يُجيب على الأسئلة العملية
| n′_o / n′_i | σ²(τ) | σ²(δ) | σ²(Δ) | Eρ² | Φ | SEM(δ) |
|---|---|---|---|---|---|---|
| 1 مناسبة / 4 فقرات | 0.553 | 0.69 | 0.85 | 0.44 | 0.39 | 0.83 |
| 1 مناسبة / 8 فقرات | 0.553 | 0.50 | 0.62 | 0.52 | 0.47 | 0.71 |
| 1 مناسبة / 16 فقرة | 0.553 | 0.41 | 0.51 | 0.57 | 0.52 | 0.64 |
| 2 مناسبتان / 4 فقرات | 0.553 | 0.31 | 0.45 | 0.64 | 0.55 | 0.56 |
| 2 مناسبتان / 8 فقرات | 0.553 | 0.21 | 0.32 | 0.72 | 0.63 | 0.46 |
| 2 مناسبتان / 16 فقرة | 0.553 | 0.16 | 0.25 | 0.78 | 0.69 | 0.40 |
عند وجود أكثر من وجه عشوائي — مضاعفة الفقرات لا تعني مضاعفة الثبات وفق سبيرمان–براون
بيانات دراسة G نفسها — لكن تصميم D مختلف → خطأ أصغر ومعاملات أكبر
| n′_o / n′_i | σ²(τ) | σ²(δ) | σ²(Δ) | Eρ² | Φ | مقارنة بـ p×I×O |
|---|---|---|---|---|---|---|
| 1 مناسبة / 4 فقرات | 0.553 | 0.69 | 0.85 | 0.44 | 0.39 | = نفس النتيجة |
| 1 مناسبة / 8 فقرات | 0.553 | 0.50 | 0.62 | 0.52 | 0.47 | = نفس النتيجة |
| 2 مناسبتان / 4 فقرات | 0.553 | 0.24 | 0.32 | 0.70 | 0.63 | ↑ vs 0.64 في المتقاطع |
| 2 مناسبتان / 8 فقرات | 0.553 | 0.17 | 0.23 | 0.76 | 0.71 | ↑ vs 0.72 |
| 2 مناسبتان / 16 فقرة | 0.553 | 0.13 | 0.18 | 0.81 | 0.75 | ↑ vs 0.78 |
مستحيل في النظرية التقليدية — لكن منطقي تماماً في نظرية التعميم عند وجود σ²(pT) كبير
| n′_t مهام / n′_r مقيمين | إجمالي التقديرات | σ²(δ) | σ²(Δ) | Eρ² | Φ | الكفاءة |
|---|---|---|---|---|---|---|
| 2 / 6 | 12 | 0.44 | 0.70 | 0.50 | 0.44 | ⬇ أسوأ مع أكثر تقديرات |
| 3 / 4 | 12 | 0.34 | 0.58 | 0.56 | 0.49 | |
| 4 / 3 | 12 | 0.27 | 0.49 | 0.62 | 0.53 | |
| 6 / 2 | 12 | 0.21 | 0.40 | 0.68 | 0.58 | ✅ أفضل! |
| 5 / 2 | 10 (أقل!) | 0.24 | 0.43 | 0.58 | 0.50 | ⭐ 10 تقديرات أفضل من 12! |
5 مهام علمية × 3 مقيمين × طلاب كاليفورنيا — Shavelson وآخرون (1993)
| n′_t مهام / n′_r مقيمين | σ²(τ) | σ²(δ) | σ²(Δ) | Eρ² | Φ |
|---|---|---|---|---|---|
| 1 / 3 | 0.298 | 0.532 | 0.560 | 0.36 | 0.35 |
| 2 / 3 | 0.298 | 0.287 | 0.314 | 0.51 | 0.49 |
| 3 / 3 | 0.298 | 0.198 | 0.222 | 0.60 | 0.57 |
| 5 / 1 | 0.298 | 0.147 | 0.162 | 0.67 | 0.65 |
| 5 / 2 | 0.298 | 0.126 | 0.141 | 0.70 | 0.68 |
| 5 / 3 | 0.298 | 0.116 | 0.131 | 0.72 | 0.69 |
كل درس من أمثلة هذا القسم يكشف قصوراً في الإطار التقليدي أحادي الوجه
تباين الخطأ له مصادر متعددة. فهمها — وليس مجرد رقم واحد — هو المفتاح للقرارات التصميمية الصحيحة.
لفهم تباين الخطأ يجب النظر في المكوّنات وأحجام عينات D معاً. رقم σ²(pT) وحده لا يكفي بدون n′_t.
سبيرمان–براون لا تنطبق. "أكثر تقديرات = أعلى ثبات" ليست قاعدة مطلقة. نظرية التعميم أدق وأشمل.
تباين درجة الكون لا يتأثر بأحجام العينات. كل التحسن في الاعتمادية يأتي من خفض تباينات الخطأ.
التصميم p×(I:O) يُعطي معاملات أعلى من p×I×O بنفس الأحجام لأنه يُعاين مزيداً من شروط الفقرات.
عندما يكون σ²(pt) كبيراً — زيادة المهام أكثر فاعلية من أي شيء آخر. مثل CAP وكثير من تقويمات الأداء.
مناسبة الاختبار، مناسبة التقدير، سلم التقدير، نمط الاختبار — كلها أوجه محتملة لا تظهر في الجدول لكنها تؤثر في الخطأ.