البرمجة

دوال التوزيع التراكمي

التمهيد النظري لدوال التوزيع التراكمي

منذ بزوغ الإحصاء الرياضي كأداة مركزية في العلوم الطبيعية والاجتماعية، احتلت دوال التوزيع التراكمي—أو ما يُعرف اختصارًا بالـ CDF—مكانة حيوية في توصيف السلوك الاحتمالي للمتغيرات العشوائية. تظهر أهميتها في قدرتها على تلخيص كامل المعلومات الخاصة بالتوزيع الاحتمالي عبر دالة واحدة متزايدة، مستمرة (أو شبه مستمرة)، ومحاطة بحدّين ثابتين: الصفر والواحد. تبدأ المقالة بسرد الأصول الرياضية لدوال التوزيع التراكمي، وتتدرّج إلى توضيح تطبيقاتها العملية في مجالات الإحصاء الاستنتاجي، علم البيانات، الهندسة، العلوم الصحية، والاقتصاد القياسي، مع إبراز الروابط المفاهيمية بينها وبين دوال الكثافة الاحتمالية (PDF) ودوال الكتلة الاحتمالية (PMF).


1. التعريف الرسمي والخصائص الجوهرية

1.1 الصياغة الرياضية

لأي متغير عشوائي XX معرف على فضاء احتمالي (Ω,F,P)(\Omega,\mathcal{F},P)، تُعرَّف دالته التوزيعية التراكمية FXF_X بالصيغة:

FX(x)=P(Xx),xR.F_X(x)=P(X\le x),\qquad x\in\mathbb{R}.

يتضح من التعريف أن FXF_X تحقّق الشروط التالية بشكل عام:

الخاصية التعبير الرياضي تفسير تطبيقي
التزايد إذا x1<x2x_1 فإن FX(x1)FX(x2)F_X(x_1)\le F_X(x_2) تراكمي؛ لا تتراجع أبدًا
الحدود limxFX(x)=0\lim_{x\to -\infty}F_X(x)=0 و limx+FX(x)=1\lim_{x\to +\infty}F_X(x)=1 يحتضن كل الاحتمال على محور الأعداد الحقيقية
الاستمرارية اليمنى x:limh0FX(x+h)=FX(x)\forall x: \lim_{h\downarrow0}F_X(x+h)=F_X(x) تسمح بتوصيف دقيق عند نقاط القفز (للمتغيرات المنفصلة)
اختلاف النوع إذا كان XX مستمرًا يصبح FXF_X مستمرًا بالكامل؛ وإذا كان متقطعًا يظهر على FXF_X قفزات بحجم يساوي الاحتمال عند تلك النقاط يُسهّل استنباط نوع المتغير العشوائي من شكل FXF_X

1.2 الفرق بين CDF وPDF/PMF

تتعلّق دالة الكثافة الاحتمالية fXf_X أو دالة الكتلة الاحتمالية pXp_X بالمشتقة (أو الفرق) البسيط لـ CDF:

fX(x)=ddxFX(x)للمتغير المستمر,pX(x)=FX(x)FX(x)للمتغير المتقطع.f_X(x)=\frac{d}{dx}F_X(x)\quad\text{للمتغير المستمر},\qquad p_X(x)=F_X(x)-F_X(x^{-})\quad\text{للمتغير المتقطع}.

يُبرز الجدول الآتي الفروق الجوهرية:

الجانب CDF PDF/PMF
البُنية متزايدة من 0 إلى 1 تُدمج إلى 1
الوحدات بلا وحدات مقلوب وحدة المتغير
الاستخدام حساب الاحتمالات بين فواصل مباشرة الحصول على الكثافة الموضعية
التمثيل البياني منحنى سُلّمي أو أملس أحادي الاتجاه منحنى على محور الاحتمال أو أعمدة منفصلة

2. البناء النظري لدوال التوزيع التراكمي

2.1 منظور مبرهنة ليبِغ

يُشكّل مفهوم القياس اللبنة الأولى لفهم كيف تُربَط مجموعات الأحداث بإجراءات متكاملة، ما يتيح استخدام تكامل ليبِغ في اشتقاق خصائص CDF. فكل دالة توزيع تراكمية هي دالة قياسية خاضعة لشروط بورل.

2.2 العلاقة مع توابع بُوظمان ومبرهنة تحويل المتغيرات

عند دراسة التحويلات الخطية أو العامة للمتغيرات العشوائية، تُستفاد مبرهنة تحويل المتغيرات من مرونة CDF. إذا كان Y=g(X)Y=g(X) دالة رتيبة، يصبح FY(y)=FX(g1(y))F_Y(y)=F_X(g^{-1}(y)). يعزز هذا المفهوم قدرة الباحث على اشتقاق توزيعات معقدة انطلاقًا من توزيعات أولية أبسط.


3. أساليب التقدير العملي لدالة التوزيع التراكمي

3.1 التقدير التجريبي (Empirical CDF)

يُعدّ التقدير التجريبي واحدًا من أقدم الأساليب وأكثرها بساطة. لعينة x1,,xnx_1,\dots,x_n معرف عليها الترتيب:

F^n(x)=1ni=1n1{xix}.\widehat{F}_n(x)=\frac{1}{n}\sum_{i=1}^{n}\mathbf{1}_{\{x_i\le x\}}.

يمتاز هذا التقدير بخاصية غلِفنكو–كانتِلّي التي تضمن تقاربًا شبه مؤكّد نحو CDF الحقيقي مع ازدياد حجم العينة.

3.2 مصافّي كابلان–ماير للبيانات المراقَبة ناقصًا

في التحاليل الطبية وبقاء المرضى، غالبًا ما تكون هناك رقابة يمينية. تُعالج هذه الحالة باستخدام دالة كابلان–ماير التي تعدّل خطوات الـ CDF التجريبي لاستيعاب المعلومات المفقودة.

3.3 التقدير شبه المعلمي واللا‑معلمي

تُستخدم نماذج سابقة المعرفة—كالتوزيع اللوغاريتمي الطبيعي أو الغاما—لملاءمة البيانات عندما تكون هناك فرضيات معقولة، بينما يُفضَّل التقدير اللا‑معلمي (kernels) عند غياب ذلك لضمان تحيّز ضئيل.


4. تطبيقات عملية منتقاة

4.1 مراقبة الجودة الصناعية

يُحدد مهندسو الجودة حدود قبول الإنتاج عبر حوسبة حدودٍ مئوية (quantiles) من CDF للانحرافات المسموح بها.

4.2 التمويل وإدارة المخاطر

في قياس القيمة المعرضة للخطر (VaR)، يُستخدم معكوس CDF (دالة الكوانتايل) لتحديد الخسارة القصوى عند مستوى ثقة معين.

4.3 معالجة الإشارات

يستعمل مبدأ مطابقة التوزيعات (histogram matching) في تحسين التباين، حيث يجري نقل CDF لصورة مرجعية إلى أخرى عبر معكوس الدالة.

4.4 الذكاء الاصطناعي والتعلّم الآلي

في خوارزميات الترتيب (ranking) وتحديد العتبات التكيفية، يُعوَّل على CDF النموذجية للطبقات اللوجستية لوصف احتمال الانتماء لفئة معينة عند تجاوز حد محدد.


5. معايير البرمجة وحساب CDF في البيئات الرقمية

5.1 الخوارزميات العددية

يُراعى في تصميم الخوارزميات تعقيد O(nlogn)O(n\log n) لفرز البيانات وتأثير الدقة العددية عند حساب التكاملات العددية—خصوصًا للتوزيعات الثقيلة الذيل مثل ليفي.

5.2 مكتبات برمجية شائعة

  • Python / SciPy: scipy.stats..cdf

  • R: pnorm, pgamma

  • Julia: Distributions.cdf
    تُقدّم هذه المكتبات واجهات موحّدة لحساب القيم المئوية ومعكوس CDF، ما يسهّل تضمينها في نماذج المحاكاة وسير العمل التحليلي.


6. الحدود النظرية والتحديات

6.1 المشكلات ذات الأبعاد العالية

يثبُت استحالة وصف التوزيعات المتعددة الأبعاد بواسطة CDF وحيد؛ إذ يلزم استخدام نظريات كوبولا لفصل البنية الهامشية عن الترابط.

6.2 استقرار التقدير تحت العينات الصغيرة

عندما تكون nn صغيرة، يُنصح باستخدام طرق بوتستراب لتقدير مدى عدم يقين F^n\widehat{F}_n وتعديل الثقة في النتائج.


7. دراسات حالة

7.1 تحليل موثوقية أنظمة الطاقة

أظهر تطبيق CDF لوصف زمن الفشل أن اختيار توزيع ويبول يُعطي تقديرًا أدق لمنحنى البقاء مقارنة بالتوزيع الأسي، ما أدى إلى تحسين جدول الصيانة الوقائية بنسبة 18 ٪.

7.2 تقييم سياسات الصحة العامة

عند تحليل انتشار مرضٍ ما، مكّن تقاطع CDF بين الفئات العمرية من تحديد نقطة قطع ساعدت في توجيه جرعات اللقاح للفئة الأكثر عرضة، متيحةً تقليل العدوى بنسبة 12 ٪ في عام واحد.


الخاتمة

يُعدُّ فهم دوال التوزيع التراكمي ضرورة أساسية لكل ممارس للإحصاء وتحليل البيانات. فهي توفّر نظرة شمولية على سلوك المتغيرات العشوائية، وتشكّل القاعدة التي يبنى عليها حساب الكوانتايلات، اختبارات الفرضيات، وتحليل المخاطر. بتوظيف خصائصها الرياضية الفريدة مع أدوات التقدير الحديثة، يمكن للباحث تحقيق تحليلات دقيقة وقرارات مبنية على أسس كمية صلبة عبر مختلف المجالات العلمية والصناعية.


المراجع

  1. Casella, G., & Berger, R. L. Statistical Inference. Duxbury Press, 2nd ed., 2002.

  2. Wasserman, L. All of Statistics: A Concise Course in Statistical Inference. Springer, 2004.