58 الفصل العاشر
0 استخدام تسميات الأصتاف
هناك ثلاثة طرق أساسية لكشف التشوهات : غير الراقبة (07:1960 8800 ؛ والراقبة ؛ وشبه
المراقبة 20 ع»-ن«2») . الفارق الأساسي هو إلى أي حد تتوفر تسميات الأصناف (نشوه
(لولعةدعة) أو طبيعي (ل00002)) من أجل بعض البيانات على الأقل
الكشف المُراقب عن التشوهات (61000عا06 لاه 2000 5008165860). تتطلب
الكشف الراقب عن التشوها
بات التصنيف ١
القطع 75
الكشف غير المُراقب عن التشوهات (صمتاععاعل لإ21 20001 1/4580 050060لا). لا تتوفر
من الحالات العملية تسميات الأصناف. والغاية في حالة كهذه هي إسئاد
درجات (02<ه) (أو تسمية) إلى كل مثيل (008ه) يعكس إلى أي درجة يكون المثيل
تشوهاً. لاحظ أن وجود كثير من التشوهات التي تكون مشابهة لبعضها البحض قد
المبوعع :عله 00. وبالتالي فإنه لكي يكون الكشف غير الراقب عن التشوهات
بة أو يكون ليا درجات شذوذ متخفضة
ناجحاً؛ يجب أن تكون ١
الكاثنات العلب
بيانات التدريب أحياناً بيانات طبيعية لها تسمية (088160» ولكن لأ توجد
معلومات عن الكائنات المشوهة . الغا في الوضع شب رقب حي بجا تسمية 7
درجة التشوه من أجل مجموعة من الكا عن الكاثنات
بة الُسمَّاة. لاحظ أنه في هذه الحالة يكون وجود كثير من الكاا
إعطاؤها درجة شذوذ لا يؤثر على تقييم
كشف التقوهات 59
يمكن استخدام كافة مخماءلات الكشف عن التشوهات المشروحة في هذا الفصل في النمط
أجل الأصناف النادرة لوفعاك 8:) المشروحة في المقطع 75
0 مسائل هامة
هناك تشكيلة
عة من المسائل الهامة التي تجب معالجتها عند التعامل مع الت:
واحدة هي سؤال عن ما إذا كانت قيمة تلك السمة تلكائن
سمات؛ فقد تكون لبعض هذه السمات قيم شاذة؛ فيما تكون لسماته الأخرى قيم عادية
انفراد. من الشائع على سبيل المثال أن يكون هناك أشخاص طوليم قلمين (أطفال)
0 باوند ؛ ولكن من غير الشائع أن يكون هناك شخص طوله قلما
أن يحدد التحريف العام كيف سيتم استخدام قيم سمات متعددة لتحديد ما إنا كان
الكائن تشوّها أم لا. وهذه مسألة هامة بشكل خاص عندما تكون أبعاد البيانات عالية
المنظور الشامل في مقابل المحلي. قد يبدو كان غير اعتيادي بالنسبة لكافة الكائنات ؛
أقدام و 5 إنشات طويلاً بشكل غير معتاد ب
للاعبي كرة السلة ا محترفين
ل المثال أن يكون شخص
النسبة للمجتمع الإحصائي الكلي ؛ ولكن
إلى أي درحة تكون نقطة تشوها. يتم تقييم ما إذا كان كائن تشوهاً بواسدلة بعض التقنيات
بطريقة ثنائية: الكاثن إما تشوه أو ليس كذلك. لا يعكس هذا عادة الواقع الكامن بأن بعض
الكاثنات مفرطة في التشوء مقارنة ببعضها الآخر. وبذلك فإن من الضروري أن يكون
لدينا تقييم لدرجة كون كان هو تشوه. يُعرف هذا التقييم بلرجات التشوه أو الشذوذ
تحديد تشوه واحد في كل مرة أم تحديد عدة تشوهات دفعة واحدة. يتم في بعض
يتم تكرار العملية. أما في ا
880 الفصل العاشر
ات التي تعاول تعديد تشوه في كل مرة عرضة لمشكلة تُعرف بالحجب (608ا0ة0: حيث
التي تكشف عدة
اثنات طبيعة على
ود عدة تشوهات يجب وجود الكل . ومن ناحية أخرى فإ
ات شاذة قد تواجه مشكلة الشمر (ومتهاصة»») ؛ حيث
تحدث لأن التشوهات تحرف نموذج البيانات.
مثل الاستدعاء لللههة») والتحقيق (ممتعةة:2) ومعدل الإنجا؛
ستكون أكثر ملاءمة من الدقة (2800:807). أما إذا كانت تسميات الأصناف غير متوفرة؛ فإن
من الممكن الحكم على فعالية الكشف عن الشواذ من خلال التحسن في النموذج بمجرد إزالة
ويمكنها بعدها تحديد فئة ١ ِ
هو “008 حيث 0# هو عدد الكائنات؛ لأن من الممكن الحصول على المعلومات التي
بن عا الصقيد لزغتي
في حالات خاصة؛ كأن 7 الأبعاد. وذلك باستخدام بنية بيانات
وخوارزميات خاصة. سنتحدث في التمرين 3 عن التعقيد الزمني للطرق الأخرى
خريطة الطريق
تشرح المقاطع الأربعة القادمة عدة فئات رئيسة لدارق الكشف عن التشوه
أكثر
ضمن كل من هذه الفئات. سنتبع في هذه المقاطع الخبرة ونستخدم المصطلح شاذ بدلاً من
واستناداً إلى القرابة ؛ واستنادً إلى الكثافة ؛ واستنادا إلى العناقيد. سندرس تقنية واحدة
كشف التقوهات 8
0 الطرق الإحصائية
يع احتمالي ودراسة أرجحية خضوع الكائنات لذلك النموذج. يعبر ١
0 عن هذه الفكرة
التعريف 2.10 (التعريف الإحصائي للكائن الشاذ). الكائن الشاذ هو كائن ذو احتمال
بناء نموذج
عريف
ضعيف بالنسبة لنموذج التوزيع الاحتماني لبيانات
يتم إنشاء نموذج توزيع احتماني من البيانا
افترضنا أن البيانات خاضعة لتوزيع غوصي؛ فإن من الممكن تقذير اللتوسط لصي
وسطاء توزيع
والانحراف المعياري لبنا التوزيع بحساب
تقدير احتمال كل كائن يخضع لهذا التوزيع
بوسط والاغراف المعياري للبيانات. يمكن بعذها
ثم اشتقاق تشكيلة واسعة من الاختبارات الإحصائية استناداً إلى التعريف 2.10 بهدف الكشف
تكون كثير من اختبارات التنافر حذه متخصصة وتفترض وجود مستوى معين من المعرفة
الإحصائية تتجاوز نلاق هذا الكتاب. ونبذا فإننا سنوضح الأفكار الأساسية مع بعض الأمثلة
مسائل هامة
تحديد توزيع مجموعة بيانات. ففي حين يمكن توصيف الكثير من أنواع البيانات من خلال
عدد صغير من التوزيعات الشائعة؛ كالتوزيع الفوصي ل05860ة0): وتوزيع بواسون
مقاط أو ثنائي الحد (ل8هل0هنن) ؛ فإن من الشائع ١ أن تكون هناك مجموعات
بيانات تضع لتوزيعات غ ية. فإذا تم بالطبع اختيار نموذج خاطئ فإن من الممكن أن يتم
بشكل خاطئ تعريف كائن على أنه شاذ. يممكن على سبيل المثال أن تتم غذجة البيانات على أنها
تأتي من توزيع غوصي ؛ وتكن من الممكن أن تكون في الواقع من توزيع يكون هناك احتمال أعلى
لمقارنة بالتوزيع الغوصي) أن توجد فيه قيم بعيدة جدا عن المتوسط . من الشائع عمليا وجود
عدد السمات المستخدمة. يتم تطبيق معذلم تقنيات الكشف عن الشواذ إحصائيا على سمة
واحدة؛ ولكنه قد تم تعريف بعض التقنيات من أجل بيانات متعددة التحولات 1846 توثاليم)
كشف عن الشواذ استناداً إلى نماذج كهذه. وعلى الرغم من أنها أكثر 3
تكون أكثر ء إذ أنها تكون صعبة الفهم والاستخدام معا. من الضروري على سبيل
المثال تعريف التوزيعات قبل أن نتمكن من تصنيف الكائنات على أنها شواذ. راجع شرح
النماذج المختلطة وخوارزمية 54 الواردة في المقطع 2.39
تطوير مخاملات
0 الكشف عن لشواذ في توزيعات طبيعية وحيدة لتغير
يعتبر التوزيع الفوصي (الطبيعي) أحد أكثر التوزيعات استخداماً في الإحصاء ؛ وسنستخدمه
لشرح طريقة بسيطة للكشف عن الشواذ إحصائا. يمتلك هذا التوزيع وسيطين هما عر
0 تابع الكثافة ل (1 108
تمثيله باستخدام الصيغة (9عرالا. يعرض الشكل
الكثافة الاحتمالية
الشكل 30.1 . تبع الكثافة الاحتمالية لتوزيع غوصي بمتوسط 0 وانحراف معياري 1
كشف التقوهات 883
احتمال قدره 0.0027 أن يقع كاثن بعد المنعلقة المركزية بين 3+ من الانحرافات المعيارية
أعم نقول أنه إذا كان » ثابت و # هي قيمة سمة الكاثن؛ فإن احتمال أن يكون
بشكل سريع عندما تزداد فيمة ١١
ابت ». تكن اك < [:060:م <». يعرض الجدول 1.10 بعض
تكون أكبر من 4 المحرافات معيارية من المتوسط يكون احتمال وقوعها واحد في العشرة آلاف
وانحراف معياري 1
عمن أجل (10)0,1. 0
معدم 29
وما أن بُحد القيمة » هن مركز التوزيع (10)0,1 يتعلق مباشرة باحتمال القيمة؛ فمن المكن
استخدامه كأساس لاختبار ما إذا كان كائن (قيمة) شاذاً أم لاكما سنبين في ١
عريف 3.10
التعريف 3.10 (الكائن الشاذ من أجل سمة وحيدة تخضع للتوزيع الغوصي (1/)0,1).
سمة » تخضع للتوزيع الغوصي بمتوسط 0 وانحراف معياري 1 شاف إذا كانت:
010 مخض
من الضروري لاستخدام هذا التعريف تحديد قيمة ل». فمن منغلور كون القيم (الكاثنات) غير
الاعتيادية تشير إلى قيمة من توزيع مختلف » فإن » تشير إلى احتمال أن نقوم بشكل خاطئ
نادرة من التوزيع (100,1 ؛ فإنءه تعدد درجة النُدرة
84 الفصل العاشر
إذا كان توزيع سمة تتم دراستها (من أجل الكائنات الطبيعية) توزيع غوصي بمتوسط عر
وانحراف معياري 5 (أي أنه توزيع (8 14 ؛ فإننا سنحتاج لكي نتمكن من استخدام التعريف
لها توزيع (10)8,1. وبشكل أدق
جات 2 (2500:8)). وعلى أية حال
سل العينة 7 والانحراف المعياري للعيئة
وير (:اد«ة5) السمة » لتصبح سمة جديد
فإن عر وت مجهولين عادة
+. يعمل هنا الأمر بشكل جيد في الحالة العملية عندما يكون عدد المشاهدات كبيرا. نلاحظ
على أية حال أن توزيع # ليس فعلياً (1 ,100. سنتحدث عن إجرائية إحصائية أكثر تعقيداً
تقديرهما باستخدام
(اختبار 8تانا000) في التمرين 7
سترغب من أجل المشاهدات الغوصية متعددة المتحولات بأخذ طريقة تشبه تلك المعملاة من
أجل توزيع غوصي أحادي التحول سرغب عمليا بتصنيف نقاط على أنها شاذة إذا كان لها
احتمال منخفض بالنسبة للتوزيع اندر للبيانات. علاوة على ذلك فإننا سنرغب بالحكم على
هذا من خلال اختبار بسيط ؛ كأ مثلاً بُح النقعلة عن مركز التوزيع
وبسبب الارتباط (500اه0008) بين المتحولات المختلفة (السمات)؛ فإن التوزيع العلبيعي
متعدد المتحولات لا يكون متناظراً 0369 00) بالنسبة لمركزه. يعرض الشكل 210 الكثافة
يع غوصي متعدد المتحولات ثناثي الأبعاد له متوسط (0 ,0 ومصفوفة تباين
فإذا كنا سنستخدم حد عتبة (000ة5ط) بسيط لتحديد ما إذا كان كائن شاذاً ؛ فإننا سنحتاج
مشترك الستطمه ععمعتةلاه) هي +
إلى مقياس مسافة يأخذ بعين الاعتبار شكل توزيع البيانات. تي
عن هذا المقياس . راجع المعادئة 14.2 تُحملي المعادثة 2.10 مسافة قتتامعة ل2طع14 بين نقطة * وبين
متوسط البيانات 7
حيث 5 هي مصفوفة التباين المشترك للبيانات.
الكثافة 5 4 3 ١ 4 + +4 +
الشكل 2.30 الكثافة الاحتمالية لتوزيع غوصي تم استخدامه لتوليد نقاط الشكل 3.10
من السهل أن نبين أن مسافة فتنام0ةلقطة/1 بين نقطلة
وسط التوزيع المقابل ترتبط
إحتمال تلك النقطة. إن مسافة #تتافتة 1/8 تسا
مباشرة
لوغاريتم (008 الكثافة
للنقملة مضافاً إليها ثابت . راجع التمرين 5
الشكل 310 مسافة كنناه0 148:1 (من متوسط التوزيع) من أجل نقاط في مجموعة بيانات
البيانات البالغ عددها 2000 نقعلة فقد تم توليدها باستخدام التوزيع المستخدم في الشكل 210
كنا0ة !14808 كبيرة. وعلى أية حال ؛ وبالرغم من أن له أقرب إلى
خط أسود عريض عند (0,0) إذا اعتبرنا أننا نأخذ المسافة
المركز (أشرثا
التوزيع بع
في حين أن للنقعلة هه مسافة إقليدية هي 44/2 ومسافة 5ننا0 1482120 هي 35 .
88 الفصل العاشر
مسافة 5 4 3 2 ١ ة ١ 2 _د9 _ه9 ”9”ك
الشكل 3.10 .| مسافة 813500515 للنقاط من مركز مجموعة نقاط عددها 2002 ثنائية الأبعاد
0 طريقة لنموذج للختلط للكشف عن لتشود
يقدم هذا المقطع تقنية كشف عن التشوه تستخدم طريقة النموذج المختلط . ففي العنقدة (راجع
المقطع 229) ؛ تفترض طريقة النموذج المختلط أن البيانات تأتي من خليط من التوزيعات
الغاية في كلتا حالتي العنقدة والكشف عن التشوهات هي تقدير وسطاء التوزيعات بهلف
خوارزمية 514 لتقدير وسطاء كل توزيع احتمالي . تستخدم تقنية الكشف عن التشوه الواردة