التعلم الآلي: الإخفاقات النشطة والظروف الكامنة

تتقدم تطبيقات التعلم الآلي والذكاء الاصطناعي في مجالات متزايدة الأهمية مثل الطب والطيران والخدمات المصرفية والمالية وغير ذلك.
لا تشكل هذه التطبيقات الطريقة التي تعمل بها الصناعات فحسب ، بل تعمل أيضًا على تشكيل كيفية تفاعل الأشخاص واستخدام منصاتهم / تقنياتهم.


ومع ذلك ، فمن الأهمية بمكان أن تدمج الثقافة الهندسية في ML / AI وتتكيف مع المزيد من المبادئ من مجالات الهندسة الأخرى من حيث الموثوقية والمتانة في تطوير حلول لمشاكلهم.


يساعد فهم الجوانب السببية على فهم حالات الفشل ويمكن أن يساعد في تقليل مخاطر عدم توفر أو سوء سلوك أنظمة تعلم الآلة.
هناك عدد لا يحصى من المعلومات حول أي مجال تقني تقريبًا على الإنترنت. مع كل الضجيج في ML واعتماده المتزايد ، تتجسد هذه المعلومات في شكل دروس ، منشورات مدونة ، منتديات سلاك ، MOOCs ، Twitter ، من بين مصادر أخرى.
ومع ذلك ، قد يلاحظ القارئ الأكثر انتباها نمطًا معينًا في جزء من هذه القصص: في معظم الأحيان تكون حالات لشيء (أ) يعمل بشكل جيد للغاية ، (ب) أو يحقق إيرادات للشركة ، © أو كحل o وفر X٪ من حيث الكفاءة و / أو (د) كيف كان الحل التكنولوجي الجديد من أعظم العجائب التقنية التي تم بناؤها على الإطلاق.


ينتج عن هذا التصفيق في Medium ، ونشر أخبار Hacker ، ومقالات عن تقنية البوابات الرئيسية ، ومشاركات المدونات التقنية التي شاهدتها مراجع تقنية ، وأوراق ومزيد من الأوراق في Arxiv ، ومحاضرات في المؤتمرات ، وما إلى ذلك.
قبل ذلك ، أود أن أقول إنني متحمس جدًا لفكرة أن “الأشخاص الأذكياء يتعلمون من أخطائهم ، ويتعلم الحكماء من أخطاء الآخرين”.
ولكن ، بعد كل شيء ، ما علاقة كل هذا بالفشل الذي يحدث ، ولماذا من المهم فهم العوامل المساهمة؟
الإجابة هي: لأنه أولاً يجب أن يكون فريقك / حلك قادرًا على النجاة من المواقف الكارثية حتى تتواجد الحالة الناجحة. وامتلاك البقاء على قيد الحياة كجانب محفز لزيادة موثوقية الفرق / الأنظمة ، يجعل فهم الأخطاء طريقة جذابة للتعلم.
وعندما تكون هناك سيناريوهات لانتهاكات بسيطة ، أو قمع أخطاء ، أو نقص في الإجراءات ، أو سوء تصرف ، أو تهور أو إهمال ، تسوء الأمور بشكل مذهل ، كما في الأمثلة أدناه


Amazon: تم حذف البيانات الموجودة على موازن التحميل مما تسبب في حدوث انقطاع افتراضي لمنطقة AWS بأكملها في ذلك الوقت
Gitlab: أدى حذف قاعدة بيانات الإنتاج إلى عدم توفر لمدة 18 ساعة مع فقدان بيانات العملاء ؛
Knight Capital: سمح الافتقار إلى مراجعة كود الثقافة للمهندس بوضع أجزاء من التعليمات البرمجية التي كانت لها قاعدة عمل قديمة قبل 8 سنوات من النشر في الإنتاج ، مما أدى إلى خسارة الشركة 172،222 دولارًا في الثانية لمدة 45 دقيقة (أو 465 مليون دولار أمريكي) . يمكن العثور على التحقيق النهائي هنا على موقع SEC ؛
وكالة الفضاء الأوروبية: تسبب التحويل من رقم 16 بت إلى 64 بت في حدوث فائض في نظام توجيه الصواريخ مما أدى إلى سلسلة من الأحداث التي تسببت في تدمير الصاروخ وخسارة أكثر من 370 مليون دولار ؛ و
ناسا: أدى التدهور من الثقافة الهندسية إلى ثقافة التصميم / الثقافة السياسية ومشاكل الختم الدائري إلى فشل كارثي لم يكلف مليارات الدولارات فحسب ، بل أودى أيضًا بحياة الطاقم. يمكن رؤية هذا التدهور للثقافة في كتاب ديان فوغان الممتاز بعنوان قرار إطلاق التحدي: التكنولوجيا المحفوفة بالمخاطر ، والثقافة ، والانحراف في وكالة ناسا ، الإصدار الموسع.

نموذج الجبن السويسري
في مجال الطيران ، في كل حدث كارثي يحدث ، هناك تحقيق شامل لفهم ما حدث ، ثم معالجة العوامل والعوامل المساهمة في تحديد حدث كارثي جديد لن يحدث مرة أخرى.
بهذه الطريقة ، يضمن الطيران أنه من خلال تطبيق ما تم تعلمه بسبب الحدث الكارثي ، يكون النظام بأكمله أكثر موثوقية. ليس من قبيل المصادفة أنه حتى مع زيادة عدد الرحلات الجوية (39 مليون رحلة في العام الماضي ، 2019) ، فإن عدد الوفيات يتناقص مع مرور كل عام.


يعد نموذج الجبن السويسري أحد أكثر الأدوات استخدامًا في التحقيق في حوادث الطائرات لتحليل المخاطر والجوانب السببية.
تم إنشاء هذا النموذج بواسطة جيمس ريسون من خلال مقال “مساهمة الإخفاقات البشرية الكامنة في انهيار الأنظمة المعقدة” حيث تم بناء إطاره (ولكن بدون إشارة مباشرة إلى المصطلح). ومع ذلك ، فقط في الورقة البحثية “الخطأ البشري: النماذج والإدارة” يظهر النموذج بشكل مباشر أكثر.

وهذا يعني ، في هذه الحالة ، أن كل شريحة من الجبن السويسري ستكون خط دفاع مع طبقات متوقعة (على سبيل المثال ، المراقبة ، وأجهزة الإنذار ، وأقفال دفع كود في الإنتاج ، وما إلى ذلك) و / أو الطبقات الإجرائية التي تشمل الناس (على سبيل المثال ، الجوانب الثقافية ، تدريب وتأهيل الملتزمون في المستودع ، آليات التراجع ، اختبارات الوحدة والتكامل ، إلخ).


ومع ذلك ، ضمن ما وضعه المؤلف ، يحدث كل ثقب في إحدى شرائح الجبن بسبب عاملين: الفشل النشط والظروف الكامنة ، حيث:
تشبه الظروف الكامنة نوعًا من المواقف المقيمة بشكل جوهري داخل النظام ؛ وهي عواقب التصميم ، والقرارات الهندسية ، الذي كتب القواعد أو الإجراءات وحتى أعلى المستويات الهرمية في المؤسسة. يمكن أن تؤدي هذه الظروف الكامنة إلى نوعين من الآثار الضارة ، وهي المواقف التي تسبب أخطاء وتكوين نقاط ضعف. أي أن الحل له تصميم يزيد من احتمالية وقوع أحداث ذات تأثير سلبي كبير يمكن أن تكون مكافئة لعامل سببي يساهم.


الإخفاقات النشطة هي أعمال غير آمنة أو تجاوزات بسيطة يرتكبها أشخاص على اتصال مباشر بالنظام ؛ يمكن أن تكون هذه الأفعال أخطاء وسفرات وتشويهات وإغفالات وأخطاء وانتهاكات إجرائية.


في الجبن السويسري الخاص بنا ، ستكون كل شريحة عبارة عن طبقات أو خطوط دفاع نمتلك فيها جوانب مثل هندسة النظم وهندستها ، وتقنية المكدس ، وإجراءات التطوير المحددة ، والثقافة الهندسية للشركة ، وأخيراً الأشخاص كضمانة أخيرة.
الثغرات ، بدورها ، ستكون العناصر المعيبة في كل طبقة من طبقات الدفاع هذه والتي يمكن أن تكون أخطاء نشطة (على سبيل المثال ، الالتزام مباشرة بالسيد بسبب وجود مراجعة التعليمات البرمجية) أو ظروف كامنة (مثل مكتبة ML ، نقص المراقبة والتنبيه ).
في حالة مثالية ، بعد حدث عدم التوفر ، سيتم معالجة جميع الظروف الكامنة والإخفاقات النشطة وستكون هناك خطة عمل لحل المشكلات بحيث لا يحدث نفس الحدث أبدًا في المستقبل


الملاحظات الختامية
بالطبع ، لا يوجد دواء سحري من حيث ما يمكن القيام به فيما يتعلق بإدارة المخاطر: يمكن تحمل بعض المخاطر والمشاكل ، وغالبًا ما لا يتوفر الوقت والموارد اللازمة لتطبيق التعديلات اللازمة.
يمكن أن يساعد فهم العوامل المساهمة والمحددة في أحداث الفشل في القضاء على المخاطر المحتملة أو تقليلها وبالتالي تقليل التأثير على سلسلة عواقب هذه الأحداث.