إدارة المخاطر الكبيرة للبيانات الضخمة

المصدر:

إرنست ديفيس

التاريخ: 14 فبراير 2017

ت + ت - الحجم الطبيعي

عندما يعرف الناس أن مجموعة البيانات التي يتم استخدامها لاتخاذ قرارات مهمة من شأنها التأثير عليهم، سيكون ذلك حافزاً لقلب الموازين لصالحهم.

في السنوات الخمس عشرة الماضية، شهدنا انفجاراً في كمية البيانات الرقمية المتاحة - من الإنترنت، ووسائل الإعلام الاجتماعية، والمعدات العلمية، والهواتف الذكية، وكاميرات المراقبة، إلى العديد من المصادر الأخرى - وفي تكنولوجيا الكمبيوتر المستخدمة.

ومما لا شك فيه أن «البيانات الضخمة»، كما هو معروف، تسهم في تحقيق التطورات العلمية والتكنولوجية والطبية المهمة. لكن البيانات الضخمة أيضاً تشكل خطراً جسيماً إذا ما استُخدمت أو تم التعامل معها بشكل سيئ.

وبالفعل، فقد اعتمدت الابتكارات الرئيسية مثل محركات البحث على الإنترنت، والترجمة الآلية، على تطبيق تقنيات التعلم الآلي لمجموعات البيانات الضخمة. وفي المستقبل القريب، يمكن للبيانات الضخمة أن تحسن إلى حد كبير السياسات الحكومية، وبرامج الرعاية الاجتماعية، والمنح الدراسية.

لكن وجود المزيد من البيانات الضخمة لا يعني التضحية بعامل الجودة. على سبيل المثال، يوضح مقال نُشر مؤخراً في مجلة «نيتشر»، أن استطلاعات الرأي الانتخابية في الولايات المتحدة تكافح من أجل الحصول على عينات تمثيلية من السكان، لأنه مسموح لها قانوناً بالاتصال بهؤلاء السكان من خلال الهواتف الأرضية فقط، في حين يعتمد الأميركيون بشكل متزايد على الهواتف المحمولة.

وبينما يمكن للمرء أن يجد آراءً سياسية لا تحصى في وسائل الإعلام الاجتماعية، إلا أنها لا تمثل الناخبين على نحو موثوق. وفي الواقع، فاٍن حصة كبيرة من المنشورات والمشاركات على «فيسبوك»، حول السياسة معدة بشكل آلي بالاعتماد على الحاسوب.

في السنوات الأخيرة، تسببت البرامج الآلية المرتكزة على مجموعات البيانات في العديد من الفضائح. على سبيل المثال، في يونيو الماضي، عندما بحث طالب جامعي على صور في «جوجل» عن «قصات شعر غير مهنية للعمل»، أظهرت النتائج غالبية الصور لأشخاص سود البشرة، وعندما غيّر الطالب مصطلح البحث الأول إلى «مهنية»، أعطى «جوجل» أغلب الصور لأشخاص بيض البشرة! لكن هذه الصور لم تكن نتيجة للتحيّز من جانب مبرمجي «جوجل»، ولكنها تعكس مدى تصنيف صور الناس على شبكة الإنترنت.

إن برنامج البيانات الضخمة الذي استخدم نتيجة البحث هذه لتقييم قرارات التعيين والترقية قد يفرض عقوبات على المرشحين السود الذين يشبهون الصور في نتائج «تسريحات الشعر غير المهنية».

وبالتالي استمرار الأحكام المسبقة التقليدية. وهذا ليس مجرد احتمال افتراضي. ففي العام الماضي، أظهرت تحقيقات الموقع الإخباري الأميركي للصحافة الاستقصائية «بروبوبليكا»، أن المنهجية المستخدمة على نطاق واسع لتحديد العقوبات على المجرمين المدانين تبالغ في احتمال ارتكاب المتهمين السود جرائم في المستقبل، وتقلل من خطر إقدام المتهمين البيض على فعل ذلك.

وهناك خطر آخر يتمثل في إمكانية التلاعب بالبيانات الضخمة. فعندما يعرف الناس أن مجموعة البيانات التي يتم استخدامها لاتخاذ قرارات مهمة من شأنها التأثير عليهم، سيكون ذلك حافزاً لقلب الموازين لصالحهم. على سبيل المثال، قد يكون المعلمون الذين يُقيّمون وفقاً لدرجات اختبار طلابهم أكثر عُرضة لممارسة «التعليم من أجل الاختبار» أو حتى للغش لرفع مستويات تقييمهم.

وبالمثل، فقد اتخذ مديرو الجامعات الذين يرغبون في حصول مؤسساتهم على تصنيف عالٍ في قوائم مجلة «يو أس نيوز آند وورلد ريبورت» قرارات غير حكيمة، مثل الاستثمار في صالات رياضية باهظة التكاليف على حساب استقطاب الأكاديميين المتميزين. والأسوأ من ذلك أنهم اتخذوا قرارات غير أخلاقية على نحو بشع، مثل الجهود التي تبذلها جامعة ماونت سانت ماري لزيادة فرص بقائها ضمن قوائم المجلة الأميركية، عن طريق تحديد وطرد الطلاب الأضعف في الأسابيع القليلة الأولى من الدراسة.

وحتى محرك البحث «جوجل» ليس موثوقاً تماماً. فعلى الرغم من إدارته لكمية هائلة من البيانات التي تشرف عليها نخبة من كبار علماء البيانات في العالم، فإن نتائجه عرضة للتطوير والتلاعب، مثل «الفهرسة المتعسفة» القائمة على الخداع، وغيرها من الأساليب التي تخدم المصالح المحدودة.

وهناك أيضاً خطر انتهاك الخصوصية، لأن الكثير من البيانات المتاحة حالياً تحتوي على معلومات شخصية. في السنوات الأخيرة، سُرقت مجموعات هائلة من البيانات السرية من المواقع التجارية والحكومية. وأظهر الباحثون أن الآراء السياسية الشعبية أو حتى الميول الجنسية يمكن استقاؤها بدقة من خلال متابعة وظائف بسيطة على الإنترنت، مثل التعليقات حول الأفلام.

وأخيراً، تطرح البيانات الكبيرة تحدياً للمساءلة القانونية. إذ يشعر أي شخص تمت معاملته بطريقة جائرة من المواقع التي تعتمد على هذه البيانات، أنه أحياناً ليست لديه وسيلة للطعن، وذلك إما بسبب أن النتائج التي تظهر لا يمكن تفسيرها، أو لأن الناس الذين كتبوا هذا النظام يرفضون تقديم تفاصيل عن كيفية عمله.

وبينما يمكن للحكومات أو الشركات أن تعترض منتقدي وصف هذا النظام بأنه يعمل وفق التصنيفات «الرياضية» أو «العلمية»، المجردة عن التحيّز، إلا أن هؤلاء أيضاً غالباً ما ينزعجون من السلوك المرعب لمسار البيانات الرقمية. لذلك اعتمد الاتحاد الأوروبي مؤخراً قانوناً يضمن حق الأشخاص المتضررين من هذه النظم «في الاستفسار» عن مصير بياناتهم ومعلوماتهم، لكن الزمن وحده سيبيّن كيفية تطبيق هذا الحق عملياً.

عندما لا يحصل المتضررون من البيانات الكبيرة على سبل للطعن، تصبح النتائج ضارة وبعيدة المدى، كما أوضحت مؤخراً عالِمة البيانات كاثي أونيل في كتابها «أسلحة الدمار الرياضي».

لكن الخبر السار هو أن مخاطر البيانات الكبيرة يمكن تجنبها إلى حد كبير. لكن لن يتأتى ذلك إلا إذا قمنا بحماية خصوصية الناس بكل جدية، وكشفنا عن الظلم وقمنا بتصحيحه، باستخدام توصيات النظم الحسابية بحكمة، وبالحفاظ على فهم دقيق لأساليب العمل الداخلية لهذه النظم والبيانات التي تؤثر على قراراتها.

*أستاذ علوم الحاسوب في معهد كورانت للعلوم الرياضية، جامعة نيويورك