كيف يُصاب الذكاء الاصطناعي بـ"التسمم"؟!.. علماء يجيبون!
عادة ما تُرتبط كلمة "تسمم" بصحة الإنسان أو بالبيئة، غير أنّ هذا المصطلح بدأ في الآونة الأخيرة يتردد بشكل متزايد في سياق التكنولوجيا الرقمية.. فما هو تسمم الذكاء الاصطناعي؟
-
تسمم الذكاء الاصطناعي هو تدريب متعمَّد لشبكات عصبية على أمثلة خاطئة أو مضللة بهدف تشويه معرفتها أو سلوكها
"تسمم" الذكاء الاصطناعي، هو تهديد جديد وخفي قد يقوّض الثقة في الخوارزميات الذكية. فقد أظهرت أبحاث حديثة أنّ هذا الخطر واقعي.
فقد وجد علماء من المعهد البريطاني لأمن الذكاء الاصطناعي ومعهد "آلان تورينج" وشركة Anthropic أنّ المتسللين قادرون — لخنق نموذج لغوي كبير مثل ChatGPT أو Claude — على إحداث تأثير خفي عبر إدخال نحو 250 مثالاً ضاراً فقط، ضمن ملايين الأسطر من بيانات التدريب. وقد نُشر هذا البحث في مجلة Computer Science.
🧠💀 What happens when your model gets poisoned?
— BSidesSLC (@BsidesSLC) June 21, 2025
Maria Khodak’s BSidesSLC talk
“Good Models Gone Bad: Visualizing Data Poisoning”
shows how corrupted data can twist AI—and how to spot it.
🎥 https://t.co/sMeGLUvwPw#BSidesSLC #BSidesCache #AI #DataPoisoning #MLSecurity…
ما هو تسمم الذكاء الاصطناعي؟
المقصود بتسمم الذكاء الاصطناعي هو تدريب متعمَّد لشبكات عصبية على أمثلة خاطئة أو مضللة بهدف تشويه معرفتها أو سلوكها. والنتيجة أنّ النموذج يبدأ في ارتكاب أخطاء، أو ينفذ أوامر ضارة بطريقة ظاهرة أو سرّية.
يُميّز الخبراء بين نوعين رئيسيين من الهجمات:
هجمات مُستهدفة (باب خلفي): تهدف إلى إجبار النموذج على الاستجابة بطريقة محددة عند وجود محفز سري. مثلاً "حقن" أمر خفي يجعل النموذج يرد بإهانة عند ظهور كلمة نادرة في الاستعلام مثل alimir123. قد تبدو الإجابة طبيعية عند الاستعلام العادي، لكنها تتحول إلى مسيئة عند إدخال المحفز. ويمكن للمهاجمين نشر هذا المحفز على مواقع أو وسائل تواصل لتفعيله لاحقاً.
هجمات غير مباشرة (تسميم المحتوى): لا تعتمد على محفزات خفية بقدر اعتمادها على ملء بيانات التدريب بمعلومات زائفة. ونظراً لاعتماد النماذج على كميات هائلة من المحتوى المتاح على الإنترنت، يستطيع المهاجم إنشاء مواقع ومصادر متعددة تروّج لمعلومة خاطئة (مثلاً: "سلطة الخضار تعالج السرطان")؛ وإذا استُخدمت هذه المصادر في التدريب، فسيبدأ النموذج بتكرار تلك الأكاذيب بصفتها حقائق.
ما مدى خطورة ذلك عملياً؟
تؤكّد الأدلة التجريبية أنّ تسميم البيانات ليس مجرد سيناريو افتراضي: في تجربة أجريت في كانون الثاني/يناير الماضي، أدى استبدال 0.001% فقط من بيانات التدريب بمعلومات طبية مضللة إلى أنّ النموذج صار يُقدّم نصائح خاطئة في سياق اختبارات طبية نموذجية. هذا يبيّن قدرة الهجمات الصغيرة والمُحكمة على إحداث أضرار كبيرة تُؤثر على سلامة المخرجات وثقة المستخدمين.
دراسة تكشف تشويه الذكاء الاصطناعي للأخبار في 45% من الحالات
وكشفت دراسة سابقة معمّقة أنّ الذكاء الاصطناعي يقدم صورة مشوهة للمحتوى الإخباري في 45% من الحالات، دون تأثر هذه النتائج باللغة أو المنطقة الجغرافية.
ووجدت الدراسة التي شارك فيها 22 هيئة بث عامة من 18 دولة، أنّ مساعدات مثل ChatGPT وCopilot وGemini وPerplexity تقدم إجابات خاطئة أو مضللة في nearly نصف الحالات.
واشترك في الدراسة كل من الاتحاد الأوروبي للبث وهيئة الإذاعة البريطانية بمشاركة VRT، وسجلت المشاكل بين جميع المنصات واللغات والبلدان.
وسجلت 45% من إجابات الذكاء الاصطناعي مشكلة كبيرة واحدة على الأقل، تتراوح بين الأخطاء في نسب المصادر والمعلومات غير الدقيقة.
وأظهرت النتائج أنّ مشكلة الإسناد للمصادر كانت الأبرز، حيث كانت المراجع مفقودة أو مضللة في 31% من الحالات، بينما احتوت 20% من الردود على معلومات غير دقيقة أو قديمة. وحللت الدراسة أكثر من 3000 رد من المساعدات المختلفة، وسجلت Gemini أسوأ النتائج بمشاكل في 76% من ردودها.
وأكّدت الدراسة أنّ مساعدات الذكاء الاصطناعي بدأت تحل محل محركات البحث لملايين المستخدمين، حيث أظهر تقرير معهد "رويترز" للأخبار الرقمية 2025 أنّ 7% من مستهلكي الأخبار يستخدمون هذه المساعدات، ترتفع النسبة إلى 15% بين الشباب.