وصف خبراء من جامعة نيويورك (الولايات المتحدة الأمريكية) المخاطر المحتملة لتدريب نماذج الذكاء الاصطناعي على بيانات لم يتم التحقق منها. ونشر البحث في مجلة الطبيعة.

وفقًا للعلماء، فإن نماذج الذكاء الاصطناعي اللغوية الكبيرة (LLMs) سترتكب أخطاء إذا تم تدريبها على معلومات مزيفة أو تحميلها عمدًا ببيانات غير علمية. لقد وجد الخبراء أنه عندما يصل مستوى المعلومات الخاطئة في المواد التعليمية إلى 0.001% فقط، يمكن للشبكات العصبية أن تبدأ بالفعل في توليد عدد كبير من الإجابات الخاطئة.
حاول الباحثون تدريب اثنين من حاملي الماجستير في القانون على قاعدة بيانات The Pile الطبية، واختيار 20 موضوعًا من ثلاثة مجالات طبية: الطب العام، وجراحة الأعصاب، والطب. ولاختبار تأثير المعلومات الخاطئة على التعلم، استخدم مؤلفو الدراسة نموذج GPT 3.5. اتضح أن الشبكة العصبية لم تبدأ فقط في بث معلومات غير صحيحة بناءً على الطلبات المباشرة، ولكنها بدأت أيضًا في ارتكاب أخطاء في مواضيع ذات صلة. ووفقا للعلماء، فإن هذا يفتح فرصا للتلاعب بالذكاء الاصطناعي.
لذا، مع معدل معلومات خاطئة يبلغ 0.01%، تبدأ LLM في الحصول على إجابات خاطئة بنسبة 10%. إذا قمت بتقليل عدد مستندات التدريب المزيفة بهامش كبير — إلى 0.001 بالمائة — فسيبدأ النموذج في ارتكاب الأخطاء في 7% من الحالات.
وجد العلماء أن الناس يميلون إلى تلقي المعلومات من روبوتات الدردشة ولا يتحققون منها بمساعدة الخبراء. ولذلك، فإنهم يعتبرون أنه من المهم التحقق من صحة البيانات المستخدمة لتدريب النماذج.
في أوائل يناير، أفاد خبراء بلومبرج إنتليجنس أنه خلال 3 إلى 5 سنوات المقبلة، ستقوم أكبر البنوك بتسريح ما يصل إلى 200 ألف موظف بسبب انتشار الذكاء الاصطناعي. وتوقع ربع المشاركين في الاستطلاع انخفاضًا بنسبة 5 إلى 10 بالمائة من إجمالي القوى العاملة.