إطلاق روبوتات برمجية تجمع البيانات من الإنترنت
أعلنت شركة ميتا عن إطلاق روبوتات برمجية جديدة تساهم في جمع البيانات من الإنترنت لدعم نماذج الذكاء الاصطناعي ومنتجاتها المتعلقة، لكن هذه الروبوتات تتمتع بقدرات تجعل من الصعب على مالكي المواقع منعها من استخراج المحتوى.
وأوضحت ميتا أن الروبوت الجديد Meta-ExternalAgent صمم لأغراض مثل تدريب نماذج الذكاء الاصطناعي أو تحسين المنتجات من خلال فهرسة المحتوى مباشرة، بينما يرتبط روبوت آخر Meta-ExternalFetcher بعروض المساعد الذكي للشركة ويجمع الروابط لدعم وظائف معينة للمنتجات.
وظهرت هذه الروبوتات لأول مرة في يوليو، حسب الصفحات المؤرشفة من ميتا التي تحللها شركة Originality.ai المتخصصة في اكتشاف المحتوى الذي أنشئ باستخدام الذكاء الاصطناعي، كما أفادت Business Insider.
وفي سباق بناء أقوى نماذج الذكاء الاصطناعي، تتسابق الشركات الناشئة والعمالقة التكنولوجيون للحصول على بيانات تدريب عالية الجودة، ومن الطرق الأساسية لتحقيق ذلك هو إرسال روبوتات إلى المواقع لاستخراج المحتوى، وهي طريقة تستخدمها العديد من الشركات مثل جوجل وOpenAI وAnthropic لتدريب نماذجها الذكية.
وإذا أراد مالكو المحتوى منع هذه الروبوتات من استخراج البيانات المنشورة على مواقعهم، فإنهم يعتمدون على قاعدة قديمة تُعرف بملف “robots.txt”، حيث تكتب المواقع مجموعة من الأوامر والتعليمات التي تحدد ما يُسمح لهذه الروبوتات بالقيام به وما يُحظر عليها. يعتبر هذا الملف جزءاً أساسياً من القواعد غير الرسمية التي دعمت هيكلية الويب منذ أواخر التسعينات.
ومع ذلك، فإن الحاجة الملحة لبيانات تدريب الذكاء الاصطناعي قد أضعفت هذا النظام، وكشفت التقارير في يونيو أن OpenAI وAnthropic تجاهلتا القواعد المذكورة في ملف “robots.txt” على المواقع.
وتبدو ميتا متبنية نهجاً مشابهًا، حيث تحذر من أن روبوتها الجديد، Meta-ExternalFetcher، قد “يتجاوز قواعد robots.txt”، وأن روبوت Meta-ExternalAgent يؤدي وظيفتين مختلفتين : جمع بيانات تدريب الذكاء الاصطناعي وفهرسة المحتوى على المواقع، مما يجعل من الصعب حظره.
وقد يرغب مالكو المواقع في منع ميتا من استخدام بياناتهم لتدريب نماذج الذكاء الاصطناعي، لكنهم قد يرحبون أيضًا بفهرسة مواقعهم لزيادة حركة المرور، لذا فإن دمج ميتا لهذه الوظيفتين في روبوت واحد يجعل من الصعب حظره، ووفقًا لتقرير Originality.ai، فإن 1.5% فقط من المواقع الكبرى تحظر روبوت Meta-ExternalAgent الجديد.
وعلى النقيض من ذلك، فإن روبوت ميتا الأقدم، FacebookBot، الذي يجمع البيانات منذ سنوات لتدريب نماذج اللغة الكبيرة وتقنيات التعرف على الصوت، قد تم حظره من قبل حوالي 10% من المواقع الكبرى بما في ذلك X وياهو، حسبما أفادت Originality.ai، والروبوت الآخر الجديد، Meta-ExternalFetcher، يتم حظره من قبل أقل من 1% من المواقع الكبرى.
من جانبه صرح جون جيلهم، الرئيس التنفيذي لشركة ORIGINALITY.AI، بأن “الشركات ينبغي أن توفر إمكانية للمواقع لمنع استخدام بياناتها في التدريب دون تقليل وضوح محتواها في منتجاتها.”
وأضاف جيلهم أن ميتا لا تحترم القرارات السابقة لمالكي المواقع الذين قاموا بحظر الروبوتات القديمة. على سبيل المثال، إذا قام موقع بحظر FacebookBot لمنع استخدام بياناته في تدريب “نماذج اللغة لتقنيات التعرف على الصوت”، فمن المحتمل أيضًا أن يرغب في حظر MetaExternalAgent لمنع استخدام بياناته في تدريب نماذج الذكاء الاصطناعي، لذا سيكون من الطبيعي أن يتم تطبيق الحظر تلقائيًا.
ورداً على الانتقادات، أوضح متحدث باسم ميتا أن الشركة تحاول تسهيل الأمر على الناشرين لتحديد تفضيلاتهم مثل الشركات الأخرى، نقوم بتدريب نماذج الذكاء الاصطناعي التوليدية الخاصة بنا على المحتوى المتاح علنًا على الإنترنت، ونحن ندرك أن بعض الناشرين ومالكي المواقع يرغبون في الحصول على خيارات تتعلق بمواقعهم والذكاء الاصطناعي التوليدي”.
وأضاف المتحدث، أن ميتا لديها عدة روبوتات لجمع البيانات من الإنترنت لتفادي تجميع كل الاستخدامات تحت وكيل واحد، مما يوفر مرونة أكبر للناشرين على الويب.