موسكو، 29 نوفمبر. أنشأ العلماء الروس أول بيئة مفتوحة للتعلم المعزز السياقي السريع (RL في السياق). جاء ذلك في مختبر أبحاث الذكاء الاصطناعي T-Bank AI Research.
“قام علماء من مختبر أبحاث الذكاء الاصطناعي T-Bank AI Research ومعهد AIRI، بمشاركة طلاب MIPT وSkoltech وInnopolis، بإنشاء أول بيئة مفتوحة للبحث وتطوير الخوارزميات في مجال التعلم المعزز السياقي – XLand – وقال الإعلان: MiniGrid.
كما هو موضح في المختبر، فإن XLand-MiniGrid هي بيئة افتراضية، منشورة في الملكية العامة للباحثين في جميع أنحاء العالم، حيث يتم تدريب الذكاء الاصطناعي (AI) على اتخاذ القرارات وتنفيذ إجراءات جديدة ليس “من الصفر”، مما يتطلب تدريبًا طويلًا ولكن تفاعلًا. مع البيئة باستخدام الإشارات والسياق.
تم إجراء الاختبارات في XLand-MiniGrid بواسطة باحثين من Google DeepMind، وجامعة كاليفورنيا في بيركلي، وجامعة أكسفورد. تم قبول ورقة علمية تصف خلق البيئة في أكبر مؤتمر دولي في مجال الذكاء الاصطناعي – NeurIPS 2024، الذي سيعقد في الفترة من 10 إلى 15 ديسمبر في فانكوفر (كندا)، حسبما قال T-Bank AI Research.
“لقد دخلنا مجال التعلم المعزز السياقي عندما كان لا يزال في بداياته، وبالتالي لم نجد أداة مناسبة لتقييم الأفكار الجديدة. من الواضح أن هذه مشكلة للعديد من المحترفين، مما يعني أنها يجب أن تكون واحدة من تلك الأدوات. وقال فياتشيسلاف سيني، الباحث في مجموعة AI Alignment Science Group (جزء من T-Bank AI Research)، إن العمل الأول قد تم حله. وهكذا، ظهر XLand-MiniGrid. .
وقال فلاديسلاف كورينكوف، رئيس مجموعة علوم التكيف في معهد AIRI، إن برنامج XLand-MiniGrid سيسرع عملية إنشاء خوارزميات جديدة. “يعد التعلم المعزز السياقي أحد أكثر المجالات العلمية الواعدة في مجال الذكاء الاصطناعي، لأنه يتيح لك الحصول على عملاء يتكيفون بسرعة مع المواقف الجديدة بناءً على ردود الفعل الخارجية. سيؤدي الإطار الذي قمنا بتطويره إلى تسريع عملية المقارنة بشكل كبير. وقال كورينكوف: “وإنشاء خوارزميات جديدة في هذا المجال”، نقلت كلماته في الرسالة.
طلب
تجدر الإشارة إلى أن RL في السياق مفيد بشكل خاص في مجالات مثل التوصيات الشخصية، والتحكم في الروبوت، والمركبات ذاتية القيادة، حيث يلزم التكيف الفوري مع الظروف الجديدة.
في الوقت نفسه، لا يمكن للمستخدمين الخارجيين الوصول إلى RL في سياق الشركات الكبيرة، وتوفر الأدوات المتاحة للجمهور بشكل أساسي مهام مماثلة وسهلة التعلم، مما يجعل من الصعب تطوير واختبار الخوارزميات المعقدة.
على عكس البيئات الأخرى الموجودة، فإن XLand-MiniGrid مفتوح الوصول ويسمح لك بتغيير ظروف التعلم مباشرة أثناء العملية. ويقول التقرير إن هذا يبسط نمذجة مجموعة متنوعة من المهام ذات التعقيد المتفاوت، مما يساعد على إنشاء نماذج ذكاء اصطناعي أكثر تكيفًا وموثوقية.
تم إنشاء البيئة على أساس تقنية JAX لتطوير البرامج عالية الأداء. على عكس نظائرها الأبطأ، تنفذ XLand-MiniGrid مليارات العمليات في الثانية، حسبما تشير أبحاث T-Bank AI.
“يحتوي برنامج XLand-MiniGrid على 100 مليار مثال لإجراءات الذكاء الاصطناعي في 30 ألف مهمة. ويتيح لك ذلك استخدام مجموعات البيانات الموجودة للتدريب، بدلاً من البدء من الصفر. كل هذا يساهم في اكتشافات جديدة في هذا المجال. وقال البيان إن RL في السياق يقلل التكاليف ويوفر الموارد للبحث.