منذ ظهوره على الساحة التقنية، أظهر الذكاء الاصطناعي التوليدي مقدرات واعدة للغاية في مجال الروبوتات مثل تفاعلات باللغة الطبيعية، وإمكانية التعلم، والبرمجة والتصميم حتى.
بناء على تلك الإمكانيات الواعدة، تم نشرها مؤخراً، استعرض فريق DeepMind Robotics التابع لشركة Google آلية توظيف ذكاء نموذج Gemini 1.5 Pro لتعليم الروبوت الاستجابة للأوامر والتحرك بما يشبه الوعي ضمن حيز مكاني محدد.
يمكن القول إن مشروع DeepMind يستعمل في قسم منه ما تبقى من مشروع Every Day Robots الذي كانت Google قد ألغته في أعقاب حملة تسريح واسعة لموظفيها العام الماضي.
في سلسلة من مقاطع الفيديو المرفقة بالمشروع، يستهل موظفو DeepMind مخاطبتهم للروبوت بعبارة مألوفة « OK, Robot»، قبل أن يطلبوا من النظام القيام بمهام مختلفة. والتجسيد الأساسي، كان محاولة الفريق تعليم الروبوتات بالكيفية نفسها التي يتعلم فيها البشر؛ من خلال مشاهدة الفيديوهات. وذلك بالاعتماد على نموذج الذكاء الاصطناعي التوليدي Gemini 1.5 Pro لاستيعاب المعلومات من مقاطع الفيديو، وتعليم الآلة كيفية التنقل، وحتى تنفيذ الطلبات في وجهتها النهائية.
تتيح نافذة السياق الطويلة في نموذج Gemini 1.5 Pro تدريب الروبوتات كما لو أنها متدرب بشري جديد، إذ تسمح بمعالجة كميات هائلة من المعلومات في وقت واحد.
ضمن التجربة، يصور الباحثون جولة فيديو لمنطقة معينة، مثل منزل أو مكتب. ثم يشاهد الروبوت الفيديو ويتعلم عن البيئة المحيطة. وتتيح التفاصيل في جولات الفيديو للروبوت إكمال المهام بناءً على معرفته المكتسبة، باستخدام كل من المخرجات اللفظية والبصرية.
يفتح هذا المستوى من الدقة باباً واسعاً أمام العديد من الاستخدامات المحتملة في العالم الواقعي للروبوتات التي تعمل بالذكاء الاصطناعي، سواء في الأعمال المنزلية أو في مهام العمل البسيطة أو حتى الأكثر تعقيداً. ذلك أن إحدى الميزات الأكثر بروزاً في نموذج Gemini 1.5 Pro هي قدرته على إكمال مهام متعددة الخطوات.
ومع ذلك، ليس من المنتظر رؤية روبوتات كهذه متاحة لعموم المستهلكين في أي وقت قريب. و لا تزال تعاني من نواقص بارزة تعيق انتقالها للمرحلة التطبيقية الشاملة، وأبرزها البطء، حيث تستغرق معالجة كل تعليمة ما يصل إلى 30 ثانية. أضف إلى ذلك مستوى تعقيد بيئات التشغيل وتنوعها مقارنة مع بيئة الاختبار التي جرى فيه تطبيق التجربة.