فیس بک کے مالک میٹا نے جمعہ کو کہا کہ وہ اپنے ریسرچ ڈویژن سے نئے اے آئی ماڈلز کی ایک کھیپ جاری کر رہا ہے، جس میں ایک "سیلف ٹیٹ ایویلیویٹر” بھی شامل ہے جو AI کی ترقی کے عمل میں کم انسانی شمولیت کی طرف راستہ پیش کر سکتا ہے۔
ریلیز اگست کے ایک مقالے میں میٹا کے اس آلے کے تعارف کے بعد ہے، جس میں تفصیل سے بتایا گیا ہے کہ یہ کس طرح اسی "خیال کی زنجیر” تکنیک پر انحصار کرتا ہے جسے OpenAI کے حال ہی میں جاری کردہ o1 ماڈلز کے ذریعے ماڈلز کے ردعمل کے بارے میں قابل اعتماد فیصلے کرنے کے لیے استعمال کیا جاتا ہے۔
اس تکنیک میں پیچیدہ مسائل کو چھوٹے منطقی مراحل میں توڑنا شامل ہے اور سائنس، کوڈنگ اور ریاضی جیسے مضامین میں چیلنج کرنے والے مسائل پر جوابات کی درستگی کو بہتر کرتی دکھائی دیتی ہے۔
میٹا کے محققین نے تشخیص کار ماڈل کو تربیت دینے کے لیے مکمل طور پر AI سے تیار کردہ ڈیٹا کا استعمال کیا، اس مرحلے پر انسانی ان پٹ کو بھی ختم کیا۔
پراجیکٹ کے پیچھے دو میٹا محققین نے رائٹرز کو بتایا کہ AI کو قابل اعتماد طریقے سے جانچنے کے لیے AI کا استعمال کرنے کی صلاحیت خود مختار AI ایجنٹوں کی تعمیر کے لیے ممکنہ راستے کی ایک جھلک پیش کرتی ہے جو اپنی غلطیوں سے سیکھ سکتے ہیں۔
اے آئی فیلڈ میں بہت سے لوگ ایسے ایجنٹوں کا تصور کرتے ہیں جیسے ڈیجیٹل اسسٹنٹ اتنے ذہین ہیں کہ وہ انسانی مداخلت کے بغیر وسیع پیمانے پر کام انجام دے سکیں۔
خود کو بہتر بنانے والے ماڈلز آج کل استعمال ہونے والے اکثر مہنگے اور غیر موثر عمل کی ضرورت کو ختم کر سکتے ہیں جسے Reinforcement Learning from Human Feedback کہا جاتا ہے، جس کے لیے انسانی تشریح کرنے والوں سے ان پٹ کی ضرورت ہوتی ہے جن کے پاس ڈیٹا کو درست طریقے سے لیبل کرنے اور اس بات کی تصدیق کرنے کے لیے خصوصی مہارت ہونی چاہیے کہ پیچیدہ ریاضی اور تحریری سوالات کے جوابات۔ درست ہیں
محققین میں سے ایک جیسن ویسٹن نے کہا، "ہم امید کرتے ہیں کہ جیسے جیسے AI زیادہ سے زیادہ سپر ہیومن ہوتا جائے گا، یہ اپنے کام کی جانچ پڑتال میں بہتر سے بہتر ہوتا جائے گا، تاکہ یہ حقیقت میں اوسط انسان سے بہتر ہو،” جیسن ویسٹن نے کہا۔
انہوں نے کہا کہ "خود سکھائے جانے اور خود کو جانچنے کے قابل ہونے کا خیال بنیادی طور پر AI کے اس قسم کے سپر ہیومن لیول تک پہنچنے کے خیال کے لیے بہت اہم ہے۔”
Google اور Anthropic سمیت دیگر کمپنیوں نے RLAIF، یا AI Feedback سے Reinforcement Learning کے تصور پر تحقیق بھی شائع کی ہے۔ میٹا کے برعکس، تاہم، وہ کمپنیاں اپنے ماڈلز کو عوامی استعمال کے لیے جاری نہیں کرتی ہیں۔



