بعد إصدار Windows Copilot ، تم تفجير شعبية مؤتمر Microsoft Build من خلال ** خطاب **.
يعتقد مدير Tesla AI السابق Andrej Karpathy في حديثه أن ** شجرة الأفكار ** تشبه AlphaGo's ** Monte Carlo Tree Search (MCTS) **!
صرخ مستخدمو الإنترنت: هذا هو الدليل الأكثر تفصيلاً وإثارة للاهتمام حول كيفية استخدام نموذج اللغة الكبيرة ونموذج GPT-4!
بالإضافة إلى ذلك ، كشفت Karpathy أنه نظرًا لتوسع التدريب والبيانات ، فإن LLAMA 65B "أقوى بكثير من GPT-3 175B" ، وقدمت نموذجًا كبيرًا مجهول الساحة ChatBot Arena:
درجات كلود بين ChatGPT 3.5 و ChatGPT 4.
قال مستخدمو الإنترنت إن خطابات كارباثي كانت دائمًا رائعة ، وهذه المرة ، كما هو الحال دائمًا ، لم يخيب آمال الجميع.
ما أصبح شائعًا مع الخطاب هو أيضًا ملاحظة جمعها مستخدمو Twitter بناءً على الخطاب. هناك ما مجموعه 31 ملاحظة ، وتجاوز عدد مرات إعادة النشر 3000+:
إذن ، ما الذي تم ذكره تحديدًا في هذا الخطاب الذي حظي بمشاهدة كبيرة؟
كيفية تدريب مساعد GPT؟
ينقسم خطاب كارباثي هذه المرة بشكل أساسي إلى جزأين.
** الجزء الأول ** ، تحدث عن كيفية تدريب "مساعد GPT".
يصف Karpathy بشكل أساسي مراحل التدريب الأربع لمساعدي الذكاء الاصطناعي: التدريب المسبق ، والضبط الدقيق تحت الإشراف ، ونمذجة المكافآت ، والتعلم المعزز.
تتطلب كل مرحلة مجموعة بيانات.
في مرحلة ما قبل التدريب ، يلزم قدر كبير من موارد الحوسبة لجمع كمية كبيرة من مجموعات البيانات. تدريب نموذج أساسي على مجموعة بيانات كبيرة غير خاضعة للإشراف.
تكمله Karpathy بمزيد من الأمثلة:
باستخدام مجموعة بيانات أصغر خاضعة للإشراف ، يؤدي ضبط هذا النموذج الأساسي باستخدام التعلم الخاضع للإشراف إلى إنشاء ** نموذج مساعد ** يمكنه الإجابة على الأسئلة.
كما أظهر عملية التطور لبعض النماذج ، وأعتقد أن العديد من الناس قد رأوا صورة "شجرة التطور" المذكورة أعلاه من قبل.
يعتقد Karpathy أن أفضل نموذج مفتوح المصدر حاليًا هو سلسلة Meta LLaMA (لأن OpenAI لم تفتح أي شيء عن GPT-4).
ما يجب الإشارة إليه بوضوح هنا هو أن ** النموذج الأساسي ليس نموذجًا مساعدًا **.
على الرغم من أن النموذج الأساسي يمكنه الإجابة على السؤال ، إلا أن الإجابة التي يقدمها ليست موثوقة ، وهو النموذج المساعد الذي يمكن استخدامه للإجابة على السؤال. نموذج مساعد تم تدريبه على النموذج الأساسي ، مع ضبط دقيق خاضع للإشراف ، سوف يتفوق على النموذج الأساسي في توليد الاستجابات وفهم بنية النص.
التعلم المعزز هو عملية حاسمة أخرى عند تدريب نماذج اللغة.
من خلال التدريب على البيانات عالية الجودة التي تحمل علامات بشرية ، يمكن استخدام نمذجة المكافآت لإنشاء وظيفة خسارة لتحسين أدائها. بعد ذلك ، يتم تنفيذ تدريب التعزيز عن طريق زيادة التسمية الإيجابية وتقليل احتمالية التسمية السلبية.
في المهام الإبداعية ، يعد استخدام الحكم البشري أمرًا بالغ الأهمية لتحسين نماذج الذكاء الاصطناعي ، ويمكن أن تؤدي إضافة ملاحظات بشرية إلى تدريب النماذج بشكل أكثر فعالية.
بعد التعلم المكثف مع ردود الفعل البشرية ، يمكن الحصول على نموذج RLHF.
بعد تدريب النموذج ، فإن الخطوة التالية هي كيفية استخدام هذه النماذج بفعالية لحل المشكلات.
كيفية استخدام النموذج بشكل أفضل؟
في ** الجزء الثاني ** ، تركز Karpathy على إستراتيجيات التلميح والضبط الدقيق والنظام البيئي للأدوات سريع النمو والتوسع المستقبلي.
أعطى Karpathy أمثلة محددة لتوضيح:
عندما نكتب مقالًا ، سنقوم بالعديد من الأنشطة العقلية ، ونحتاج إلى التفكير فيما إذا كان بياننا صحيحًا. بالنسبة إلى GPT ، هذه مجرد سلسلة من الرموز المميزة.
و ** تلميح () ** يمكن أن يعوض عن هذا الاختلاف المعرفي.
يشرح Karpathy أيضًا كيفية عمل تلميح ** Thought Chain **.
بالنسبة لمشاكل الاستدلال ، إذا كنت تريد أن يعمل Transformer بشكل أفضل في معالجة اللغة الطبيعية ، فأنت بحاجة إلى السماح له بمعالجة المعلومات خطوة بخطوة ، بدلاً من طرحها مباشرة مشكلة معقدة للغاية.
إذا أعطيته بعض الأمثلة ، فسوف يقلد قالب هذا المثال ، وستكون النتائج النهائية التي تم إنشاؤها أفضل.
يمكن للنموذج أن يجيب فقط على الأسئلة في تسلسله ، وإذا كان ما يولده خاطئًا ، يمكنك مطالبته بالتجديد.
إذا لم تطلب منه التحقق ، فلن يتحقق من نفسه.
يتضمن هذا السؤالين 1 و 2.
اقترح دانيال كانيمان ، الحائز على جائزة نوبل في الاقتصاد ، في "التفكير السريع والبطيء" أن النظام المعرفي البشري يتضمن نظامين فرعيين ، 1 و 2. 1 يعتمد أساسًا على الحدس ، بينما 2 هو نظام تحليل منطقي.
من منظور الشخص العادي ، 1 هي عملية سريعة وتلقائية ، و 2 جزء مدروس جيدًا.
هذا مذكور أيضًا في صحيفة شعبية حديثة بعنوان "شجرة الفكر".
يشير مصطلح "التفكير" إلى ، ليس فقط إعطاء إجابة على سؤال ، ولكنه أشبه باستخدامه مع كود الغراء Python ، الذي يربط العديد معًا. يجب أن يحتفظ النموذج بتلميحات متعددة ، ويجب أن يقوم ببعض خوارزمية البحث الشجري للعثور على التلميحات التي يجب توسيعها.
يعتقد كارباثي أن هذا النوع من التفكير مشابه جدًا لـ AlphaGo:
عندما يقوم AlphaGo بلعب Go ، فإنه يحتاج إلى التفكير في مكان وضع القطعة التالية. في البداية تعلمت عن طريق تقليد البشر.
ولكن علاوة على ذلك ، تقوم ببحث شجرة مونت كارلو ، مما يؤدي إلى استراتيجيات ذات احتمالات متعددة. يمكنه تقييم التحركات المتعددة الممكنة والاحتفاظ فقط بالاستراتيجيات الأفضل. أعتقد أنه نوع ما يعادل AlphaGo.
في هذا الصدد ، ذكر Karpathy أيضًا AutoGPT:
لا أعتقد أنه يعمل بشكل جيد في الوقت الحالي ، ولا أوصي به للاستخدام العملي. أعتقد أنه بمرور الوقت قد نكون قادرين على أخذ الإلهام من حيث يتجه.
ثانيًا ، هناك انقلاب صغير آخر يتمثل في الاسترجاع المحسن للجيل (الجيل المسترجع) والتلميحات الفعالة.
محتوى سياق النافذة هو الذاكرة العاملة للمحولات في وقت التشغيل ، وإذا كان بإمكانك وضع المعلومات المتعلقة بالمهمة في السياق ، فسيؤدي أداءً جيدًا لأنه يتمتع بإمكانية الوصول الفوري إلى هذه المعلومات.
باختصار ، يمكن فهرسة البيانات ذات الصلة بحيث يمكن الوصول إلى النماذج بكفاءة.
سيكون الأداء أفضل إذا كان لدى Transformers أيضًا مستند رئيسي للإشارة إليه.
أخيرًا ، تحدث كارباثي بإيجاز عن تقييد وضبط النماذج اللغوية الكبيرة. يمكن تحسين نماذج اللغات الكبيرة من خلال تلميحات القيود والضبط الدقيق. يفرض تلميح القيد القوالب في مخرجات نماذج اللغات الكبيرة ، بينما يعمل الضبط الدقيق على ضبط أوزان النموذج لتحسين الأداء.
أوصي باستخدام نماذج لغة كبيرة للتطبيقات منخفضة المخاطر ، ودائمًا ما يتم دمجها مع الإشراف البشري ، ورؤيتها كمصدر للإلهام والنصيحة ، والنظر في مساعدي الطيارين بدلاً من جعلهم وكلاء مستقلين تمامًا.
حول أندريه كارباثي
كانت أول وظيفة للدكتور أندريه كارباثي بعد التخرج هي دراسة رؤية الكمبيوتر في OpenAI.
في وقت لاحق ، كان ماسك ، أحد مؤسسي OpenAI ، يتوهم كارباثي وحفر الناس في تسلا. ولكن أيضًا بسبب هذا الحادث ، اندلع ماسك وأوبن إيه آي تمامًا ، وتم طردهما أخيرًا. في Tesla ، Karpathy هو رئيس مشاريع مثل Autopilot و FSD.
في فبراير من هذا العام ، بعد سبعة أشهر من مغادرة تسلا ، انضم كارباثي إلى أوبن إيه آي مرة أخرى.
في الآونة الأخيرة ، قام بتغريد أن هناك حاليًا الكثير من الاهتمام بتطوير نظام بيئي مفتوح المصدر للغة كبيرة الحجم ، والذي يشبه إلى حد ما علامة على الانفجار الكمبري المبكر.
منفذ: [1] فيديو الكلام) [2] مقال الفكر)
ارتباط مرجعي: [1]
شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
أوضح شخص ما أخيرًا الوضع الراهن لـ GPT! يحظى الخطاب الأخير لـ OpenAI Daniel بشعبية كبيرة ، ويجب أن يكون عبقريًا من اختيار ماسك يدويًا
المصدر: Qubit
بعد إصدار Windows Copilot ، تم تفجير شعبية مؤتمر Microsoft Build من خلال ** خطاب **.
يعتقد مدير Tesla AI السابق Andrej Karpathy في حديثه أن ** شجرة الأفكار ** تشبه AlphaGo's ** Monte Carlo Tree Search (MCTS) **!
صرخ مستخدمو الإنترنت: هذا هو الدليل الأكثر تفصيلاً وإثارة للاهتمام حول كيفية استخدام نموذج اللغة الكبيرة ونموذج GPT-4!
ما أصبح شائعًا مع الخطاب هو أيضًا ملاحظة جمعها مستخدمو Twitter بناءً على الخطاب. هناك ما مجموعه 31 ملاحظة ، وتجاوز عدد مرات إعادة النشر 3000+:
كيفية تدريب مساعد GPT؟
ينقسم خطاب كارباثي هذه المرة بشكل أساسي إلى جزأين.
** الجزء الأول ** ، تحدث عن كيفية تدريب "مساعد GPT".
يصف Karpathy بشكل أساسي مراحل التدريب الأربع لمساعدي الذكاء الاصطناعي: التدريب المسبق ، والضبط الدقيق تحت الإشراف ، ونمذجة المكافآت ، والتعلم المعزز.
تتطلب كل مرحلة مجموعة بيانات.
تكمله Karpathy بمزيد من الأمثلة:
ما يجب الإشارة إليه بوضوح هنا هو أن ** النموذج الأساسي ليس نموذجًا مساعدًا **.
على الرغم من أن النموذج الأساسي يمكنه الإجابة على السؤال ، إلا أن الإجابة التي يقدمها ليست موثوقة ، وهو النموذج المساعد الذي يمكن استخدامه للإجابة على السؤال. نموذج مساعد تم تدريبه على النموذج الأساسي ، مع ضبط دقيق خاضع للإشراف ، سوف يتفوق على النموذج الأساسي في توليد الاستجابات وفهم بنية النص.
التعلم المعزز هو عملية حاسمة أخرى عند تدريب نماذج اللغة.
من خلال التدريب على البيانات عالية الجودة التي تحمل علامات بشرية ، يمكن استخدام نمذجة المكافآت لإنشاء وظيفة خسارة لتحسين أدائها. بعد ذلك ، يتم تنفيذ تدريب التعزيز عن طريق زيادة التسمية الإيجابية وتقليل احتمالية التسمية السلبية.
في المهام الإبداعية ، يعد استخدام الحكم البشري أمرًا بالغ الأهمية لتحسين نماذج الذكاء الاصطناعي ، ويمكن أن تؤدي إضافة ملاحظات بشرية إلى تدريب النماذج بشكل أكثر فعالية.
بعد التعلم المكثف مع ردود الفعل البشرية ، يمكن الحصول على نموذج RLHF.
بعد تدريب النموذج ، فإن الخطوة التالية هي كيفية استخدام هذه النماذج بفعالية لحل المشكلات.
كيفية استخدام النموذج بشكل أفضل؟
في ** الجزء الثاني ** ، تركز Karpathy على إستراتيجيات التلميح والضبط الدقيق والنظام البيئي للأدوات سريع النمو والتوسع المستقبلي.
أعطى Karpathy أمثلة محددة لتوضيح:
و ** تلميح () ** يمكن أن يعوض عن هذا الاختلاف المعرفي.
يشرح Karpathy أيضًا كيفية عمل تلميح ** Thought Chain **.
بالنسبة لمشاكل الاستدلال ، إذا كنت تريد أن يعمل Transformer بشكل أفضل في معالجة اللغة الطبيعية ، فأنت بحاجة إلى السماح له بمعالجة المعلومات خطوة بخطوة ، بدلاً من طرحها مباشرة مشكلة معقدة للغاية.
اقترح دانيال كانيمان ، الحائز على جائزة نوبل في الاقتصاد ، في "التفكير السريع والبطيء" أن النظام المعرفي البشري يتضمن نظامين فرعيين ، 1 و 2. 1 يعتمد أساسًا على الحدس ، بينما 2 هو نظام تحليل منطقي.
من منظور الشخص العادي ، 1 هي عملية سريعة وتلقائية ، و 2 جزء مدروس جيدًا.
هذا مذكور أيضًا في صحيفة شعبية حديثة بعنوان "شجرة الفكر".
يعتقد كارباثي أن هذا النوع من التفكير مشابه جدًا لـ AlphaGo:
في هذا الصدد ، ذكر Karpathy أيضًا AutoGPT:
محتوى سياق النافذة هو الذاكرة العاملة للمحولات في وقت التشغيل ، وإذا كان بإمكانك وضع المعلومات المتعلقة بالمهمة في السياق ، فسيؤدي أداءً جيدًا لأنه يتمتع بإمكانية الوصول الفوري إلى هذه المعلومات.
باختصار ، يمكن فهرسة البيانات ذات الصلة بحيث يمكن الوصول إلى النماذج بكفاءة.
أخيرًا ، تحدث كارباثي بإيجاز عن تقييد وضبط النماذج اللغوية الكبيرة. يمكن تحسين نماذج اللغات الكبيرة من خلال تلميحات القيود والضبط الدقيق. يفرض تلميح القيد القوالب في مخرجات نماذج اللغات الكبيرة ، بينما يعمل الضبط الدقيق على ضبط أوزان النموذج لتحسين الأداء.
حول أندريه كارباثي
في وقت لاحق ، كان ماسك ، أحد مؤسسي OpenAI ، يتوهم كارباثي وحفر الناس في تسلا. ولكن أيضًا بسبب هذا الحادث ، اندلع ماسك وأوبن إيه آي تمامًا ، وتم طردهما أخيرًا. في Tesla ، Karpathy هو رئيس مشاريع مثل Autopilot و FSD.
في فبراير من هذا العام ، بعد سبعة أشهر من مغادرة تسلا ، انضم كارباثي إلى أوبن إيه آي مرة أخرى.
في الآونة الأخيرة ، قام بتغريد أن هناك حاليًا الكثير من الاهتمام بتطوير نظام بيئي مفتوح المصدر للغة كبيرة الحجم ، والذي يشبه إلى حد ما علامة على الانفجار الكمبري المبكر.
ارتباط مرجعي: [1]