الكأس المقدس لـ Crypto AI: استكشاف الحدود للتدريب اللامركزي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، يعد تدريب النماذج المرحلة الأكثر استهلاكًا للموارد والأعلى من حيث عتبة التقنية، حيث يحدد بشكل مباشر الحد الأقصى لقدرات النموذج وفعالية التطبيق الفعلي. مقارنة بمرحلة الاستدلال التي تتطلب استدعاء خفيف الوزن، يحتاج عملية التدريب إلى استثمار مستمر في قوة الحوسبة الكبيرة، وعمليات معالجة البيانات المعقدة، ودعم خوارزميات التحسين عالية الكثافة، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من حيث نمط الهيكلة، يمكن تقسيم طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، تعلم الفيدرالي، والتدريب اللامركزي الذي سيتم مناقشته في هذه المقالة.
يُعتبر التدريب المركز هو الطريقة التقليدية الأكثر شيوعًا، حيث يتم إكمال جميع عمليات التدريب من قبل مؤسسة واحدة داخل مجموعة عالية الأداء محليًا، من الأجهزة، والبرامج الأساسية، ونظام جدولة المجموعة، إلى جميع مكونات إطار التدريب، يتم تنسيق تشغيلها بواسطة نظام تحكم موحد. تسمح هذه البنية التحتية المتعمقة بالتعاون بتحقيق أفضل كفاءة في مشاركة الذاكرة، ومزامنة التدرجات، وآليات التحمل، وهي مناسبة جدًا لتدريب نماذج كبيرة مثل GPT وGemini، حيث تتمتع بمزايا الكفاءة العالية، والموارد القابلة للتحكم، ولكنها تواجه أيضًا مشاكل مثل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.
يعد التدريب الموزع هو الأسلوب السائد حاليًا في تدريب النماذج الكبيرة، حيث يتمثل جوهره في تقسيم مهام تدريب النموذج وتوزيعها على عدة آلات لتنفيذها بشكل متعاون، وذلك لتجاوز قيود الحوسبة والتخزين على جهاز واحد. على الرغم من وجود خصائص "الموزعة" من الناحية الفيزيائية، إلا أن التحكم والتنسيق والتزامن لا يزال يتم بواسطة مؤسسات مركزية، وغالبًا ما تعمل في بيئة شبكة محلية عالية السرعة، من خلال تقنية ناقل الربط السريع NVLink، حيث يقوم العقدة الرئيسية بتنسيق المهام الفرعية بشكل موحد. تشمل الطرق السائدة:
التوازي البياني: كل عقدة تدرب معلمات بيانات مختلفة تتشارك في الوزن النموذجي، يجب مطابقة أوزان النموذج
التوازي في النموذج: نشر أجزاء مختلفة من النموذج على نقاط مختلفة، لتحقيق قابلية التوسع القوية
تنفيذ متسلسل على مراحل: يعزز معدل النقل
التوازي بالتنسور: تقسيم دقيق لحساب المصفوفات، تحسين حجم التوازي
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، على غرار توجيه نفس المدير لموظفي "المكاتب" المتعددين عن بُعد للتعاون في إكمال المهام. حاليًا، يتم تدريب جميع النماذج الكبرى السائدة تقريبًا بهذه الطريقة.
اللامركزية التدريبية تمثل مسارًا مستقبليًا أكثر انفتاحًا ومقاومة للرقابة. تتمثل الخصائص الأساسية في: عدة عقد غير موثوقة تتعاون لإنجاز مهام التدريب دون وجود منسق مركزي، عادةً من خلال بروتوكولات تدفع توزيع المهام والتعاون، وتستخدم آليات التحفيز المشفرة لضمان نزاهة المساهمات. تشمل التحديات الرئيسية التي تواجه هذا النموذج:
صعوبة التجهيز غير المتجانس والتقسيم: صعوبة تنسيق الأجهزة غير المتجانسة، وكفاءة تقسيم المهام منخفضة
عائق كفاءة الاتصال: الاتصالات الشبكية غير مستقرة، وظهور واضح لعائق تزامن التدرج
عدم وجود تنفيذ موثوق: عدم توفر بيئة تنفيذ موثوقة، مما يجعل من الصعب التحقق مما إذا كانت العقدة تشارك بالفعل في الحساب.
نقص التنسيق الموحد: لا يوجد جهاز تحكم مركزي، توزيع المهام، وآلية التراجع عن الأخطاء معقدة
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين العالميين، كل منهم يساهم في قوة الحوسبة لتدريب النموذج بشكل تعاوني، ولكن "التدريب اللامركزي الكبير القابل للتطبيق حقًا" لا يزال يمثل تحديًا هندسيًا منهجيًا، يشمل عدة جوانب مثل بنية النظام، بروتوكولات الاتصالات، أمان التشفير، الآليات الاقتصادية، والتحقق من النموذج، ولكن ما إذا كان يمكن أن يكون "تعاون فعال + تحفيز نزيه + نتائج صحيحة" لا يزال في مرحلة استكشاف النموذج الأولي المبكرة.
التعلم الفيدرالي كونه شكل انتقال بين التوزيع واللامركزية، يؤكد على الاحتفاظ بالبيانات محليًا، وتجميع معلمات النموذج مركزيًا، وهو مناسب للمشاهد التي تركز على الامتثال للخصوصية. يتمتع التعلم الفيدرالي بهيكل هندسي للتدريب الموزع وقدرة على التعاون المحلي، بينما يمتلك أيضًا مزايا توزيع البيانات في التدريب اللامركزي، لكنه لا يزال يعتمد على جهة تنسيق موثوقة، وليس لديه خصائص مفتوحة تمامًا ومقاومة للرقابة. يمكن اعتباره نوعًا من "اللامركزية المتحكم بها" في سياقات الامتثال للخصوصية، حيث أن المهام التدريبية، وبنية الثقة، وآلية الاتصال جميعها معتدلة نسبيًا، مما يجعله أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.
اللامركزية تدريب الحدود، الفرص والطرق الواقعية
من حيث نمط التدريب، فإن التدريب اللامركزي ليس مناسبًا لجميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، أو الحاجة الكبيرة للموارد، أو صعوبة التعاون، فإنه بطبيعته لا يصلح لإكماله بكفاءة بين العقد المتغايرة وغير الموثوقة. على سبيل المثال، غالبًا ما يعتمد تدريب النماذج الكبيرة على ذاكرة وصول عشوائي عالية، وزمن استجابة منخفض، وعرض نطاق ترددي عالٍ، مما يجعل من الصعب تقسيمه ومزامنته بفعالية في الشبكة المفتوحة؛ كما أن المهام ذات الخصوصية العالية للبيانات والقيود السيادية مقيدة بالقوانين والامتثال والأخلاقيات، مما يمنع المشاركة المفتوحة؛ بينما المهام التي تفتقر إلى حوافز التعاون الأساسية تفتقر إلى الدافع الخارجي للمشاركة. تشكل هذه الحدود معًا القيود الواقعية الحالية على التدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو فكرة زائفة. في الواقع، في أنواع المهام الهيكلية الخفيفة وسهلة التوازي والقابلة للتحفيز، يظهر التدريب اللامركزي آفاق تطبيق واضحة. بما في ذلك، ولكن لا تقتصر على: ضبط LoRA، مهام التدريب المتأخرة الموجهة للسلوك، مهام تدريب وتصنيف البيانات عبر الحشود، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، وكذلك سيناريوهات التدريب التعاوني بمشاركة الأجهزة الطرفية. تتمتع هذه المهام عمومًا بخصائص عالية من التوازي، وانخفاض الارتباط، وتحمل القدرة الحاسوبية المتغايرة، مما يجعلها مناسبة جدًا للتدريب التعاوني عبر الشبكات P2P، بروتوكول Swarm، والمحسنات الموزعة.
تحليل مشروع التدريب الكلاسيكي اللامركزي
حالياً في مجالات التدريب اللامركزي والتعلم الفيدرالي، تشمل المشاريع البارزة في مجال البلوكشين بشكل رئيسي Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، مما يمثل الاتجاهات الرائدة في الأبحاث النظرية الحالية؛ بينما تظهر مسارات تنفيذ Gensyn وFlock.io وضوحاً نسبياً، حيث يمكن رؤية تقدم هندسي أولي. ستقوم هذه المقالة بتحليل التقنيات الأساسية والهياكل الهندسية وراء هذه المشاريع الخمسة بالتتابع، بالإضافة إلى مناقشة الفروق والعلاقات التكميلية بينها في نظام تدريب الذكاء الاصطناعي اللامركزي.
Prime Intellect: رائد الشبكات التعاونية للتعلم المعزز القابل للتحقق من مسارات التدريب
تسعى Prime Intellect إلى بناء شبكة تدريب الذكاء الاصطناعي التي لا تتطلب الثقة، مما يتيح لأي شخص المشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحسابية. تأمل Prime Intellect من خلال ثلاثة مكونات هي PRIME-RL + TOPLOC + SHARDCAST، في إنشاء نظام تدريب ذكاء اصطناعي اللامركزي يتمتع بالتحقق، والانفتاح، وآلية تحفيز كاملة.
01، هيكل بروتوكول Prime Intellect و قيمة الوحدات الرئيسية
02، شرح آلية التدريب الرئيسية لـ Prime Intellect
#PRIME-RL:هيكل مهمة التعلم المعزز غير المتزامن المفكك
PRIME-RL هو إطار لنمذجة المهام وتنفيذها تم تصميمه خصيصًا من قبل Prime Intellect لسيناريوهات التدريب اللامركزية، وهو مصمم للشبكات المتنوعة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف رئيسي، حيث يفصل بشكل هيكلي بين عمليات التدريب والاستدلال ورفع الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام بشكل مستقل محليًا، والتعاون من خلال واجهات قياسية وآليات التحقق والتجميع. بالمقارنة مع العمليات التقليدية للتعلم تحت الإشراف، فإن PRIME-RL أكثر ملاءمة لتحقيق التدريب المرن في بيئات بدون جدولة مركزية، مما يقلل من تعقيد النظام، ويضع الأساس لدعم المهام المتعددة والتوازي وتطور الاستراتيجيات.
#TOPLOC:آلية التحقق من سلوك التدريب الخفيف
TOPLOC هو آلية جوهرية للتحقق من التدريب اقترحها Prime Intellect، تُستخدم لتحديد ما إذا كان العقد قد أكمل فعلاً تعلم استراتيجية فعالة بناءً على بيانات المراقبة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل يُنجز التحقق الهيكلي الخفيف من خلال تحليل "تسلسل المراقبة ↔ تحديث الاستراتيجية" بين مسارات التناسق المحلي. إنه يحول للمرة الأولى مسارات السلوك أثناء عملية التدريب إلى كائنات يمكن التحقق منها، وهو ابتكار رئيسي لتحقيق توزيع مكافآت التدريب بدون ثقة، مما يوفر مسارًا قابلاً للتطبيق لبناء شبكة تدريب تعاونية لامركزية قابلة للتدقيق والحوافز.
#SHARDCAST: بروتوكول تجميع ونشر الوزن غير المتزامن
SHARDCAST هو بروتوكول لنشر وتجمع الأوزان صممه Prime Intellect، مصمم خصيصًا للبيئات الشبكية الحقيقية التي تعاني من اللامركزية، قيود النطاق الترددي، وتغير حالة العقد. يجمع بين آلية نشر gossip واستراتيجيات التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية باستمرار في حالات عدم التزامن، مما يحقق التقارب التدريجي للأوزان وتطورات متعددة النسخ. مقارنةً بأساليب AllReduce المركزية أو المتزامنة، يعزز SHARDCAST بشكل كبير قابلية التوسع وقدرة التحمل في التدريب اللامركزي، وهو الأساس الرئيسي لبناء توافق الأوزان المستقر والتدريب المستمر.
#OpenDiLoCo:إطار الاتصال غير المتزامن المتناثر
OpenDiLoCo هو إطار تحسين الاتصالات الذي تم تحقيقه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect بناءً على مفهوم DiLoCo الذي اقترحته DeepMind، مصمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، وتنوع الأجهزة، وعدم استقرار العقد. يعتمد هيكله على التوازي في البيانات، من خلال بناء هياكل طوبولوجية نادرة مثل Ring وExpander وSmall-World، مما يتجنب التكلفة العالية للتزامن العالمي في الاتصالات، حيث يمكن إكمال تدريب النموذج التعاوني فقط بالاعتماد على العقد المجاورة المحلية. بالاقتران مع التحديث غير المتزامن وآلية تحمل النقاط، يتيح OpenDiLoCo لأجهزة GPU الاستهلاكية والأجهزة الطرفية المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير إمكانية المشاركة في التدريب التعاوني العالمي، ويعد أحد البنى التحتية الأساسية للاتصالات لبناء شبكة تدريب اللامركزية.
#PCCL: مكتبة الاتصالات التعاونية
PCCL هو مكتبة اتصالات خفيفة الوزن مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، وتهدف إلى حل اختناقات التوافق في المكتبات التقليدية للأجهزة المتغايرة، والشبكات ذات النطاق الترددي المنخفض. يدعم PCCL الطوبولوجيا المتناثرة، وضغط التدرج، والتزامن منخفض الدقة، واستعادة النقاط، ويمكن تشغيله على وحدات معالجة الرسوميات الاستهلاكية والعقد غير المستقرة، وهو المكون الأساسي الذي يدعم قدرة الاتصال غير المتزامن لبروتوكول OpenDiLoCo. لقد زاد بشكل كبير من تحمل عرض النطاق الترددي للشبكات التدريبية وتوافق الأجهزة، مما يفتح "آخر كيلومتر" من البنية التحتية للاتصالات لبناء شبكة تدريب تعاونية حقيقية مفتوحة وغير موثوقة.
03، شبكة Prime Intellect والحوافز وتقسيم الأدوار
أنشأت Prime Intellect شبكة تدريب يمكن التحقق منها وغير قائمة على إذن، مزودة بآلية تحفيزية اقتصادية، مما يسمح لأي شخص بالمشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعتمد تشغيل البروتوكول على ثلاث فئات من الأدوار الأساسية:
عقد التدريب: تنفيذ التدريب المحلي، تقديم تحديثات الوزن ومسارات المراقبة
عقد التحقق: استخدام آلية TOPLOC للتحقق من صحة سلوك التدريب والمشاركة في حساب المكافآت وتجميع الاستراتيجيات
تشمل العمليات الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان وإصدار المكافآت، مما يشكل حلقة تحفيزية حول "سلوك التدريب الحقيقي".
04، INTELLECT-2: أول نموذج تدريب لامركزي يمكن التحقق منه يتم إصداره
أصدرت Prime Intellect في مايو 2025 INTELLECT-2، وهو أول نموذج كبير للتعلم المعزز تم تدريبه بالتعاون بين عقد لا مركزية غير موثوقة ومتزامنة، بحجم معلمات يصل إلى 32B. تم تدريب نموذج INTELLECT-2 بالتعاون بين أكثر من 100 عقدة GPU غير متجانسة موزعة على ثلاث قارات، باستخدام بنية غير متزامنة بالكامل، واستمر التدريب لأكثر من 400 ساعة، مما يظهر جدوى واستقرار الشبكة التعاونية غير المتزامنة. لا يمثل هذا النموذج مجرد اختراق في الأداء، بل هو أيضًا أول تطبيق نظامي لنموذج "التدريب هو الإجماع" الذي اقترحته Prime Intellect. يتضمن INTELLECT-2 وحدات البروتوكول الأساسية مثل PRIME-RL وTOPLOC وSHARDCAST، مما يدل على أن الشبكة التدريبية اللامركزية قد حققت لأول مرة.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
استكشاف تدريب الذكاء الاصطناعي اللامركزي: من Prime Intellect إلى الممارسات الرائدة في Pluralis
الكأس المقدس لـ Crypto AI: استكشاف الحدود للتدريب اللامركزي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، يعد تدريب النماذج المرحلة الأكثر استهلاكًا للموارد والأعلى من حيث عتبة التقنية، حيث يحدد بشكل مباشر الحد الأقصى لقدرات النموذج وفعالية التطبيق الفعلي. مقارنة بمرحلة الاستدلال التي تتطلب استدعاء خفيف الوزن، يحتاج عملية التدريب إلى استثمار مستمر في قوة الحوسبة الكبيرة، وعمليات معالجة البيانات المعقدة، ودعم خوارزميات التحسين عالية الكثافة، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من حيث نمط الهيكلة، يمكن تقسيم طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، تعلم الفيدرالي، والتدريب اللامركزي الذي سيتم مناقشته في هذه المقالة.
يُعتبر التدريب المركز هو الطريقة التقليدية الأكثر شيوعًا، حيث يتم إكمال جميع عمليات التدريب من قبل مؤسسة واحدة داخل مجموعة عالية الأداء محليًا، من الأجهزة، والبرامج الأساسية، ونظام جدولة المجموعة، إلى جميع مكونات إطار التدريب، يتم تنسيق تشغيلها بواسطة نظام تحكم موحد. تسمح هذه البنية التحتية المتعمقة بالتعاون بتحقيق أفضل كفاءة في مشاركة الذاكرة، ومزامنة التدرجات، وآليات التحمل، وهي مناسبة جدًا لتدريب نماذج كبيرة مثل GPT وGemini، حيث تتمتع بمزايا الكفاءة العالية، والموارد القابلة للتحكم، ولكنها تواجه أيضًا مشاكل مثل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.
يعد التدريب الموزع هو الأسلوب السائد حاليًا في تدريب النماذج الكبيرة، حيث يتمثل جوهره في تقسيم مهام تدريب النموذج وتوزيعها على عدة آلات لتنفيذها بشكل متعاون، وذلك لتجاوز قيود الحوسبة والتخزين على جهاز واحد. على الرغم من وجود خصائص "الموزعة" من الناحية الفيزيائية، إلا أن التحكم والتنسيق والتزامن لا يزال يتم بواسطة مؤسسات مركزية، وغالبًا ما تعمل في بيئة شبكة محلية عالية السرعة، من خلال تقنية ناقل الربط السريع NVLink، حيث يقوم العقدة الرئيسية بتنسيق المهام الفرعية بشكل موحد. تشمل الطرق السائدة:
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، على غرار توجيه نفس المدير لموظفي "المكاتب" المتعددين عن بُعد للتعاون في إكمال المهام. حاليًا، يتم تدريب جميع النماذج الكبرى السائدة تقريبًا بهذه الطريقة.
اللامركزية التدريبية تمثل مسارًا مستقبليًا أكثر انفتاحًا ومقاومة للرقابة. تتمثل الخصائص الأساسية في: عدة عقد غير موثوقة تتعاون لإنجاز مهام التدريب دون وجود منسق مركزي، عادةً من خلال بروتوكولات تدفع توزيع المهام والتعاون، وتستخدم آليات التحفيز المشفرة لضمان نزاهة المساهمات. تشمل التحديات الرئيسية التي تواجه هذا النموذج:
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين العالميين، كل منهم يساهم في قوة الحوسبة لتدريب النموذج بشكل تعاوني، ولكن "التدريب اللامركزي الكبير القابل للتطبيق حقًا" لا يزال يمثل تحديًا هندسيًا منهجيًا، يشمل عدة جوانب مثل بنية النظام، بروتوكولات الاتصالات، أمان التشفير، الآليات الاقتصادية، والتحقق من النموذج، ولكن ما إذا كان يمكن أن يكون "تعاون فعال + تحفيز نزيه + نتائج صحيحة" لا يزال في مرحلة استكشاف النموذج الأولي المبكرة.
التعلم الفيدرالي كونه شكل انتقال بين التوزيع واللامركزية، يؤكد على الاحتفاظ بالبيانات محليًا، وتجميع معلمات النموذج مركزيًا، وهو مناسب للمشاهد التي تركز على الامتثال للخصوصية. يتمتع التعلم الفيدرالي بهيكل هندسي للتدريب الموزع وقدرة على التعاون المحلي، بينما يمتلك أيضًا مزايا توزيع البيانات في التدريب اللامركزي، لكنه لا يزال يعتمد على جهة تنسيق موثوقة، وليس لديه خصائص مفتوحة تمامًا ومقاومة للرقابة. يمكن اعتباره نوعًا من "اللامركزية المتحكم بها" في سياقات الامتثال للخصوصية، حيث أن المهام التدريبية، وبنية الثقة، وآلية الاتصال جميعها معتدلة نسبيًا، مما يجعله أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.
اللامركزية تدريب الحدود، الفرص والطرق الواقعية
من حيث نمط التدريب، فإن التدريب اللامركزي ليس مناسبًا لجميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، أو الحاجة الكبيرة للموارد، أو صعوبة التعاون، فإنه بطبيعته لا يصلح لإكماله بكفاءة بين العقد المتغايرة وغير الموثوقة. على سبيل المثال، غالبًا ما يعتمد تدريب النماذج الكبيرة على ذاكرة وصول عشوائي عالية، وزمن استجابة منخفض، وعرض نطاق ترددي عالٍ، مما يجعل من الصعب تقسيمه ومزامنته بفعالية في الشبكة المفتوحة؛ كما أن المهام ذات الخصوصية العالية للبيانات والقيود السيادية مقيدة بالقوانين والامتثال والأخلاقيات، مما يمنع المشاركة المفتوحة؛ بينما المهام التي تفتقر إلى حوافز التعاون الأساسية تفتقر إلى الدافع الخارجي للمشاركة. تشكل هذه الحدود معًا القيود الواقعية الحالية على التدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو فكرة زائفة. في الواقع، في أنواع المهام الهيكلية الخفيفة وسهلة التوازي والقابلة للتحفيز، يظهر التدريب اللامركزي آفاق تطبيق واضحة. بما في ذلك، ولكن لا تقتصر على: ضبط LoRA، مهام التدريب المتأخرة الموجهة للسلوك، مهام تدريب وتصنيف البيانات عبر الحشود، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، وكذلك سيناريوهات التدريب التعاوني بمشاركة الأجهزة الطرفية. تتمتع هذه المهام عمومًا بخصائص عالية من التوازي، وانخفاض الارتباط، وتحمل القدرة الحاسوبية المتغايرة، مما يجعلها مناسبة جدًا للتدريب التعاوني عبر الشبكات P2P، بروتوكول Swarm، والمحسنات الموزعة.
تحليل مشروع التدريب الكلاسيكي اللامركزي
حالياً في مجالات التدريب اللامركزي والتعلم الفيدرالي، تشمل المشاريع البارزة في مجال البلوكشين بشكل رئيسي Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، مما يمثل الاتجاهات الرائدة في الأبحاث النظرية الحالية؛ بينما تظهر مسارات تنفيذ Gensyn وFlock.io وضوحاً نسبياً، حيث يمكن رؤية تقدم هندسي أولي. ستقوم هذه المقالة بتحليل التقنيات الأساسية والهياكل الهندسية وراء هذه المشاريع الخمسة بالتتابع، بالإضافة إلى مناقشة الفروق والعلاقات التكميلية بينها في نظام تدريب الذكاء الاصطناعي اللامركزي.
Prime Intellect: رائد الشبكات التعاونية للتعلم المعزز القابل للتحقق من مسارات التدريب
تسعى Prime Intellect إلى بناء شبكة تدريب الذكاء الاصطناعي التي لا تتطلب الثقة، مما يتيح لأي شخص المشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحسابية. تأمل Prime Intellect من خلال ثلاثة مكونات هي PRIME-RL + TOPLOC + SHARDCAST، في إنشاء نظام تدريب ذكاء اصطناعي اللامركزي يتمتع بالتحقق، والانفتاح، وآلية تحفيز كاملة.
01، هيكل بروتوكول Prime Intellect و قيمة الوحدات الرئيسية
02، شرح آلية التدريب الرئيسية لـ Prime Intellect
#PRIME-RL:هيكل مهمة التعلم المعزز غير المتزامن المفكك
PRIME-RL هو إطار لنمذجة المهام وتنفيذها تم تصميمه خصيصًا من قبل Prime Intellect لسيناريوهات التدريب اللامركزية، وهو مصمم للشبكات المتنوعة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف رئيسي، حيث يفصل بشكل هيكلي بين عمليات التدريب والاستدلال ورفع الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام بشكل مستقل محليًا، والتعاون من خلال واجهات قياسية وآليات التحقق والتجميع. بالمقارنة مع العمليات التقليدية للتعلم تحت الإشراف، فإن PRIME-RL أكثر ملاءمة لتحقيق التدريب المرن في بيئات بدون جدولة مركزية، مما يقلل من تعقيد النظام، ويضع الأساس لدعم المهام المتعددة والتوازي وتطور الاستراتيجيات.
#TOPLOC:آلية التحقق من سلوك التدريب الخفيف
TOPLOC هو آلية جوهرية للتحقق من التدريب اقترحها Prime Intellect، تُستخدم لتحديد ما إذا كان العقد قد أكمل فعلاً تعلم استراتيجية فعالة بناءً على بيانات المراقبة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل يُنجز التحقق الهيكلي الخفيف من خلال تحليل "تسلسل المراقبة ↔ تحديث الاستراتيجية" بين مسارات التناسق المحلي. إنه يحول للمرة الأولى مسارات السلوك أثناء عملية التدريب إلى كائنات يمكن التحقق منها، وهو ابتكار رئيسي لتحقيق توزيع مكافآت التدريب بدون ثقة، مما يوفر مسارًا قابلاً للتطبيق لبناء شبكة تدريب تعاونية لامركزية قابلة للتدقيق والحوافز.
#SHARDCAST: بروتوكول تجميع ونشر الوزن غير المتزامن
SHARDCAST هو بروتوكول لنشر وتجمع الأوزان صممه Prime Intellect، مصمم خصيصًا للبيئات الشبكية الحقيقية التي تعاني من اللامركزية، قيود النطاق الترددي، وتغير حالة العقد. يجمع بين آلية نشر gossip واستراتيجيات التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية باستمرار في حالات عدم التزامن، مما يحقق التقارب التدريجي للأوزان وتطورات متعددة النسخ. مقارنةً بأساليب AllReduce المركزية أو المتزامنة، يعزز SHARDCAST بشكل كبير قابلية التوسع وقدرة التحمل في التدريب اللامركزي، وهو الأساس الرئيسي لبناء توافق الأوزان المستقر والتدريب المستمر.
#OpenDiLoCo:إطار الاتصال غير المتزامن المتناثر
OpenDiLoCo هو إطار تحسين الاتصالات الذي تم تحقيقه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect بناءً على مفهوم DiLoCo الذي اقترحته DeepMind، مصمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، وتنوع الأجهزة، وعدم استقرار العقد. يعتمد هيكله على التوازي في البيانات، من خلال بناء هياكل طوبولوجية نادرة مثل Ring وExpander وSmall-World، مما يتجنب التكلفة العالية للتزامن العالمي في الاتصالات، حيث يمكن إكمال تدريب النموذج التعاوني فقط بالاعتماد على العقد المجاورة المحلية. بالاقتران مع التحديث غير المتزامن وآلية تحمل النقاط، يتيح OpenDiLoCo لأجهزة GPU الاستهلاكية والأجهزة الطرفية المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير إمكانية المشاركة في التدريب التعاوني العالمي، ويعد أحد البنى التحتية الأساسية للاتصالات لبناء شبكة تدريب اللامركزية.
#PCCL: مكتبة الاتصالات التعاونية
PCCL هو مكتبة اتصالات خفيفة الوزن مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، وتهدف إلى حل اختناقات التوافق في المكتبات التقليدية للأجهزة المتغايرة، والشبكات ذات النطاق الترددي المنخفض. يدعم PCCL الطوبولوجيا المتناثرة، وضغط التدرج، والتزامن منخفض الدقة، واستعادة النقاط، ويمكن تشغيله على وحدات معالجة الرسوميات الاستهلاكية والعقد غير المستقرة، وهو المكون الأساسي الذي يدعم قدرة الاتصال غير المتزامن لبروتوكول OpenDiLoCo. لقد زاد بشكل كبير من تحمل عرض النطاق الترددي للشبكات التدريبية وتوافق الأجهزة، مما يفتح "آخر كيلومتر" من البنية التحتية للاتصالات لبناء شبكة تدريب تعاونية حقيقية مفتوحة وغير موثوقة.
03، شبكة Prime Intellect والحوافز وتقسيم الأدوار
أنشأت Prime Intellect شبكة تدريب يمكن التحقق منها وغير قائمة على إذن، مزودة بآلية تحفيزية اقتصادية، مما يسمح لأي شخص بالمشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعتمد تشغيل البروتوكول على ثلاث فئات من الأدوار الأساسية:
تشمل العمليات الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان وإصدار المكافآت، مما يشكل حلقة تحفيزية حول "سلوك التدريب الحقيقي".
04، INTELLECT-2: أول نموذج تدريب لامركزي يمكن التحقق منه يتم إصداره
أصدرت Prime Intellect في مايو 2025 INTELLECT-2، وهو أول نموذج كبير للتعلم المعزز تم تدريبه بالتعاون بين عقد لا مركزية غير موثوقة ومتزامنة، بحجم معلمات يصل إلى 32B. تم تدريب نموذج INTELLECT-2 بالتعاون بين أكثر من 100 عقدة GPU غير متجانسة موزعة على ثلاث قارات، باستخدام بنية غير متزامنة بالكامل، واستمر التدريب لأكثر من 400 ساعة، مما يظهر جدوى واستقرار الشبكة التعاونية غير المتزامنة. لا يمثل هذا النموذج مجرد اختراق في الأداء، بل هو أيضًا أول تطبيق نظامي لنموذج "التدريب هو الإجماع" الذي اقترحته Prime Intellect. يتضمن INTELLECT-2 وحدات البروتوكول الأساسية مثل PRIME-RL وTOPLOC وSHARDCAST، مما يدل على أن الشبكة التدريبية اللامركزية قد حققت لأول مرة.