نموذج علام اللغوي | ALLaM | نظــرة أعمق

Поделиться
HTML-код
  • Опубликовано: 11 сен 2024
  • في هذا الفيديو, نستكشف سوياً تجربة بناء النموذج اللغوي (علام) المقدم من الهيئة السعودية للبيانات و الذكاء الاصطناعي في السعودية.
    من خلال الورقة البحثية, نستكشف سوياً مراحل استكشاف المشكلة, وصولاً الى انشاء مجموعة النماذج اللغوية بكافة أنواعها.
    03:30 from scratch or not
    06:00 How does tokenizer work
    08:51 LLaMA2 tokenizer
    10:43 Fertility Rate
    12:39 How can we expand the vocabulary
    14:43 The ColossalAI Experiment
    16:45 MMLU Datasets and the translation issues
    22:00 How pre-train data were prepared
    25:19 The pile dataset
    25:50 Collecting Arabic Dataset
    26:50 How to qualify the collected data
    28:23 The datatrove project
    29:40 The CosmoPedia Dataset
    30:45 The machine-translated dataset
    32:45 How to evaluate data ratios
    34:50 Mixed Data Ratios
    36:00 Continued Pretraining
    37:30 Expanded vocabularies training
    40:00 Continued Pretraining Hyperparameters
    44:00 Train from scratch
    44:20 Training on multiple stages
    45:30 The cross-lingual transfer phenomena
    48:30 Why do we need large batches
    51:00 GPU Infrastructure
    54:50 From base-model to instructions-tuned
    56:40 The Ultra-Instinct dataset
    01:00:01 The instructions-tuned model hyperparameters
    01:04:00 Why do we need an additional finetuning step
    01:07:00 Preference Training
    01:07:50 DPO
    01:11:00 On-Policy and Off-Policy Negative Sampling
    01:13:00 DPO Data Augmentation
    01:15:40 Learning Rates and Data Sizes
    01:18:20 How many evaluation shots do you need
    01:27:00 Human Evaluation Vs. Automated Evaluation
    01:28:00 LMSys Arena
    01:32:00 Why do we need to develop our evaluation
    01:33:50 Conclusion

Комментарии • 42

  • @YounesSaouabeddine
    @YounesSaouabeddine 13 дней назад +1

    بارك الله فيك وأحسن اليك، سبق وشاهدت مقطع الtransformer و Jais وكذا سلسلة الmini-rag ، صراحة محتوى من الطراز العالي و نحن في أمس الحاجة للمزيد ان شاء الله، أعانك الله أخي ابو بكر.
    أخوكم من المغرب.

  • @wesamkhallaf
    @wesamkhallaf 22 дня назад +4

    انت تقدم محتوي عربي رائع غير موجود كثيرا في هذا المجال وباسلوب مميز احييك عليه

  • @Qwme5
    @Qwme5 25 дней назад +8

    شكرا جزيلا من اعماق قلبي ، انا كنت طالب دكتوراة ولم اكمل واعرف جيدا قيمة ما تقدم و سبحان الله جاء هذا المقطع وانا افكر اني اشارك في تحدي علام ، انا لسه ما كملت الفيديو ولكن والله البداية مشرفة وانت مثال مشرف للباحث العربي المتعلم ، واسلوب جميل في شرح الورقة العلمية والتفاصيل المهمة . متابع قناتك باهتمام وحرام والله ما عندك مشاهدين ودعم. ربنا يفتح عليك ونشوفك في أعلى المراكز يارب

    • @bakrianoo
      @bakrianoo  25 дней назад +1

      @@Qwme5
      شكرا جدا على كلماتك الجميلة. و اتمنى لك التوفيق و الخير دوما 🙏

    • @hindraheemalmayyali3072
      @hindraheemalmayyali3072 20 дней назад

      ممكن اتواصل مع حظرتك ؟؟

  • @MohamedAliFarag-oz8do
    @MohamedAliFarag-oz8do 9 дней назад

    عاش يا بكر ، ربنا يزيدك علماً وحلماً. 😍

  • @hashimosmanmusa8715
    @hashimosmanmusa8715 23 дня назад +4

    طريقة الشرح وجودة المحتوى شئ في قمة الجمال جزاك الله كل خير

  • @Programmer2023-ld7hg
    @Programmer2023-ld7hg 25 дней назад +3

    هذه المحتوه الذي ينير العقل ويزيد المعرفه ويجعل الانسان اكثر انتاجيه .

  • @user-es6nb8rj1o
    @user-es6nb8rj1o 14 дней назад

    والله تحية لإخواننا المصريين أفضل من يشرح المفاهيم العلمية بالعربية، شاهدت كثيرا من الفيديوهات الأجنبية ولم أفهم كما فهمت منك
    أخوك من المغرب.

    • @bakrianoo
      @bakrianoo  14 дней назад

      @@user-es6nb8rj1o
      تحياتنا لأهل المغرب الغالي

  • @mohamedyassinch6016
    @mohamedyassinch6016 3 дня назад

    عاش بالتوفيق

  • @sultanovic7123
    @sultanovic7123 18 дней назад

    شكرا لك على المقطع والشرح وياليت تكون اوبن سورس صراحة النتيجة مرضية بالنظر لكمية المعضلات .

  • @dabody123456
    @dabody123456 21 день назад

    بارك الله فيك و رحم الله والديك و زادك من كل علم نافع، شكرا على الفيديو شكرا يا بشمهندس أبو بكر

  • @professorgamer2084
    @professorgamer2084 15 дней назад

    محتوى نادر وذو جودة عالية ... يعطيك العافية

  • @mohamedhatem325
    @mohamedhatem325 24 дня назад

    شكرا يا أبو بكر على الفيديو ده .... معلومات رائعة ربنا يجعلها فى ميزان حسناتك

  • @nancyboukamel442
    @nancyboukamel442 23 дня назад +1

    you are amazing :) greetings from lebanon

  • @shhada80
    @shhada80 20 дней назад

    جزاك الله عللى هذا الشرح المستفيض وعلى المعلومات القيمة المنثورة في ثنايا هذا الشرح، وكنا نتمنى لو كان هنالك نسخة منشورة للجميع ليتم التجريب عليها والحكم على النموذج بالتجارب الواقعية من خلال هذا الفيديو أو من خلال تجارب المستخدمين، فتبقى التجربة خير برهان.. أكرر شكري العميق لك على مجهوداتك الجبارة في الفيديوهات الفريدة التي تقدمها، والتي دوماً ما تزودنا بمعلومات جديدة لم نكن نعرفها، فنسأل الله تعالى أن يجعلها في ميزان حسناتك

  • @fertgoer7257
    @fertgoer7257 24 дня назад

    شكرا لك على الفيديو القيم والغني اقترح عليك فيديو يتحدث عن مشكلة شح البيانات العربية وسبل زيادتها

  • @kareemdesouky3603
    @kareemdesouky3603 19 дней назад

    جميل جدا يا ابو بكر ربنا يكرمك يا صديقي ❤

  • @mekkiahmedi
    @mekkiahmedi 24 дня назад +2

    في هذا النموذج الذي بني على لغتين انجلبزي عربي، بنسبة تكاد تكون متساوية يكون هنالك خطر التحيز،حيث ان الابحاث العلمية باللغة العربية تكاد تكون معدومة

  • @haithamaliryan9197
    @haithamaliryan9197 20 дней назад

    ما شاء الله ، شرح جميل ورائع ،
    سؤالي : من هم الأشخاص الذين تنصح بمتابعتهم على كل وسائل التواصل

  • @obh-m6fobh
    @obh-m6fobh 21 день назад

    جزاك الله كل خير ، محتوى قيم جداً

  • @msharno
    @msharno 24 дня назад

    محتوى عظيم والله. ربنا يبارك فيك

  • @eslamnaser4904
    @eslamnaser4904 20 дней назад

    الله،فخورين بيك ❤

  • @RaslanAbuzant
    @RaslanAbuzant 20 дней назад

    جزاك الله كل خير - معلومات رائعة

  • @AasemSaid
    @AasemSaid 25 дней назад

    ماشاء الله ربنا يزيدك يارب ويعلمنا جميعا

  • @abdallahaliabdallah6394
    @abdallahaliabdallah6394 25 дней назад

    من قلبي - بارك الله فيك و زادك من كل علم نافع، شكرا على الفيديوهات الرائعة باللغة العربية الي نادرا ما الواحد بيلاقي زيها في مجال متخصص زي الـ LLM
    كمل على نفس النهج و الطريق - واستأذنك لو تقدر تعمل مقارنة عملية بين النماذج الي بتدعم اللغة العربية وتحطها في مقارنة مع حاجة زي command-r / command-r-plus / qwen2 (9b/72b)
    أنا حاليا شغال على بحث متعلق للـ LLM / RAG وحتى اللحظة دول أفضل ٣ نماذج بقدرة ممتازة على معالجة و ترجمة النصوص و التفكير المنطقي بشكل عام، فهل في بديل عربي ليه نفس القدرات؟
    بردو هل عندك ترشيح لاي نموذج قوي تحت 70b يقدر يعالج النصوص العربية غير المذكورين فوق؟

  • @mohamedajamy
    @mohamedajamy 20 дней назад

    شكرا لك شرح مفصل وجميل

  • @asmaamahmoud7465
    @asmaamahmoud7465 25 дней назад

    جزاك الله خيرا يا بشمهندس

  • @justcars2454
    @justcars2454 24 дня назад

    جميل، كون هناك مراكز عربية ل الذكاء الاصطناعي.

  • @adnenchouibi7945
    @adnenchouibi7945 21 день назад

    Bravo 👏👏👏

  • @drmostafamahammad
    @drmostafamahammad 20 дней назад

    اتوقع استعمال محلل صرفي للتقطيع هيرفع الجودة..

  • @HazemAzim
    @HazemAzim 20 дней назад

    رائع

  • @unknown-ie3ik
    @unknown-ie3ik 25 дней назад

    راااائع

  • @RogayaAdamElzinSalim
    @RogayaAdamElzinSalim 21 день назад

    wounderfull

  • @omaral-halabiah2851
    @omaral-halabiah2851 19 дней назад

    جزاك الله خيراً
    عندي استفسار: لماذا لا يكون هناك models مخصصة لأمر محدد كأن يكون لدينا Model مدرب على أن يعطي أكواد بايثون و model مدرب على أن يعطي مقالات , ألن يكون هذه models أدق بالنتيجة ؟

  • @muchmore777
    @muchmore777 23 дня назад

    It's a problem with the model in training and embedding a lot led to pressure to adapt

  • @katebalbalawi890
    @katebalbalawi890 20 дней назад +3

    كانت بتسبورت ؟؟؟ ياخي كانت تدعم،، تكلم عربي او انجليزي لا تخلط

    • @heeemo2026
      @heeemo2026 14 дней назад

      يعني سبت الفيديو كله ولزقت في ذي؟

    • @user-td7ct3jq4z
      @user-td7ct3jq4z 14 дней назад

      المصريين كلهم هيج

  • @khaledalmundi1990
    @khaledalmundi1990 7 дней назад

    Please, I need to contact you, but couldn’t find a way to do so.
    If you can provide me with your email so I can send info there.
    Best regards 🙏🏼