RAG w LLM: Dlaczego popularne rozwiązania to droga donikąd?

Поделиться
HTML-код
  • Опубликовано: 25 дек 2024

Комментарии • 18

  • @tomaszb9668
    @tomaszb9668 3 месяца назад

    Bardzo merytorycznie. Super. Bardzo dziękuję za przekazana wiedzę. Pozdrawiam serdecznie.

    • @DataWorkshop
      @DataWorkshop  2 месяца назад

      Dziękuję Tomasz :) działam, działam

  • @runnerwithwolves8369
    @runnerwithwolves8369 4 месяца назад +4

    Super materiały! Dzięki!

  • @deklaracjadostepnosciinf-ys1uz
    @deklaracjadostepnosciinf-ys1uz 4 месяца назад +2

    Czekam na każdy materiał i wciąż się uczę. Bardzo Ci dziękuję. Chcę jednak też ponarzekać:) Już kilka razy wspominałeś, że modele embeddingowe od OpenAI są słabe. Jednak chyba nigdy nie wspomniałeś, co lepiej wybrać. To taka podpucha?

    • @DataWorkshop
      @DataWorkshop  4 месяца назад +1

      Dziękuję za miłe słowa, to motywuje :)
      Co do embeddingów. Wspomniałem już kilka razy MTEB leaderboard, to jest benchmark dla embeddingów. Oczywiście nadal trzeba traktować to jako jeden z leaderboardów (o tym osobno mówiłem już), czyli #1 wcale nie oznacza najlepszy dla Ciebie.
      huggingface.co/spaces/mteb/leaderboard
      OpenAI w tym leaderboardzie też jest obecna, co prawda ich najlepszy model na ten moment, jak piszę ten komentarz, jest na 27. pozycji i ma nazwę "text-embedding-3-large", czyli jak widzisz nie zawiera OpenAI w nazwie. Inne ich modele są jeszcze niżej.
      openai.com/index/new-embedding-models-and-api-updates/

  • @marcingendek6103
    @marcingendek6103 2 месяца назад

    Świetny materiał. Jest w stanie zaoszczedzić dużo czasu samemu eksperymentując z RAG.

    • @DataWorkshop
      @DataWorkshop  2 месяца назад

      Dziękuję Marcin, staram się jak mogę :) jak mam kolejne dawki wiedzy, aby właśnie w tym pomóc
      @marcingendek6103

  • @jakubjanecki6064
    @jakubjanecki6064 4 месяца назад +1

    Dobry materiał, dzięki 🎉. Naiwnie myślałem, że LLM ustrukturyzuje mi dane bez względu na format i będę się cieszył poprawnym outputem beż wysiłku neuronów 😂

    • @DataWorkshop
      @DataWorkshop  4 месяца назад +1

      No jednak, nadal trzeba myśleć :)

  • @M10n8
    @M10n8 3 месяца назад +1

    hej, wspomniałeś o szkoleniu, możesz podesłać link? pozdrawiam PS rowniez stworzylem kilka ragow ale stwierdzilem ze to nie moze dzialac. Ogladajac ten film w koncu widze swiatelko w tunelu.

    • @DataWorkshop
      @DataWorkshop  16 часов назад

      Polecam zapisać się na listę chętnych tutaj:
      bit.ly/49VJXf5

  • @archiee1337
    @archiee1337 3 месяца назад

    Świetne video. Jaki embedding model polecasz do jezyka polskiego?

    • @DataWorkshop
      @DataWorkshop  2 месяца назад

      Dziękuję :)
      Rożnie to bywa, ale zawsze możesz zacząć od Silver: huggingface.co/ipipan/silver-retriever-base-v1

  • @arseniybrazhnyk648
    @arseniybrazhnyk648 4 месяца назад +1

    Dzięki bardzo za materiał! Czy możesz rozwinąć temat dotyczący chankowania: czy z twojego punktu widzenia nie warto dzielić dokument na chanki, a zapisywać jako całość do wektorowej bazy danych i łączyć wyszukiwanie o słowa kluczowe z semantycznym wyszukiwaniem?

    • @DataWorkshop
      @DataWorkshop  4 месяца назад +1

      No to już jakiś pomysł. Z mojego doświadczenia nie ma uniwersalnego rozwiązania. Wszystkie, które krążą, zbyt uogólniają (spłycają) temat. Ważne jest zacząć nie od technologii, tylko od rozwiązywania problemu i wtedy jest lepiej zrozumiałe, jak należy przechowywać dane. Polecam myśleć od tej strony.

    • @arseniybrazhnyk648
      @arseniybrazhnyk648 3 месяца назад

      @@DataWorkshop Dzięki za odpowiedź. Jeśli weźmiemy Twój przykład z filmiku -- wyszukiwanie informacji w sprawozdaniach finansowych dużych firm, które mają zazwyczaj 100+ stron, to jaką byś technikę wykorzystał? Interesuje mnie Twój sposób myślenia i podejście do rozwiązywania praktycznych problemów/wyzwań :)