Dobry materiał, dzięki 🎉. Naiwnie myślałem, że LLM ustrukturyzuje mi dane bez względu na format i będę się cieszył poprawnym outputem beż wysiłku neuronów 😂
Dzięki bardzo za materiał! Czy możesz rozwinąć temat dotyczący chankowania: czy z twojego punktu widzenia nie warto dzielić dokument na chanki, a zapisywać jako całość do wektorowej bazy danych i łączyć wyszukiwanie o słowa kluczowe z semantycznym wyszukiwaniem?
No to już jakiś pomysł. Z mojego doświadczenia nie ma uniwersalnego rozwiązania. Wszystkie, które krążą, zbyt uogólniają (spłycają) temat. Ważne jest zacząć nie od technologii, tylko od rozwiązywania problemu i wtedy jest lepiej zrozumiałe, jak należy przechowywać dane. Polecam myśleć od tej strony.
@@DataWorkshop Dzięki za odpowiedź. Jeśli weźmiemy Twój przykład z filmiku -- wyszukiwanie informacji w sprawozdaniach finansowych dużych firm, które mają zazwyczaj 100+ stron, to jaką byś technikę wykorzystał? Interesuje mnie Twój sposób myślenia i podejście do rozwiązywania praktycznych problemów/wyzwań :)
Czekam na każdy materiał i wciąż się uczę. Bardzo Ci dziękuję. Chcę jednak też ponarzekać:) Już kilka razy wspominałeś, że modele embeddingowe od OpenAI są słabe. Jednak chyba nigdy nie wspomniałeś, co lepiej wybrać. To taka podpucha?
Dziękuję za miłe słowa, to motywuje :) Co do embeddingów. Wspomniałem już kilka razy MTEB leaderboard, to jest benchmark dla embeddingów. Oczywiście nadal trzeba traktować to jako jeden z leaderboardów (o tym osobno mówiłem już), czyli #1 wcale nie oznacza najlepszy dla Ciebie. huggingface.co/spaces/mteb/leaderboard OpenAI w tym leaderboardzie też jest obecna, co prawda ich najlepszy model na ten moment, jak piszę ten komentarz, jest na 27. pozycji i ma nazwę "text-embedding-3-large", czyli jak widzisz nie zawiera OpenAI w nazwie. Inne ich modele są jeszcze niżej. openai.com/index/new-embedding-models-and-api-updates/
hej, wspomniałeś o szkoleniu, możesz podesłać link? pozdrawiam PS rowniez stworzylem kilka ragow ale stwierdzilem ze to nie moze dzialac. Ogladajac ten film w koncu widze swiatelko w tunelu.
Bardzo merytorycznie. Super. Bardzo dziękuję za przekazana wiedzę. Pozdrawiam serdecznie.
Dziękuję Tomasz :) działam, działam
Świetny materiał. Jest w stanie zaoszczedzić dużo czasu samemu eksperymentując z RAG.
Dziękuję Marcin, staram się jak mogę :) jak mam kolejne dawki wiedzy, aby właśnie w tym pomóc
@marcingendek6103
Super materiały! Dzięki!
Dziękuję :)
Dobry materiał, dzięki 🎉. Naiwnie myślałem, że LLM ustrukturyzuje mi dane bez względu na format i będę się cieszył poprawnym outputem beż wysiłku neuronów 😂
No jednak, nadal trzeba myśleć :)
Dzięki bardzo za materiał! Czy możesz rozwinąć temat dotyczący chankowania: czy z twojego punktu widzenia nie warto dzielić dokument na chanki, a zapisywać jako całość do wektorowej bazy danych i łączyć wyszukiwanie o słowa kluczowe z semantycznym wyszukiwaniem?
No to już jakiś pomysł. Z mojego doświadczenia nie ma uniwersalnego rozwiązania. Wszystkie, które krążą, zbyt uogólniają (spłycają) temat. Ważne jest zacząć nie od technologii, tylko od rozwiązywania problemu i wtedy jest lepiej zrozumiałe, jak należy przechowywać dane. Polecam myśleć od tej strony.
@@DataWorkshop Dzięki za odpowiedź. Jeśli weźmiemy Twój przykład z filmiku -- wyszukiwanie informacji w sprawozdaniach finansowych dużych firm, które mają zazwyczaj 100+ stron, to jaką byś technikę wykorzystał? Interesuje mnie Twój sposób myślenia i podejście do rozwiązywania praktycznych problemów/wyzwań :)
Czekam na każdy materiał i wciąż się uczę. Bardzo Ci dziękuję. Chcę jednak też ponarzekać:) Już kilka razy wspominałeś, że modele embeddingowe od OpenAI są słabe. Jednak chyba nigdy nie wspomniałeś, co lepiej wybrać. To taka podpucha?
Dziękuję za miłe słowa, to motywuje :)
Co do embeddingów. Wspomniałem już kilka razy MTEB leaderboard, to jest benchmark dla embeddingów. Oczywiście nadal trzeba traktować to jako jeden z leaderboardów (o tym osobno mówiłem już), czyli #1 wcale nie oznacza najlepszy dla Ciebie.
huggingface.co/spaces/mteb/leaderboard
OpenAI w tym leaderboardzie też jest obecna, co prawda ich najlepszy model na ten moment, jak piszę ten komentarz, jest na 27. pozycji i ma nazwę "text-embedding-3-large", czyli jak widzisz nie zawiera OpenAI w nazwie. Inne ich modele są jeszcze niżej.
openai.com/index/new-embedding-models-and-api-updates/
Świetne video. Jaki embedding model polecasz do jezyka polskiego?
Dziękuję :)
Rożnie to bywa, ale zawsze możesz zacząć od Silver: huggingface.co/ipipan/silver-retriever-base-v1
hej, wspomniałeś o szkoleniu, możesz podesłać link? pozdrawiam PS rowniez stworzylem kilka ragow ale stwierdzilem ze to nie moze dzialac. Ogladajac ten film w koncu widze swiatelko w tunelu.