Wow, Panowie, przepięknie zrealizowany tutorial. Nie dość, że "od zera do bohatera", to jeszcze nie zapomnieliście o zabezpieczeniu endpointu. I nawet cenowo ten g5.xlarge w AWS wychodzi całkiem znośnie, piątak za godzinę to uczciwa cena 🙂
Ale idealnie trafiliście! Sam planowałem postawić Bielika w chmurze, żeby się nim pobawić (i przy okazji poduczyć, jak z technicznego punktu widzenia najlepiej to zrobić). A z Waszym filmem i materiałami będzie to o wiele prostsze! Dzięki, że robicie takie materiały :D PS: Bielik 🦅
Wymagania pamięci są chyba nieco mniejsze - uruchomiłem Blielika-11B na maszynce z 16GB Ram, pamięć współdzielona z grafiką i śmiga (procek M4 oraz Ollama + WebUI z dokera - wszystko lokalnie więc zabiera pamięć a model odpowiada) .
Masz na myśli fine tuning z własnymi danymi? Raczej w tym przypadku sugerowałbym podejście typu RAG (Retrieval Augmented Generation) - czyli używasz model instruct, a swoje dane umieszczasz jako część prompta. Dane muszą być wcześniej zwektoryzowane, a ich znalezienie odbywa się przez porównanie podobieństwa wektora "zapytania" do wektora "dokumentu". Opowiadamy o tym podejściu w naszym filmiku "Zbuduj z nami Chatbota QA z LLM"
Bielik 11B na rtx 3060 raczej nie pojdzie (rtx 3060 ma 8 albo 12 GB pamieci VRAM) - a Bielik 11B postrzebuje 21GB :D Natomiast można popróbować z mniejszymi modelami - np. Bielik 7B z kwantyzacją Tutaj z oficjalnego githuba jest tutorial z kwantyzacją :) github.com/speakleash/Bielik-how-to-start/blob/main/Bielik_Instruct_QUANT_Tests.ipynb
Da się, pamiętając o tym, że Ollama jest nastawiona bardziej na uruchomianie modeli do potrzeb lokalnych, a nie serwerowych, tak jak wykorzystany przez nas vLLM.
Wow, Panowie, przepięknie zrealizowany tutorial. Nie dość, że "od zera do bohatera", to jeszcze nie zapomnieliście o zabezpieczeniu endpointu. I nawet cenowo ten g5.xlarge w AWS wychodzi całkiem znośnie, piątak za godzinę to uczciwa cena 🙂
Dzięki 🫶🏻
Jeszcze się orzeł bielik.. Dziękuję za materiał.
Film o polskim LLMie? Nie muszę włączać a już klikam like. POLSKA GUROM
Super przedstawione, mega ciekawy materiał. Fajnie, że jednak coś jest w naszym ojczystym języku. Bielik!
Dzięki!
Ale idealnie trafiliście! Sam planowałem postawić Bielika w chmurze, żeby się nim pobawić (i przy okazji poduczyć, jak z technicznego punktu widzenia najlepiej to zrobić). A z Waszym filmem i materiałami będzie to o wiele prostsze! Dzięki, że robicie takie materiały :D
PS: Bielik 🦅
Dzięki, bardzo nam miło!
Po co się męczyć, masz przecież LM Studio lub Jan i model skwantyzowany w formacie GGUF, uruchomisz zapewne na swoim kompie.
@@asqu Do zabawy lokalnie jak najbardziej. My pokazujemy wdrożenie serwerowe.
Kibicuję! Pomyślności panowie !
Dzięki ☺
🎉bielik!
Bielik. 👍👍
Wymagania pamięci są chyba nieco mniejsze - uruchomiłem Blielika-11B na maszynce z 16GB Ram, pamięć współdzielona z grafiką i śmiga (procek M4 oraz Ollama + WebUI z dokera - wszystko lokalnie więc zabiera pamięć a model odpowiada) .
Mi by się przydała wersja small Q4 np. 1B/1.5B/2B/2.5B/3B by uruchomić ją na telefonie np. w aplikacji ChatterUI
Czy Bielika można wcześniej nakarmić danymi aby był czymś w rodzaju "bazy wiedzy"?
Masz na myśli fine tuning z własnymi danymi? Raczej w tym przypadku sugerowałbym podejście typu RAG (Retrieval Augmented Generation) - czyli używasz model instruct, a swoje dane umieszczasz jako część prompta. Dane muszą być wcześniej zwektoryzowane, a ich znalezienie odbywa się przez porównanie podobieństwa wektora "zapytania" do wektora "dokumentu". Opowiadamy o tym podejściu w naszym filmiku "Zbuduj z nami Chatbota QA z LLM"
@@ml-workout Tak, dzięki. Juz odpalam film!
Czy da się to uruchomić na rtx 3060 na laptopie?
Bielik 11B na rtx 3060 raczej nie pojdzie (rtx 3060 ma 8 albo 12 GB pamieci VRAM) - a Bielik 11B postrzebuje 21GB :D
Natomiast można popróbować z mniejszymi modelami - np. Bielik 7B z kwantyzacją
Tutaj z oficjalnego githuba jest tutorial z kwantyzacją :)
github.com/speakleash/Bielik-how-to-start/blob/main/Bielik_Instruct_QUANT_Tests.ipynb
Da sie to "obsluzyc" poprzez ollame?
Da się, pamiętając o tym, że Ollama jest nastawiona bardziej na uruchomianie modeli do potrzeb lokalnych, a nie serwerowych, tak jak wykorzystany przez nas vLLM.
bielik
Bielik
bielik
Bielik