- Видео 40
- Просмотров 30 946
ML-Workout
Польша
Добавлен 30 дек 2022
Cześć! Z tej strony Marcin i Wojtek - w naszej serii RUclips ML-Workout omawiamy tematy związane z uczeniem maszynowym i sztuczną inteligencją. Sami jesteśmy inżynierami-praktykami i przedstawiamy zagadnienia z ML/AI z perspektywy wdrożeniowej. Zapraszamy!
Jak serwować LLM Bielik-11B 🦅 - Tutorial #17
W tym odcinku pokazujemy krok po kroku - jak zaserwować model Bielik-11B na swojej maszynie wirtualnej
» Zapisz do naszej listy mailowej, aby otrzymać video Tutorial konfiguracji maszyny do serwowania Bielika: ml-workout.pl/gpu-vm
Bielik (bielik.ai/) jest polskim modelem językowym zbudowanym na bazie modelu Mistral-7B. Jest oparty na architekturze transformer, będąc modelem typu decoder-only. Jest jednym z najpotężniejszych modeli językowych stworzonych w Polsce (źródło: bielik.ai/)
Wojtek Mikołajczyk
LinkedIn: www.linkedin.com/in/wojciech-mikolajczyk/
Blog: womiko.me
Marcin Zabłocki
LinkedIn: www.linkedin.com/in/marrrcin/
Blog: zablo.net/
Timestamps:
0:00 - Intro
0:30 - Plan odcinka
1:20 - LitServe
2...
» Zapisz do naszej listy mailowej, aby otrzymać video Tutorial konfiguracji maszyny do serwowania Bielika: ml-workout.pl/gpu-vm
Bielik (bielik.ai/) jest polskim modelem językowym zbudowanym na bazie modelu Mistral-7B. Jest oparty na architekturze transformer, będąc modelem typu decoder-only. Jest jednym z najpotężniejszych modeli językowych stworzonych w Polsce (źródło: bielik.ai/)
Wojtek Mikołajczyk
LinkedIn: www.linkedin.com/in/wojciech-mikolajczyk/
Blog: womiko.me
Marcin Zabłocki
LinkedIn: www.linkedin.com/in/marrrcin/
Blog: zablo.net/
Timestamps:
0:00 - Intro
0:30 - Plan odcinka
1:20 - LitServe
2...
Просмотров: 5 382
Видео
AI Model Serving w FastAPI - Tutorial #16
Просмотров 1,6 тыс.4 месяца назад
W tym odcinku pokazujemy jak przygotować Model Serving w FastAPI » Zapisz się na newsletter, aby odebrać dostęp do kodu z wszystkich odcinków ML-Workout ( model, który serwujemy): ml-workout.pl/kod FastAPI (fastapi.tiangolo.com/ jest frameworkiem Pythonowym do tworzenia aplikacji webowych. Pozwala w prosty sposób przygotować i wystawić REST API - co można wykorzystać przy tworzeniu AI Model Ser...
Streamlit - Praktyczny Tutorial! ML-Workout #15
Просмотров 9414 месяца назад
W tym odcinku pokazujemy Streamlit - który umożliwia tworzenie interaktywnych aplikacji do demonstracji modeli AI/ML » Zapisz się na newsletter, aby odebrać dostęp do kodu z wszystkich odcinków ML-Workout: ml-workout.pl/kod Streamlit (streamlit.io/) jest frameworkiem Pythonowym i posiada wiele wbudowanych elementów interfejsu graficznego (np. inputy / slidery) - z których można stworzyć interak...
Optuna (Hyperparameter Tuning) - Praktyczny Tutorial! ML-Workout #14
Просмотров 6886 месяцев назад
Optuna (Hyperparameter Tuning) - Praktyczny Tutorial! ML-Workout #14
Jak zrobić dobry klasyfikator tekstu w 30min - Praktyczny Tutorial! ML-Workout #13
Просмотров 8028 месяцев назад
Jak zrobić dobry klasyfikator tekstu w 30min - Praktyczny Tutorial! ML-Workout #13
Zrozum Embeddingi w 5min! - ML-Workout #12
Просмотров 9859 месяцев назад
Zrozum Embeddingi w 5min! - ML-Workout #12
MLflow - Praktyczny Tutorial! ML-Workout #11
Просмотров 1,5 тыс.11 месяцев назад
MLflow - Praktyczny Tutorial! ML-Workout #11
Top 10 feature’ów PyTorch - ML-Workout #10
Просмотров 594Год назад
Top 10 feature’ów PyTorch - ML-Workout #10
LLM.int8() od podszewki! - ML-Workout #9
Просмотров 607Год назад
LLM.int8() od podszewki! - ML-Workout #9
Kwantyzacja w Pythonie krok po korku - ML-Workout #8
Просмотров 395Год назад
Kwantyzacja w Pythonie krok po korku - ML-Workout #8
Zrozum z nami kwantyzację - ML-Workout #7
Просмотров 704Год назад
Zrozum z nami kwantyzację - ML-Workout #7
Zbuduj z nami Chatbota QA z LLM w 30min (tutorial pl) - ML-Workout #6
Просмотров 1,6 тыс.Год назад
Zbuduj z nami Chatbota QA z LLM w 30min (tutorial pl) - ML-Workout #6
Jak działa Chat GPT? - ML-Workout #1
Просмотров 3,1 тыс.2 года назад
Jak działa Chat GPT? - ML-Workout #1
A ja mam prośbę nieco od czapy. ;) To, rzecz jasna, kwestia przyzwyczajenia, ale chętnie posłuchałbym o pip vs conda/mamba; przy okazji przesiadki na nowego kompa znowu zacząłem odkrywać koło na nowo. Conda wydaje się oczywistym wyborem... do czasu, gdy potrzebna libka jest dostępna tylko przez pip. To mógłby być fajny spin-off. Używacie virtualenv z virtualenvwrapper -> co Was najbardziej irytuje, jakie z tych problemów rozwiązałaby conda? I w drugą stronę - co w obecnym setupie jest lepsze? :)
Wiedza domenowa, ciekawe akademickie słowotwórstwo, które ominęło inne gałęzie przemysłu.
A po filmie dalej nie wiem dlaczego określa się proces ML embeddingiem, a nie po prostu starszym słowem: wektoryzacją.
Wiedza domenowa, nie jest do końca akademickim słowotwórstwem, występuje w branży IT, używana chociażby w Domain-Driven Design (DDD) :) Definicja słownikowa słowa "domena": "zakres zainteresowań lub działalności jakiejś osoby, instytucji lub dziedziny wiedzy" - także jako zakres dziedziny wiedzy, pasuje doskonale! :)
I nie pokazaliśmy na końcu czy nadal jest overfitting :)))
a czy w lini 37 nie ma bledu ???
który plik / skrypt masz na myśli? :)
Wymagania pamięci są chyba nieco mniejsze - uruchomiłem Blielika-11B na maszynce z 16GB Ram, pamięć współdzielona z grafiką i śmiga (procek M4 oraz Ollama + WebUI z dokera - wszystko lokalnie więc zabiera pamięć a model odpowiada) .
bielik
Jeszcze się orzeł bielik.. Dziękuję za materiał.
Czy da się to uruchomić na rtx 3060 na laptopie?
Bielik 11B na rtx 3060 raczej nie pojdzie (rtx 3060 ma 8 albo 12 GB pamieci VRAM) - a Bielik 11B postrzebuje 21GB :D Natomiast można popróbować z mniejszymi modelami - np. Bielik 7B z kwantyzacją Tutaj z oficjalnego githuba jest tutorial z kwantyzacją :) github.com/speakleash/Bielik-how-to-start/blob/main/Bielik_Instruct_QUANT_Tests.ipynb
Serwujemy ❤
TensorFlow
Gpuski
Kibicuję! Pomyślności panowie !
Dzięki ☺
Drogi są dwie albo mamy dostęp do dużej ilości danych i chcemy z nich skleic maszynkę AI do exploracji albo mamy jakąś fajną maszynkę i chcemy generować nowe dane. Jako że żadna świeża osoba na rynku nie ma raczej żadnej specjalistycznej wiedzy domenowej to najlepiej byłoby się zastanowić jak wygenerować nowe dane i zbudować swoją wiedzę domenową na podstawie tego co daje narzędzie AI. Tak mi się wydaje
Generowanie danych i budowanie wiedzy na bazie AI to świetny sposób na start. Dzięki za podzielenie się!
🎉bielik!
Bielik. 👍👍
bielik
Bielik
Mi by się przydała wersja small Q4 np. 1B/1.5B/2B/2.5B/3B by uruchomić ją na telefonie np. w aplikacji ChatterUI
Da sie to "obsluzyc" poprzez ollame?
Da się, pamiętając o tym, że Ollama jest nastawiona bardziej na uruchomianie modeli do potrzeb lokalnych, a nie serwerowych, tak jak wykorzystany przez nas vLLM.
Film o polskim LLMie? Nie muszę włączać a już klikam like. POLSKA GUROM
Wow, Panowie, przepięknie zrealizowany tutorial. Nie dość, że "od zera do bohatera", to jeszcze nie zapomnieliście o zabezpieczeniu endpointu. I nawet cenowo ten g5.xlarge w AWS wychodzi całkiem znośnie, piątak za godzinę to uczciwa cena 🙂
Dzięki 🫶🏻
Bielik
Super przedstawione, mega ciekawy materiał. Fajnie, że jednak coś jest w naszym ojczystym języku. Bielik!
Dzięki!
Bardzo dobrze wytłumaczone. Spróbuję krok po kroku zastosować na swoim przypadku.
Dzięki!
Ale idealnie trafiliście! Sam planowałem postawić Bielika w chmurze, żeby się nim pobawić (i przy okazji poduczyć, jak z technicznego punktu widzenia najlepiej to zrobić). A z Waszym filmem i materiałami będzie to o wiele prostsze! Dzięki, że robicie takie materiały :D PS: Bielik 🦅
Dzięki, bardzo nam miło!
Po co się męczyć, masz przecież LM Studio lub Jan i model skwantyzowany w formacie GGUF, uruchomisz zapewne na swoim kompie.
@@asqu Do zabawy lokalnie jak najbardziej. My pokazujemy wdrożenie serwerowe.
Czy Bielika można wcześniej nakarmić danymi aby był czymś w rodzaju "bazy wiedzy"?
Masz na myśli fine tuning z własnymi danymi? Raczej w tym przypadku sugerowałbym podejście typu RAG (Retrieval Augmented Generation) - czyli używasz model instruct, a swoje dane umieszczasz jako część prompta. Dane muszą być wcześniej zwektoryzowane, a ich znalezienie odbywa się przez porównanie podobieństwa wektora "zapytania" do wektora "dokumentu". Opowiadamy o tym podejściu w naszym filmiku "Zbuduj z nami Chatbota QA z LLM"
@@ml-workout Tak, dzięki. Juz odpalam film!
Odpowiedź to F1 Score! Aż kusiło, żeby dodać go do metryk w tych eksperymentach :D
Obejrzałem jako MLOps z 4-letnim doświadczeniem po pracy dla relaksu, i żałuję że nie trafiłem na takie materiały te 4 lata temu. Dobra robota i niezła edycja nagrań! 😁
Wielkie dzięki 💙! Taką formę relaksu lubimy najbardziej 🤓
PyTorch 🔥
GPUski
Możliwy jest jednoczesny tuning hiperparametrów modelu wraz z tuningiem thresholdu?
Kiedy kolejny odcinek?
Już niedługo 🤞🏻
Ma swoje wady i zalety :)
lubie Flaska od wersji 2.0 ;)
za co? :)
@@ml-workout za prostotę…
Poproszę materiał o preprocessingu danych. Mam na myśli jak zamienić dane tekstowe na dane liczbowe
dzięki za komentarz - będziemy mieli na uwadze planując przyszłe materiały! :)
👌
:)
Nie lubię Flaska
my też :D
ogolnie to nieporozumienie, zeby pisac backend w pythonie. python nie jest do tego!!! (mowie o backendzie od a do z, a nie o udostepnianiu jakiegos endpointa do modelu za pomoca pythona)
Dzięki Spoko materiał
dziękujemy bardzo! :)
dobra robota byczki =D
dzięki :D
Spoko
A jak wygląda ten moment, czy proces przejścia od słowa pisanego, do jego reprezentacji wektorowej? Skąd się bierze informacja o rozmiarze i kolorze (w nawiązaniu do Waszego przykładu)? I w jaki sposób jest robiony ten embedding wielowymiarowy w przypadku całego zdania, czy kilku zdań per jedna reprezentacja wektorowa? Algorytmy nie rozumieją słów, więc jak tworzą ich reprezentacje na tym poziomie złożoności? Ta magia mi umyka ;)
Tutaj to działa tak, że jak na przykładzie z owocami nasz "embedding model" jest w stanie reprezentować owoce liczbowo bo "się na tym zna" -> to na tekście jako "embedding model" bierzemy jakąś Głęboką Sieć Neuronową trenowaną na tekście i uczyła się np. przewidywać następne słowo. Taka sieć widziała olbrzymi wolumen tekstu i ucząc się przewidywać kolejne słowa - nauczyła się zależności między wyrazami, jakie występują często razem i w pewien sposób dzięki temu też uchwyciła ich znaczenie. Wyliczenie tego wektoru wygląda tak, że na wejściu jest np. zdanie tekstu -> to jest zamieniane na tokeny (liczba reprezentująca każde słowo) i przepuszczane jest przez sieć, ale potem nie bierzemy np. wyniku które słowo powinno być następne - tylko czytamy wartości jednej z ostatnich jej warstw - czyli mamy taką "wewnętrzną reprezentację tekstu" danej sieci :)
REWELACJA!😀
Tak patrzę na te wykresy zależności pomiędzy zmiennymi niezależnymi (chyba 3 były pokazane), a jakością wina, to korelacje są tam dosyć słabe, więc pewnie to co wpływa na jakość wina to kombinacja zmiennych. P.S. Pokazaliście dekorator do cashowania, jako metodę w streamlicie - czy są analogiczne, które można zastosować poza streamlitem? Bardzo przystępnie wyjaśnione zagadnienie - jak zwykle zresztą ;)
Dzięki za komentarz! W Pythonie można użyć np. dekoratorów cache() lub lru_cache() z modułu functools.
@@ml-workout dzięki serdeczne 😊
MetaLlica Workout :) Świetny materiał.
Super materiał! Dzięki za wyjaśnienie :D
Cieszymy się bardzo - i dzięki za komentarz! :)
Ładne ząbki Marcin, ładne :D gratki ukończenia leczenia :P
Hah, dzięki! 😁 M.
Problem jaki widzę to taki, że ludzie nie znaja możliwości technicznych LLMow, albo są one nieaktualne. To co bylo trudne dla LLMów rok temu, dziś może być duzo łatwiejsze (np. tłumaczenia na jezyki inne niż angielski). W ilu firmach pani Krysia recznie przepisuje dane z papierowych faktur do systemu fakturowego, skoro dziś AI bez problemu jest w stanie zczytać dane z zeskanowanej faktury w formacie JPG i za pomoca odpowieniego API moglaby sama wrzucic dane do bazy danych. To tylko przykad. Przykładów gdzie mozna by uzyc LLMy jest mnostwo w niemal każdej branzy, tylko ludzie maja problem z wymysleniem ktorą czesc ich pracy mozna by zlecić aplikacji bazujacej na LLM.
Dzięki za komentarz, cenne spostrzeżenia!