Lokalny LLM w 2 liniach kodu - Gemini Nano
HTML-код
- Опубликовано: 25 окт 2024
- Nowe API dostępne w Google Chrome umożliwia programistom wysyłanie zapytań do lokalnego modelu językowego (LLM). Mowa o Gemini Nano. To rozwiązanie działa w pełni lokalnie, bez wysyłania jakichkolwiek danych do chmury.
➤ aidevs.pl/?ref...
Obecnie funkcja ta dostępna jest jedynie w wersji testowej przeglądarki Chrome, ale docelowo ma pojawić się w oficjalnej wersji przeglądarki.
Użyteczne, jeśli potrzebujesz zastosowania sztucznej inteligencji w środowisku, w którym wykluczone jest wysyłanie danych do chmury.
Szybkość działania lokalnego modelu zależy od sprzętu, jaki posiadasz. Film był nagrywany na Macbooku Pro M1 z 32GB RAM.
Chrome w wersji Canary (do testowania nowych możliwości):
www.google.com...
AI_Devs - szkolenie dla profesjonalistów chcących opanować tematykę AI/LLM:
aidevs.pl/?ref...
JSFiddle - edytor, którego używam na filmie:
jsfiddle.net/
Nakładka na GPT-4o, której użyłem
heyalice.app
Instrukcja, jak odblokować Gemini Nano w Chrome Canary:
writingmate.ai...
--
Podoba Ci się to, co robię? Lubisz moje filmy?
Zostań patronem 👇
➤ patronite.pl/u...
Instagram:
/ uwteam_org
Facebook:
jakub.mr...
Fanpage:
/ uwteam.org
Mój newsletter (#unknowNews):
unknow.news
Twitter:
/ uwteam
Jakich narzędzi i aplikacji używam?
mrugalski.pl/u...
Mój projekt z serwerami VPS
mikr.us
Subskrybuj kanał, aby nie przeoczyć kolejnych filmów.
Jeśli masz pytania, zadaj je w komentarzach 👇
Super, dziękuję! ❤❤❤
❤❤❤
❤❤❤
❤❤❤
❤❤❤
Czy przez to nie otwieramy się na podatności związane z LLM i maszyny na której to stoi 🤭?
Fajna ciekawostka! Tylko żeby to bylo masowo używane to raczej inne przegladarki też powinny to mieć. No i czas pokaze do czego to beda uzywali mi na razie przychodzi tylko na mysl poprawianie tekstu albo sprawdzanie czy zawiera jakies wymagane szczegoly.
Przeglądarka Edge ma już od dawna AI zintegrowane, można się do niego odwołać w każdej chwili w trakcie przeglądania stron internetowych, można używać zwykłego czatu niczym w openai, generować obrazy, albo zadawać pytania związane z treściami, jakie aktualnie przeglądamy.
@@FoXcodeZ ale to co jest na filmiku to jest calkiem co innego, to jest funkcja javascript do ktorej maja dostep developerzy stron i moga ją wykorzystać jako logikę po stronie frontendu
@@Im2F2F Używałem tego i to nie prawda. To zwykła funkcja wysyłająca zapytanie do modelu zainstalowanego lokalnie (fizycznie na Twoim komputerze i musi być też na komputerze każdego użytkownika). Taka funkcję można napisać samemu, w Pythonie to kilka linijek kodu. Aby z tego korzystać trzeba najpierw zainstalować Gemini Nano na swoim komputerze (zajmuje ~22GB). Na filmie nie jest wspomniane nic o tym, że trzeba ustawić 2 flagi w chrome aby zaczął ściągać Gemini w tle. Używanie tego, jako logiki jest trochę bez sensu, bo dużo wymagań musi być spełnionych, aby to w ogóle działało, są łatwiejsze sposoby (tutaj każdy użytkownik musi mieć chrome i gemini zainstalowane).
Ad "jak nie dziala to jest nardo źle" raczje powiedziałbym, ze to prawdopodobnie wynika z tego że tak funkcjonalnosc jest za feature flag, którą trzeba włączyć.
Wydaje mi się, że teraz są setki rozwiązań na lokalne LLM, a ten nie jest ani prosty, ani ergonomiczny. Chyba, że Gemini Nano wyróżnia się jakoś szczególnie.
Trzeba tutaj rozróżnić dwie rzeczy: rozwiązania dla użytkowników i rozwiązania dla programistów w postaci API.
Gemini Nano jest dla programistów, po to, aby ktoś mógł przykładowo stworzyć grę napędzaną silnikiem LLM.
Dodatkowo każde z setek rozwiązań, o których wspominasz, trzeba oddzielnie zainstalować i oddzielnie ściągać do nich modele językowe. Tutaj mówimy o najpopularniejszej przeglądarce świata, która ma mieć natywnie wbudowaną obsługę sztucznej inteligencji i domyślnie zainstalowany model językowy.
Czy Gemini Nano wbudowane w Chrome "wyróżnia się jakoś szczególnie"?
Nooo.... jest to pierwsza na świecie przeglądarka WWW udostępniająca API do sztucznej inteligencji dla programistów, więc no "TROCHĘ" się wyróżnia 😃
To jest rewolucja dla PROGRAMISTÓW - nie dla userów. User może sobie zainstalować jedną z setek gotowych aplikacji.
Nawet ja na filmie używam gotowca (Alice) do obsługi LLM-ów.
@@uwteamorg Nie pomyślałem z perspektywy programistów. Na razie nie wiem czy jest się czym podniecać jak to będzie api tylko dla Chrome.
Jako user wolałbym unikać Chrome i zainstalować model.
Jak to zintegrować z n8n? Przydałby się na tryb offline.
Nie zintegrujesz tego z N8N, bo to działa w przeglądarce - nie do tego to służy. Co do trybu, to istnieje tylko tryb offline, więc to już jest :)
@@uwteamorg Chodzi o hostowanie modeli. Gemini nano mógłby wiele zadań ogarniać bez zewnętrznej chmury tylko API trzeba zgadać.
Tak z ciekawości, czy Gemini Nano w Chrome wymaga połączenia z internetem, czy działa całkowicie lokalnie?
To rozwiązanie działa w pełni offline. Żadne dane nie są wysyłane do chmury.
Hej Jakub, jako, że jesteś człowiekiem który lubi rozwijać swoje umiejętności, mam dla ciebie kolejny cel - kurs emisji głosu. Wiedzę techniczną już masz, więc pora skupić się przekazywaniu tej wiedzy bo z takim napierdalaniem słów jak z kałasznikowa jest to utrudnione dla słuchaczy. Bez urazy, ale mówisz za szybko i niewyraźnie. Gdzie ty się tak śpieszysz? Polecam kursy z emisji głosu.
Nie jestem przekonany, czy na szkoleniu z emisji głosu zrobią cokolwiek z szybkością mojego mówienia, ale zdecydowanie warto, abym skupił się na wyraźniejszym mówieniem i lepszą dykcją. Dzięki więc za radę - pomyślę, co mogę z tym zrobić 👍
@@uwteamorg wierzę w Ciebie :) Zobaczysz to będzie ciekawa przygoda.
przepraszam że pytam jakim nadzieniem wygenerowałeś formularz bo nie mogę znaleźć
Użyłem Alice - www.heyalice.app/
Pod spodem to narzędzie używa GPT-4o, więc możesz wykorzystywać też dowolne inne narzędzie o podobnych możliwościach lub nawet płatną wersję ChatGPT lub Perplexity jeśli chcesz i masz tam konto. Większość modeli LLM sobie z tym zadaniem poradzi.
@@uwteamorg dziekuje
3 linijka nie brakuje średnika ?
Obecnie w JavaScript średniki są opcjonalne ze względu na mechanizm ASI (Automatic Semicolon Insertion). Ja przeważnie je dodaje z dwóch powodów: po pierwsze z przyzwyczajenia, a po drugie, na co dzień sporo piszę w PHP i tam jest to wymagane.
Ach a bylo juz tak dobrze jesli chodiz o kompatybilność przeglądarek.
Fragment z dokumentacji tej funkcjonalności:
"We do not intend to force every browser to ship or expose a language model; in particular, not all devices will be capable of storing or running one. It would be conforming to implement this API by always returning "no" from canCreateTextSession(), or to implement this API entirely by using cloud services instead of on-device models.
We do not intend to provide guarantees of language model quality, stability, or interoperability between browsers. In particular, we cannot guarantee that the models exposed by these APIs are particularly good at any given use case. These are left as quality-of-implementation issues, similar to the shape detection API. (See also a discussion of interop in the W3C "AI & the Web" document.)"
nie działa na M1
Ja to nagrywałem na M1, więc musi działać. Wykonałeś instrukcję aktywacji Gemini Nano z opisu filmu?
@@uwteamorg tak, i nie mam komponentu 'chrome://components and ensure that the Optimization Guide On Device Model '. Gdzieś znalazłem jakieś info że może być to zaimplementowane tylko dla CUDA, ale skoro piszesz, że robiłeś to na M1 to pogrzebię w tym jeszcze
A nie robiłeś tego przypadkiem z jakimś VPN?
"Coś jak gemini, tylko trochę głupsze" - no to zachęciłeś. Myślałem, że dżeminaj to już poziom mułu. Zapowiada się prawdziwa rewolucja...
To, że model zwraca kiepskie odpowiedzi, gdy jest pytane o wiedze, nie znaczy, że nie poradzi sobie np. z zadaniami klasyfikacji danych, z którymi tradycyjne programowanie często nie daje sobie rady. Myślę, że udostępnienie tego API dla programistów może nieźle namieszać w webowym świecie.
@@uwteamorg Sprawdzałem gemini niedługo po premierze, zarówno sposób jego odpowiedzi na pytania ogólne jak i na poziomie generowania kodu. Dałem mu też drugą szansę jakiś czas później. Delikatnie to ujmując, moje doświadczenia nie były najlepsze. Na co dzień korzystam z GPT. Testuję też claude AI (po ostatniej aktualizacji) i moje rezultaty są bardzo dobre. To teraz bardziej obrazowo. Kromkę chleba możesz posmarować zarówno nutellą jak i kupą. Oba będą brązowe. Co prawda nie próbowałem nigdy drugiego rozwiązania, jednak nie znaczy to, że jak ktoś na youtube je zareklamuje, to od razu będę chciał tego doświadczyć. Uważam twoje materiały za rzetelne, więc mam nadzieję, że jednak nie będziesz polecał takich rozwiązań dla programistów. Pomyśl o tym w ten sposób: jak pójdziemy do sklepu po nowe oprogramowanie, to zamiast nutelli w słoiczku może znaleźć się coś innego, bo ktoś postanowił użyć dżeminaj po obejrzeniu takiego wideo. Polecajmy tylko systemy, które mają szansę działać poprawnie, żeby się nie zatruć ;-)
widocznie nigdy nie korzystales z 1.5 pro
Szymonie... na początek, chcąc wyrazić swoje odmienne zdanie, zachowaj przynajmniej pozory kultury.
Co do tematu Gemini Nano, to zgaduję, że nigdy nie miałeś do czynienia z rozwiązaniami "AI as a Backend". Piszesz o próbach generowania kodu i o pytaniach o wiedzę. Do tego nie służą tego rodzaju modele. Spróbuj popracować z modelami o rozmiarach np 7B parametrów. Są niezbyt bystre, co nie zmienia faktu, że wiele firm z nich korzysta wewnętrzne, bo są takie w utrzymaniu i działają na domowym sprzęcie.
Ja na co dzień korzystam obecnie z Cloude 3.5 Sonet i kilku wersji modeli od OpenAI i nie zamierzam tego zestawu zamieniać na cokolwiek słabszego.
Na co dzień lubię jeść burgery i je polecam, ale na bezludnej wyspie kokosy też będą OK. Z taką samą sytuacją mamy do czynienia w przypadku Gemini Nano. To JEDYNY istniejący model wbudowany natywnie w przeglądarkę, który oferuje API. Użytkownik nietechniczny nie postawi sobie Ollama i nie ściągnie Mixtrala (choć mógłyby). Programiści wcześniej czy później będą musieli nauczyć się pracy z małymi modelami chcąc je integrować z aplikacjami.
TL;DR: Gemini Nano jest skrajnie słabe i zupełnie nie nadaje się do zastosowań do których próbowałeś je używać. Bardzo dobrze za to radzi sobie z zastosowaniami do których zostało stworzone.
Za wolno mowisz