강의 정말 잘 보았습니다. 현재 시점으로 한국어를 가장잘아는 sllm 모델은 무엇인지 여쭤봐요~. 회사 내부에서 쓸거구요.7b나8b 9b정도구요.. 1) beomi 님 llama3.2 2) 젬마 3) 위 강의 에서의 eeve 정도 생각하는데요...혹시 강사님이 보시기에 기업에서 파인튜닝해서 쓸 거면 한국어를 가장 잘 하는 모델이 있을까요?? 미리 감사합니다.~
@@teddynote 정말 감사드립니다~~ 그런데 강사님 위의 야놀자에서 만든 solar 기반의 eeve 는 왜 추천 안하셨는지 여쭤봐도될까요?? 그리고 폐쇄망 금융권에서 챗봇을 만드려는데 unsloth 와 textstreamer 를 쓰려는데 어떻게 생각하시는지...3번째 질문은 gguf 를 받아와서 fastapi 로 올리려는데. 꼭 ollama를 설치해야할까요? 미리 감사합니다~~.. 그리고 강사님 얼굴도 잘생겼는데 목소리는 진짜 유튜버 중 정말 죽음으로 좋으세요!
@ eeve 는 컨텍스트가 작아서 rag에서는 사용하기 어려울 것 같아요 ㅜ unsloth 로 단일 gpu 파인튜닝은 좋은데 큰 모델은 gpu가 여러장 필요해서 어려우실꺼에요 모델 서빙은 vllm고려해 보시면 좋고요~ fastapi 서버에서 모델 서빙하실 따 vllm으로 모댈 호스팅 하는 걸 추천 드립니다~
테디님! 너무 좋은 강의 잘 들었습니다. 정말 쉽고 빠르게 적용할 수 있었습니다. 한 가지 추가 질문이 있습니다! 잘 몰라서 이것저것 찾아봤지만 잘 안돼서 질문드려요ㅜㅜ 지금은 파일을 올린 상태에서만, 해당 파일에 대한 답변을 받을 수 있는데요. 페이지에서 파일을 올리지 않더라도, 미리 임베딩 된 벡터db를 기준으로 답변 받게 하고 싶은데 잘 안되네요ㅜㅜ 바쁘시겠지만 답변주시면 너무 감사하겠스빈다!
안녕하세요! 파일을 올려서 임베딩 하여 vectordb 에 저장하는 구조가 아닌, vector db 자체를 disk 에 저장하고, PDF 업로드를 하지 않고 바로 vector db 를 로드하는 구조로 변경하시면 됩니다! 벡터 DB 를 저장하는 방법은 wikidocs 에 업로드 해두었습니다. wikidocs.net/234014
안녕하세요 :) 구글링과 gpt를 써봐도 해결이 안되어서 질문드립니다,,ㅠ 10:29 ollama create 을 하면 command must be one of "from", "license", "template", "system", "adapter", "parameter", or "message" 에러가 나오는데 해결법을 아실까요..?ㅜㅠ
오 주피터 도커 갖다썼었는데 익숙한 닉네임이다 싶었는데 테디님이 만드신거였군요! 커스텀 해서 잘 쓰고 있습니다 llm까지 ㅎㅎ 감사합니다 gpt api콜 비용 아낄수도 있으려나요 4090 전기세랑 비교를 해봐야 겠네요 ㅋㅋ 혹시 토큰 최대 인풋 아웃풋 길이가 어떻게 되는지 아실까요?
저도 이부분은 찾아봐야 하는데요. 베이스 모델인 SOLAR 가 입출력 4096개 였던 것으로 기억합니다. 따라서, 아마도 4096개일 것 같습니다. 이건 저도 정확하지 않으니 한 번 테스트해 봐야지 정확히 알 수 있을 것 같아요! 여기 llm.extractum.io/model/upstage%2FSOLAR-10.7B-Instruct-v1.0,5KwUWNTl8dKlCxQ8QeQtzZ 에서 SOLAR 모델의 스펙은 확인해 보실 수 있어요~
안녕하세요. 위 소스를 활용해 리모트로 2명이상 동시접속 테스트를 했는데 비동기 처리가 안되는것 같습니다. (1명질문 마쳐야 다음 질문 가능) xionic은 ollama를 사용안해서 여러명 동시 질문 가능했고 chat,llm등은 동시 질문이 안되는데 어떤 부분을 수정해야 할까요?
너무 좋은강의 감사드립니다. 원격으로 서비스 하는 방법에 대해서 고민했는데 큰 도움이 되었습니다. 이 구성으로 폐쇄망에서 폐쇄망 내부로 서비스가 가능할까요?( 이건 당연히 제가 테스트 해봐야 하는건데 아직 실력이 안되어서 질문드리네요 ...) 그리고 M3 사양이 어떻게 되나요? 생각보다 응답 속도가 너무 빠른데요!!
폐쇄망끼리는 서로 통신이 되면 문제 없을껍니다. 다만 이때 ngrok 대신 내부 아이피를 사용해야 하고요 방화벽이 해당 포트에 대해 열려 있어야 합니다. M3 정말 빠르더라구요! 맥북 프로 M3 gpu 업그레이드 한 CTO 사양입니다. 굳이 맥북 아니더라도 양자화 모델이라서 GPU 달린 노트북이라면 어느정도 답변 속도는 빠른편입니다^^
영상 잘보고있습니다. 테디노트님. 진행하다 궁금한게 생겼는데요 해당 영상 기준은 MacOs에서만 가능한걸까요? 찾아보니, Ollama가 현재는 공식정으로 MacOs만 지원한다하여, 방법을 찾아보니, 가상화환경에서 macOS를 설치해서, 구동을 하던가, .gguf 파일이 리눅스 환경에서는 일반적으로 Llama.cpp 형태로 호환이 가능하다하여 가상 리눅스환경에서 해당 .gguf파일을 .cpp형태로 변환해서 cpu + cuda를 활용해 가동시키는 방법 밖에는 없는걸까요? 혹시나 지나가시는 분중에 윈도우에 환경에서 Ollama에 올리는 부분을 해결하신분이 있다면 공유해주시면 감사하겠습니다.
올려주시는 강의를 통해 정말 많은 도움을 받고 있습니다. 그런데 한 가지 궁금한 것이 있습니다. rag chain 과 MessageHistory를 함께 사용하려고 하니까 에러가 나는데요. 사용법을 잘 몰라서 이렇게 문의드립니다. 소스 코드는 아래와 같습니다. chain = ( { "context": retriever | format_docs, "question": RunnablePassthrough(), } | prompt | llm ) response = chain.invoke(user_input) rag 체인을 추가하고 message history는 추가하지 않는 경우- 잘 동작합니다. 그런데, 아래와 같이 message history를 추가 하면 에러가 나더라구요... chain = ( { "context": retriever | format_docs, "question": RunnablePassthrough(), } | prompt | llm ) chain_with_memory = ( RunnableWithMessageHistory( # RunnableWithMessageHistory 객체 생성 chain, # 실행할 Runnable 객체 get_session_history, # 세션 기록을 가져오는 함수 input_messages_key="question", # 입력 메시지의 키 history_messages_key="history", # 기록 메시지의 키 ) ) response = chain_with_memory.invoke( {"question": user_input}, config={"configurable": {"session_id": "abc123"}} )
@@teddynote prompt = ChatPromptTemplate.from_messages( [ ( "system", """You are an expert in perfumes. Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say you don't know:
{context} """, ), # 대화 기록을 변수로 사용, history 가 MessageHistory 의 key 가 됨 MessagesPlaceholder(variable_name="history"), ("human", "{question}"), # 사용자 입력을 변수로 사용 ] ) 위와 같습니다.
영상 몇 일 동안 돌려보면서 간신히 따라해보았습니다. 정말 훌륭한 강의 감사합니다. ^^ 혹시 강의 이후에 한글 embedder로 rag 성능 비교를 해보신 적이 있을까요? embedder를 변경하는 것으로도 성능차이가 많이 나지는 않을까 궁금해서 질문드려 봅니다. 그리고 혹시 한국어 embedder로 추천해주실 만한 것이 있을까요?
@@teddynote말씀해주신 bge-m3 로 계속 임베딩 해서 레그 구성 중입니다. 임베딩의 정확도 문제는 잘 안느껴지는데 매번 질문 하나 입력할 때 마다 답변을 생성 중입니다라는 문구가 나타나기 전까지 5초 가량 로드를 계속 합니다. 마치 매번 질문 할 때마다 임베딩 모델을 로드하는 느낌이 드는데 뭐가 문제일까요? 임베딩을 cpu와 cuda로 바꿔 봐도 같은 속도가 걸립니다. ㅠㅜ gpu는 3090을 사용합니다.
테디님 영상보며 신세계를 경험하고 있습니다. ollama create 시 Error:command must be one of "from", "license", "template", "system", "adapter", "parameter", or "message" 발생해서 temperature 부분 제거 후 생성하였습니다. 같은 문제는 없으셨는지요?
안녕하세요 ModuleNotFoundError: No module named 'langserve.pydantic_v1' 이 모듈만 없다고 나오는데 혹시 어떤 문제일가요? 검색해도 도통 모르겠어서 여쭤봅니다. 혹시 langserve 버전이 0.3.0인데 이게 문제일가요?(pydantic 버전은 2.9.2 입니다)
안녕하세요? langchain 버전이 0.3.0 대로 올라오면서 pydantic 버전이 바뀌었는데요. 다음과 같이 코드를 수정하여 다시 한 번 테스트 해보시기 바랍니다. server.py 파일의 from langserve.pydantic_v1 import BaseModel, Field 코드를 from pydantic import BaseModel, Field 변경해 주세요! 감사합니다!
비용이 발생하지 않기 때문에 Ollama 에 사람들이 관심을 많이 가집니다. 오픈되어 있는 모델을 다운로드 받아서 구동하는 개념이구요. 다만, 컴퓨터에서 돌리게되면 전기를 많이 잡아먹어서 전기료 정도? 발생한다고 보시면 됩니다. 오늘 공유드린 EEVE 모델 추천 드립니다. 개인이 사용하는 것은 자유롭고, Apache-license 로 표기되어 있기는 한데요. 상업적인 이용이 궁금하시면 이 부분은 원저작자인 yanolja 개발팀에 문의해보시는 것이 정확할 것 같습니다~
안녕하세요! 우선, RAG를 처음 시작하는 개발자로 너무 많은 도움을 받고 있습니다 감사합니다 한가지 문의 드릴 것이, local에서 동작 확인 후 heroku를 결재 하여 (유료로 바뀌었군요.. ㅡ.ㅡ) 호스팅을 하는 과정에서 Heroku 설정 후 git push 를 하면 requirements.txt 의 package를 찾아 컴파일 하는 중, 다음과 같은 에러가 발생 합니다. (해당 package를 막고 해봐도 .. 계속 다른 package 들에서 버전을 찾지 못한다고 에러가 발생하네요..) RROR: Could not find a version that satisfies the requirement apturl==0.5.2 (from versions: none) remote: ERROR: No matching distribution found for apturl==0.5.2 -----> Python version has changed from python-3.12.7 to python-3.11.8, clearing cache remote: -----> Requirements file has been changed, clearing cached dependencies remote: -----> Installing python-3.11.8 remote: -----> Installing pip 24.0, setuptools 70.3.0 and wheel 0.44.0 remote: -----> Installing SQLite3 remote: -----> Installing requirements with pip remote: Collecting aiohappyeyeballs==2.4.3 (from -r requirements.txt (line 1)) remote: Downloading aiohappyeyeballs-2.4.3-py3-none-any.whl.metadata (6.1 kB) remote: Collecting aiohttp==3.10.9 (from -r requirements.txt (line 2)) remote: Downloading aiohttp-3.10.9-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (7.6 kB) remote: Collecting aiosignal==1.3.1 (from -r requirements.txt (line 3)) remote: Downloading aiosignal-1.3.1-py3-none-any.whl.metadata (4.0 kB) remote: Collecting annotated-types==0.7.0 (from -r requirements.txt (line 4)) remote: Downloading annotated_types-0.7.0-py3-none-any.whl.metadata (15 kB) remote: Collecting anyio==4.5.0 (from -r requirements.txt (line 5)) remote: Downloading anyio-4.5.0-py3-none-any.whl.metadata (4.7 kB) remote: ERROR: Could not find a version that satisfies the requirement apturl==0.5.2 (from versions: none) remote: ERROR: No matching distribution found for apturl==0.5.2 remote: ! Push rejected, failed to compile Python app. remote: remote: ! Push failed remote: Verifying deploy... 테디님 영상에서는 잘 되는 것으로 보아 .. Heroku쪽 문제 인 것인지 또는 영상 촬영시 사용 된 requirements.txt 파일이 좀 다른 것인지 알 수 있을까요? 미리 감사드려요~~~
안녕하세요 테디님, OpenAI로 embedding 하는건 잘 되는데요... 아무래도 보안적인 부분이 고려되어서 만들어 놓으신 허깅페이스 코드로 embedding을 하고 싶은데, 자료를 올리고 질문을 하면 AssertionError 가 나옵니다. 짧은 시간에 생성까지는 했는데, 이 부분에서 막혀서 이렇게 댓글 남겨봅니다! 그리고 임베팅을 OpenAI로 하는건 보안은 괜찮을까요? API는 OpenAI는 학습데이터로 쓰지 않는다고는 하는데, 아무래도 개인정보가 들어간다면 무시할 수 없을 것 같은 부분이라 여쭤봅니다.
네 오류가 나는 부분은 디스코드에 남겨주시면 메시지 보고 답변 드릴 수 있을 것 같아요. 댓글로 남겨 주셔도 좋구요~ openai embedding 은 괜찮다고 생각하는데요. api 써서 모델 답변 받는 건 아무래도 보안이 걱정되실 수 있죠. 만약 이 부분이 걱정이시라면 로컬 모델로(llama3, eeve korean) 다운 받아서 진행하셔야 되지만 GPU 인프라 구축은 동반되어야 원하시는 출력이 나오실꺼에요! 참고하십쇼^^
@@teddynote 아, 추가로 말씀 드리면 Nvidia 카드가 있어 cuda로 셋팅 하고 공유 주신 EEVE Korean으로 사용했습니다. 응답의 퀄리티가 생각보다는 좋아서 더 사용해보고 싶었습니다. 다만 embedding을 OpenAI로 하면 올리는 데이터가 똑같이 OpenAI로 넘어가는 것 같아 걱정되어서 만들어놓으신 USE_BGE_EMBEDDING = True로 하고 사용했더니 에러가 난거였습니다!
@@cklee4069 네~ 그러시군요. 이해했습니다. 오류는 세부로그가 없으면 구체적으로 원인을 알기가 어렵습니다. 유추해보자면 VRAM 메모리 부족일 수 있을 것 같아요 왜냐면 BGE 모델도 GPU에 올려야 하는데요 기존 LLM과 동시에 올라가려면 메모리 부족이 발생할 수 있을 것 같습니다~
안녕하세요! 혹시 langserve github에 업로드된 streamlit 예제에서 bge-m3 임베딩 사용하는 예제가 있는데요. 폐쇄망에서도 문제 없이 잘 동작하고 pdf 도 문제 없이 잘 임베딩 되는데요. 한 번 확인해 보시겠어요? 소스코드 링크 남겨드립니다. github.com/teddylee777/langserve_ollama/blob/main/example/main.py
정말 감사합니다. 보여주신 대로 따라하기 코딩 하여 진행하였습니다.!!! 다시 한번 테디 님께 감사 드려요!! 다른 것들은 잘 진행 되었습니다. 최종으로 streamlit 에서 안되고 있어요. 윈도우 환경에서 진행해서 그런지 최종 streamlit 에서 pdf 문서를 등록하니 "PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?" 에러가 발생하여 poppler 를 설치 하고 환경변수에 등록 했지만 아직 오류를 해결 못하고 있습니다. 다른 윈도우 환경에서 작업하는 분들은 잘 되시나요?
@@teddynote 감사합니다! 테디님! 몇 가지 궁금증이 있습니다...! 1. RAG를 사용해서 gpt4 처럼 웹 접근 결과를 기반으로 응답을 내는 것이 가능한가요? 2. 도큐먼트 리트리버로 응답을 생성하는 경우 도큐먼트의 내용이 아닌 경우 일반 모델을 사용하는 방법이 있을까요?
@@JihaoXu FAISS 저장소에 잘 들어 갔는지는 일단 DB INDEX 를 저장한 다음에 생성된 INDEX 파일을 보고 유추할 수 있어요~ 근데 DB 파일이 index 와 pkl 로 되어 있어 우리가 그냥 열어보는 것은 어렵고요~ 어차피 임베딩된 숫자 표현으로 들어가있기 때문에 열어봐도 해석이 어려워요 결국 잘 들어갔는가는 retriever 가져와서 검색어를 날려서 DB 에서 조회가 잘 되는지로 확인해 보는것이 가장 간편합니다~
Modelfile에 'TEMPERATRUE 0' 이 부분을 넣으면 ```Error: command must be one of "from", "license", "template", "system", "ada``` 이런 에러가 뜨고 그 부분을 빼야 정상작동하는데 이유가 뭘까요?
안녕하세요~ 영상 잘보고있어요 따라하면서 에러부분이 있는데 python server.py 를 입력하면 fastapi가 no module 상태로 자꾸 뜨네요 github에서 requirements.txt 를 몇번이나 터미널창에서 내려받았는데도 똑같습니다 ㅠㅠ 혹시 해결방법아실까요 구글링을 했는데 파이썬 버전을 바꿔보라해서 바꾸고, 터미널열었다 닫아보라해서 다해봤는데도 안됩니다...
안녕하세요? 혹시 가상환경 환경 구성이 되었을까요~? 구성 안하고 베이스에 그냥 설치하면 안되는 경우도 있어서요! 아래 영상 보시고 가상환경 한 번 구성하신 다음에 시도해 보시겠어요? #랭체인 한국어 튜토리얼🇰🇷 업데이트 소식🔥 처음 사용자를 위한 친절한 환경설치(Windows, Mac) ruclips.net/video/mVu6Wj8Z7C0/видео.html
@@teddynote 정말 감사합니다!! 이 문제는 해결되었습니다! 그런데, 또 문제가 있는게 로컬호스팅은 되지만, 제가 ai에게 물어보면 Exception in ASGI application 이라고 뜨면서 터미널창에 에러가 나네요 .. .혹시 방법없을까요 구글링 해보니까 CA인증서 때문이라고 해서 인증서도 다운받아보고 했는데 여전히 똑같네요 재부팅을 계속해도 똑같구... 혹시 이 문제사항에 대해 알고계시면 알려주세요 !!!
앗 이것저것 하다가 해결되었네요. 1. CUDA재설치(설치내용 자세히 보니 1개만 설치완료되고 나머진 전부 실패였음;;;) 2. 내장그래픽카드 바이오스 상에서 사용 안함 그나저나 특이하게 CMD상에서 llama3:70B는 cpu로 동작하네요. 작은모델은 GPU로 동작하는데;;;
@@teddynote 아하 그렇군요ㅠㅠ Claude 는 250줄 쯤에서 hit the maximum length limit 가 뜨고 GPT 4는 중간에 코드 빼먹는 (#이미있는 구조 사용) 이런게 아니라 말그대로 코드가 빠지고 이상한데에 "]" 들어가는 이상한 문제가 있어서 로컬모델 찾아보고 있는데 ㅠㅠ 아쉽네요. ㅡㅡㅡㅡㅡㅡㅡㅡ 궁굼한게 있어서 추가 질문 좀 드려봅니다 지금 쓰는 Gpu가 1080ti 11GB 입니다. 라마 3 70B 모델을 써보려고 하는데 VRAM 11GB면 충분한지 궁굼합니다. 만약 부족하다면 48GB 까지는 늘려볼수 있습니다. 구글링 해보니 Vram 160Gb 필요하고 뭐 양자화 하면 괸찮다는데 맟나요?
@@4527PENK 양자화된 모델로 테스트 가능합니다. Q4 양자화 모델로 테스트 해보시면 될 것 같아요. 24~48GB 사이 정도 될 것 입니다. 다만, Q4 양자화는 인텔리젼스 손실이 많습니다. 원본 모델인 160G 짜리로 해야 거의 무손실의 인텔리젼스를 사용할 수 있습니다. 하지만, 누구나 그런 GPU 자원이 있는 것은 아니기에 가용할 수 있는 자원에 맞춰 양자화된 모델 (Q4, Q6) 정도에서 타협해서 테스트 해보실 수 있습니다~
ChatGPT를 파인튜닝 하는 것은 권장드리지는 않고 있어요. 이유는 우리가 생각하는 것처럼 결과가 나오지 않고 비용이 비싼 것도 단점이고요. 베이스 모델도 3.5 기반입니다. 비용 절감만 생각하시면 파인 튜닝 말고 그냥 GPT api 사용하시는게 낫구요. 사용량이 많아지면 그 때는 호스팅 비용이 더 싸게 먹힐 수 있습니다
테디노트님 전에 테디노트님영상에서 봣는데 그 llm 선택해서 사용할수있는 프로그램이름이 기억이안나요,. 찾지도못하겠고...챗gpt선택하면 api 키넣고 로컬구동가능한 라마같은거 선택하면 라마알아서 다운받아서 쓰고 그런프로그램이었는데. 이런프로그램을 많이써야 더 좋아진다 뭐이런말하셧던걸로기억합니다.
좋은 영상 감사합니다. 동영상을 보면서 과정을 따라하고 있는데 자꾸 server.py를 실행하는 과정에서 ModuleNotFoundError: No module named 'langserve.pydantic_v2' 이런 오류가 계속 발생하는데 해결방법을 모르겠습니다 해결방법에 대해서 답변해 주실수 있으실까요??
안녕하세요! 아마 최근에 langchain v0.3.x 업데이트 이후 오류가 발생하는 것 같아요. 이 부분은 제가 빠르게 수정해서 업데이트 해드릴께요^^ 지금 당장의 해결하는 방법은 다음과 같습니다 pip install langchain==0.2.16 버전으로 재설치 그 다음에 시도해봐 주세요^^
gguf 파일까지 다운 받았고 Modelfile 만드는것 까지는 했는데 ollama create를 하니까 Error: command must be one of "from", "license", "template", "system", "adapter", "parameter", or "message" 가 발생하는데 원인이 뭘까요?
좋은 강의 덕분에 로컬 RAG시스템을 구축하였습니다. 질문이 있는데요. Runnable을 쓸때 , 답변으로 참조 문서를 받을 수 있는 방법이 있나요? ConversationalRetrievalChain에서 return_source_documents=True 요 옵션으로 result['source_documents'] 이렇게 받았었는데 Runnable에서 PromptTemplate에 추가를 해줘 봤는데, 자꾸 에러가 떠서 어떤 참고 할 만한 방법이 있을까요?
답변에 참조 받을 수 있어요. 프롬프트에 답변에 참조를 포함해 달라는 요청을 하게 되면 답변 문자열에 참조가 포함되어서 나오기도 하구요. key 값으로 받고자 한다면, json output parser 를 사용하는 방법도 있습니다. 위키독스에 json output parser 로 검색해서 튜토리얼 참고하시면 좋을 것 같아요~!
윈도우 사용자입니다. ollama run EEVE-Korean-10.8B:latest을 실행하면 llama runner process no longer running: 1 error:failed to create context with model 이라는 오류가 뜨는데, 뭐가 문제일까요?ㅠㅠ
@@teddynote ollama serve 구동 후에 ollama run을 실행해봤더니 ollama serve를 구동했던 터미널에 아래와 같은 오류 메시지가 뜹니다..ㅠㅠ ggml_backend_cuda_buffer_type_alloc_buffer: allocating 384.00 MiB on device 0: cudaMalloc failed: out of memory llama_kv_cache_init: failed to allocate buffer for kv cache llama_new_context_with_model: llama_kv_cache_init() failed for self-attention cache llama_init_from_gpt_params: error: failed to create context with model 'C:\Users\Commeci\.ollama\models\blobs\sha256-2ede7a0e79157cecbdd6f6890d6a463e73d8b05040330bfd2fce53bb39b47e28' {"function":"load_model","level":"ERR","line":410,"model":"C:\\Users\\Commeci\\.ollama\\models\\blobs\\sha256-2ede7a0e79157cecbdd6f6890d6a463e73d8b05040330bfd2fce53bb39b47e28","msg":"unable to load model","tid":"19392","timestamp":1714406828} time=2024-04-30T01:07:08.795+09:00 level=ERROR source=routes.go:120 msg="error loading llama server" error="llama runner process no longer running: 1 error:failed to create context with model 'C:\\Users\\Commeci\\.ollama\\models\\blobs\\sha256-2ede7a0e79157cecbdd6f6890d6a463e73d8b05040330bfd2fce53bb39b47e28'" 구글링 해봐도 해결법이 나오지 않네요..ㅜㅜ
안녕하세요, 정말 좋은 영상 감사합니다. 모두 다 성공했으나, stramlit 실행 후 PDF불러와서 질의할 때 계속해서 TypeError: 'CacheBackedEmbeddings' object is not callable 오류가 뜨네요... 혹시 해결방법을 알려주실 수 있으실까요?
안녕하세요 이번에 처음 딥러닝을 공부하는 사람입니다! 먼저 좋은 영상 남겨주셔서 정말 감사드립니다. 제가 vscode와 wsl 연동해서 사용하고 있는데 wsl에 깃허브에 있는 requirement를 설치하고 코드를 그대로 가져와서 server.py를 돌려서 playground에 들어가서 질문했는데 반응이 없더라구요 혹시 cuda를 wsl안에랑 아니면 윈도우 자체에 cuda를 둘다 설치 해야하나요? 아니면 xionic.py에 있는 api_key랑 관련 있는건가 해서요!
모델은 보통 둘 중 하나를 택1 하여 선택하여 진행하는 것아 일반적입니다. 보통은 둘 다 테스트 해보고 더 나은 모델은 택 1 합니다만, LLM 라우팅이라는 방식도 있습니다. 코드에 관련한 내용은 llama 가 한국어 질문은 eeve 가 답변할 수 있도록 할 수 있어요~
@@두뇌트레이닝-o8g cuda 를 이용하기 위해서는 설치 과정이 필요한데요! 블로그에 검색해 보시면 관련 자료가 많이 나옵니다. GPU 버전에 맞는 CUDA를 설치하시면 GPU가 정상적으로 작동합니다. 예시 링크 공유 드릴께요~ velog.io/@sxngwxx/%EC%9C%88%EB%8F%84%EC%9A%B0Windows-CUDA-cuDNN-%EC%84%A4%EC%B9%98
안녕하세요 영상 감사합니다. 생 초보가 따라하려고 하는데, 싸이트에서 GGUF 파일 받아, Modelfile 만드려는데, 자꾸 에러가 나네요 modelfile 확장자가 yaml 맞나요? 메모장에서 확장자를 yaml로 저장했습니다. cmd 창에서 Modelfile 있는 폴더가서 "ollama create EEVE -f Modelfile 로 하면 파일을 못찾겠다고 하고, Modelfile.yaml 로 치면 "no FROM line for the model was specified" 라고 하는 에러가 계속 뜨네요.
1. Modelfile 은 별도 확장자가 없습니다 그냥 확장자 없이 Modelfile 이라고 만드시면 됩니다~ 2. Modelfile 안에 내용을 입력해 주셔야 합니다 내용은 github.com/teddylee777/langserve_ollama/blob/main/ollama-modelfile/EEVE-Korean-Instruct-10.8B-v1.0/Modelfile 링크의 파일을 보시고 입력하시면 되는데요. 맨 위의 FROM 다음에 나오는 파일의 경로만 본인이 저장한 경로로 변경해 주시면 됩니다!
안녕하세요. 항상 자료 감사히 보고 있습니다! 덕분에 LLM 도 손쉽게 호스팅이 가능하다는걸 알게 되었는데요. 혹시 임베딩 모델도 ollama - langserve 조합으로 remote 가 가능할까요? 가능하다면 한국어가 잘되는 임베딩 모델로 예시) db = Chroma(..., embedding_function=RemoteEmbedding("주소/embedding/", ...)
가능해요. 아래의 코드를 참고 해 주세요 from langchain_core.runnables import RunnableLambda embedder = HuggingFaceEmbeddings(...) runnable_embedder = RunnableLambda(afunc=embedder.aembed_documents) add_routes(app, runnable_embedder) 깃헙 이슈에 올라온 내용도 같이 참고하시면 좋아요 github.com/langchain-ai/langserve/discussions/383
혹시 ollama 아래 에러는 왜 뜨는건지 아실까요? 구글링해도 잘안나오네요 ValueError: Ollama call failed with status code 500. Details: {"error":"llama runner process no longer running: -1 CUDA error: the provided PTX was compiled with an unsupported toolchain. current device: 0, in function ggml_cuda_compute_forward at /root/parts/ollama/build/llm/llama.cpp/ggml-cuda.cu:2212 err GGML_ASSERT: /root/parts/ollama/build/llm/llama.cpp/ggml-cuda.cu:60: !\"CUDA error\""}
00:00 인트로
00:57 로컬 모델 사용 시 걱정거리
02:21 EEVE 모델 소개(야놀자 샤라웃)
02:43 구조 소개
04:00 GGUF 파일
04:49 야놀자 샤라웃2
05:15 Heegyu님 GGUF
06:25 다운로드 받고 modelfile
09:28 EEVE 모델 설치
10:42 Ollama에 올린 모델 테스트
11:34 LangServe 설정
12:30 설정 설명
13:01 서버 구동
13:35 asitop (GPU 모니터링)
16:45 다음 단계(활용)
17:44 Remote Chain(LCEL)
18:52 서버에 세팅하기
20:14 ngrok 포트 포워딩
23:01 llm runnable
24:18 번역기
25:05 remote runnable RAG
26:01 Streamlit 테스트
26:44 pdf RAG 테스트
감사합니다😱🙏
소스코드는 정리해서 3시간 내로 업로드 해드릴께요~ 좋은 밤 되세요.
vscode내 소스 화면에서 생성형 아이콘이 나오는건 무슨 익스텐션인가요?
@@링크업IT Github Copilot Extension 입니다!
설명 너무 잘 들었습니다. 멋진 강의입니다!
제 눈을 의심했습니다! 존경하는 교수님께서 댓글 달아주시니 영광입니다. 교수님의 모두를 위한 딥러닝 듣고 많이 배웠습니다. 감사합니다🙏🙏
오 이 댓글은 정말 귀하네요
영상 뚝뚝 끊기며.. 로컬임을 입증..
😭
16:00 부터 맥북이 버거워 해서 캠도 끊기는게 웃기네요 ㅋㅎ
영상 항상 잘 보고 있습니다. 감사합니다~~!
맥북이 너무 힘들어 합니다😭😭😭 시청 감사합니다🙏🙏
아니 ollama로 플젝하면서 낑낑대고 있었는데 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 고구마에 사이다 오졌습니다...
ㅋㅋㅋㅋㅋ 감솨합니다.
감사합니다.
아이쿠 이렇게 큰 금액을...😭 감사합니다. 맛있는 거 사먹겠습니다😍
역시 한국어 sllm 중에서는 eeve 모델이 요즘 인기가 있네요~
좋은 강의 감사합니다!
인기가 있는데에는 이유가 있더라구요! 감사합니다🙏
강의 정말 잘 보았습니다. 현재 시점으로 한국어를 가장잘아는 sllm 모델은 무엇인지 여쭤봐요~. 회사 내부에서 쓸거구요.7b나8b 9b정도구요.. 1) beomi 님 llama3.2 2) 젬마 3) 위 강의 에서의 eeve 정도 생각하는데요...혹시 강사님이 보시기에 기업에서 파인튜닝해서 쓸 거면 한국어를 가장 잘 하는 모델이 있을까요?? 미리 감사합니다.~
gemma 9b
Qwen 2.5
llama3.2 (beomi님)
exaone (license 검토 필요)
추천 드립니다^^
@@teddynote 정말 감사드립니다~~ 그런데 강사님 위의 야놀자에서 만든 solar 기반의 eeve 는 왜 추천 안하셨는지 여쭤봐도될까요?? 그리고 폐쇄망 금융권에서 챗봇을 만드려는데 unsloth 와 textstreamer 를 쓰려는데 어떻게 생각하시는지...3번째 질문은 gguf 를 받아와서 fastapi 로 올리려는데. 꼭 ollama를 설치해야할까요? 미리 감사합니다~~.. 그리고 강사님 얼굴도 잘생겼는데 목소리는 진짜 유튜버 중 정말 죽음으로 좋으세요!
@ eeve 는 컨텍스트가 작아서 rag에서는 사용하기 어려울 것 같아요 ㅜ unsloth 로 단일 gpu 파인튜닝은 좋은데 큰 모델은 gpu가 여러장 필요해서 어려우실꺼에요
모델 서빙은 vllm고려해 보시면 좋고요~
fastapi 서버에서 모델 서빙하실 따 vllm으로 모댈 호스팅 하는 걸 추천 드립니다~
와 호기심에 따라해봤는데 겁나 잘되네요 좋은 자료 감사합니다 👍👍
도움이 되셨다니 다행입니다. 감사합니다~!
제가 찾던 내용이네요 👍 👍 👍 입니다
감사합니당👍👍
오~~~ 좋은 내용 감사합니다. 이런걸 찾고 있었는데요..
저도요~ 이런걸 찾다가 영상으로 만들었습니다 ㅎ
좋은강의 재밌게 잘 보았습니다. 오늘도 많은 공부가 되었습니다. 감사합니다.
도움이 되셨다니 다행입니다. 감사합니다 🙏
15:56 영상 끊기는것만 봐도 로컬 데스크탑에서 잘 돌아가고 있음이 느껴집니다. 😁
컴퓨터가 많이 힘들어 하더라고요😭😭
재현방법: ollama create 실행시
에러발생: Error: unknown parameter 'TEMPERATURE'
해결: Modelfile-V02을 참고, Modelfile의 TEMPERATURE을 temperature 로 변경
감사합니다👍
너무너무 잘봤습니다. 좋은 영상 감사합니다.
네 시청해주셔서 감사합니다🙏🙏
뭐야 당신 아낌없이 주는 나무...?
너무 감사합니다...
어멋?! 다 가져가세요🤤
내용도 재미있고 설명도 쏙쏙 이해됩니다. 좋은 컨텐츠 감사합니다.
감사합니다🙏🙏
좋은 영상 너무 감사합니다!
감사합니다~^^
결제했습니다 ㅋ 열심히 해볼게요
감사합니다 ㅠ 앞으로 도움이 되는 콘테츠 열심히 제작하겠습니다!
훌륭한 강의 고맙습니다. 덕분에 맥북으로 로컬에서 빠르게 테스트해볼 수 있었습니다!
축하드립니다!!👍
테디님! 너무 좋은 강의 잘 들었습니다. 정말 쉽고 빠르게 적용할 수 있었습니다.
한 가지 추가 질문이 있습니다!
잘 몰라서 이것저것 찾아봤지만 잘 안돼서 질문드려요ㅜㅜ
지금은 파일을 올린 상태에서만, 해당 파일에 대한 답변을 받을 수 있는데요.
페이지에서 파일을 올리지 않더라도, 미리 임베딩 된 벡터db를 기준으로 답변 받게 하고 싶은데 잘 안되네요ㅜㅜ
바쁘시겠지만 답변주시면 너무 감사하겠스빈다!
안녕하세요!
파일을 올려서 임베딩 하여 vectordb 에 저장하는 구조가 아닌, vector db 자체를 disk 에 저장하고, PDF 업로드를 하지 않고 바로 vector db 를 로드하는 구조로 변경하시면 됩니다!
벡터 DB 를 저장하는 방법은 wikidocs 에 업로드 해두었습니다.
wikidocs.net/234014
@@teddynote 오!! 정말 감사합니다! 바로 적용해볼게요!!!
강의 너무 잘하시네요. 큰 도움이 되었습니다.
감사합니다🙏🙏 앞으로도 열심히 하겠습니다!
안녕하세요 :) 구글링과 gpt를 써봐도 해결이 안되어서 질문드립니다,,ㅠ 10:29 ollama create 을 하면 command must be one of "from", "license", "template", "system", "adapter", "parameter", or "message" 에러가 나오는데 해결법을 아실까요..?ㅜㅠ
프롬프트 템플릿은 혹시 수정 없이 그대로 사용하셨을까요? 아이면 수정을 하셨을까요? 만약 수정하셨다면 작성하신 템플릿을 공유해 주시겠어요~?
@@teddynote ollama create EEVE-Korean-10.8B -f EEVE-Korean-Instruct-10.8B-v1.0-GGUF/Modelfile 이렇게 그대로 사용하였습니다!
@@teddynote 알려주신 프롬프트 템플릿 수정 없이 했습니다!
잘봐써요~
오 주피터 도커 갖다썼었는데 익숙한 닉네임이다 싶었는데 테디님이 만드신거였군요! 커스텀 해서 잘 쓰고 있습니다
llm까지 ㅎㅎ 감사합니다 gpt api콜 비용 아낄수도 있으려나요
4090 전기세랑 비교를 해봐야 겠네요 ㅋㅋ
혹시 토큰 최대 인풋 아웃풋 길이가 어떻게 되는지 아실까요?
저도 이부분은 찾아봐야 하는데요. 베이스 모델인 SOLAR 가 입출력 4096개 였던 것으로 기억합니다. 따라서, 아마도 4096개일 것 같습니다. 이건 저도 정확하지 않으니 한 번 테스트해 봐야지 정확히 알 수 있을 것 같아요! 여기 llm.extractum.io/model/upstage%2FSOLAR-10.7B-Instruct-v1.0,5KwUWNTl8dKlCxQ8QeQtzZ 에서 SOLAR 모델의 스펙은 확인해 보실 수 있어요~
@@teddynote❤
내용이 너무 좋아서 바로 멤버쉽 가입했습니닷!! 감사해요~ 테디님!
아이쿠 멤버십 가입 감사합니다 앞으로도 좋은 콘텐츠 업로드 하겠습니다🙏
안녕하세요. 위 소스를 활용해 리모트로 2명이상 동시접속 테스트를 했는데
비동기 처리가 안되는것 같습니다.
(1명질문 마쳐야 다음 질문 가능)
xionic은 ollama를 사용안해서
여러명 동시 질문 가능했고 chat,llm등은 동시 질문이 안되는데 어떤 부분을 수정해야 할까요?
ollama에서 parallel 설정을 해보세요!
github.com/ollama/ollama/issues/761
챗 UI로만 LLM을 사용하다가 이렇게 파이썬 개발환경에서 사용하는 방식은 처음 접했네요. 파이썬 코딩을 가미하면 LLM을 이용해서 수많은 활용법을 찾을 수 있을 것 같군요. 흥미진진 합니다.
정말 활용할 수 있는 방법들이 많이 있습니다~^^ 다양한 실험을 해보세요!!
강의 정말 잘 봤습니다. 마지막 streamlit 에서 구동할때 답변이 다 완성된 후에 나오는 것 말고 stream 형식으로 나오게 하는 방법도 설명해 주시면 감사라겠습니다(runnable 형태에서요)
소스코드에 바로 업데이트 해놨습니다^^
Expected response header Content-Type to contain 'text/event-stream', got 'application/json'
변경하신 코드로 해보니 이런 메시지가... 뜨네요ㅠㅠ
아마 도메인끝에 llm 안 붙혀서 그런 것 아닐까요? llm붙여보세요~
@@박현호-d3d 방금 소스코드에 주석 상세히 붙여서 코드 업데이트 해놨으니 참고해 보세요~
@@teddynote 늦은시간까지 답변주셔서 감사합니다 ☺️
너무 좋은강의 감사드립니다. 원격으로 서비스 하는 방법에 대해서 고민했는데 큰 도움이 되었습니다.
이 구성으로 폐쇄망에서 폐쇄망 내부로 서비스가 가능할까요?( 이건 당연히 제가 테스트 해봐야 하는건데 아직 실력이 안되어서 질문드리네요 ...)
그리고 M3 사양이 어떻게 되나요? 생각보다 응답 속도가 너무 빠른데요!!
폐쇄망끼리는 서로 통신이 되면 문제 없을껍니다. 다만 이때 ngrok 대신 내부 아이피를 사용해야 하고요 방화벽이 해당 포트에 대해 열려 있어야 합니다.
M3 정말 빠르더라구요! 맥북 프로 M3 gpu 업그레이드 한 CTO 사양입니다. 굳이 맥북 아니더라도 양자화 모델이라서 GPU 달린 노트북이라면 어느정도 답변 속도는 빠른편입니다^^
잘봤습니다. m3 max 성능도 상당하네요!
만족스럽습니다😍
오늘도 좋은 내용이네요. 감사합니다. 혹시 프로젝트 하실 의향은 없으신가요?
어떤 프로젝트인지 간략하게 말씀해 주실 수 있으시다면 teddylee777@gmail.com 이쪽으로 보내주시면 감사드리겠습니다🙏🙏
@@teddynote 적절한 시점에 연락드려 보겠습니다.
영상 잘보고있습니다. 테디노트님.
진행하다 궁금한게 생겼는데요 해당 영상 기준은 MacOs에서만 가능한걸까요?
찾아보니, Ollama가 현재는 공식정으로 MacOs만 지원한다하여, 방법을 찾아보니,
가상화환경에서 macOS를 설치해서, 구동을 하던가, .gguf 파일이 리눅스 환경에서는 일반적으로 Llama.cpp 형태로 호환이 가능하다하여
가상 리눅스환경에서 해당 .gguf파일을 .cpp형태로 변환해서 cpu + cuda를 활용해 가동시키는 방법 밖에는 없는걸까요?
혹시나 지나가시는 분중에 윈도우에 환경에서 Ollama에 올리는 부분을 해결하신분이 있다면 공유해주시면 감사하겠습니다.
찾아보니, 리눅스, 윈도우 다 지원하네욤! 감사합니다 ㅎㅎ
네 모두다 지원합니다^^
감사합니다 :)
네 저도 감사합니다 🙏
올려주시는 강의를 통해 정말 많은 도움을 받고 있습니다.
그런데 한 가지 궁금한 것이 있습니다.
rag chain 과 MessageHistory를 함께 사용하려고 하니까 에러가 나는데요.
사용법을 잘 몰라서 이렇게 문의드립니다. 소스 코드는 아래와 같습니다.
chain = (
{
"context": retriever | format_docs,
"question": RunnablePassthrough(),
}
| prompt
| llm
)
response = chain.invoke(user_input)
rag 체인을 추가하고 message history는 추가하지 않는 경우- 잘 동작합니다.
그런데, 아래와 같이 message history를 추가 하면 에러가 나더라구요...
chain = (
{
"context": retriever | format_docs,
"question": RunnablePassthrough(),
}
| prompt
| llm
)
chain_with_memory = (
RunnableWithMessageHistory( # RunnableWithMessageHistory 객체 생성
chain, # 실행할 Runnable 객체
get_session_history, # 세션 기록을 가져오는 함수
input_messages_key="question", # 입력 메시지의 키
history_messages_key="history", # 기록 메시지의 키
)
)
response = chain_with_memory.invoke(
{"question": user_input}, config={"configurable": {"session_id": "abc123"}}
)
혹시 chatprompttemplate 도 올려주실 수있나요?
참고로 디스코드 채널에 질문 남기시면 더 빨리 답변 받으실 수 있어요^^
@@teddynote prompt = ChatPromptTemplate.from_messages(
[
(
"system",
"""You are an expert in perfumes.
Use the following pieces of retrieved context to answer the question.
If you don't know the answer, just say you don't know:
{context}
""",
),
# 대화 기록을 변수로 사용, history 가 MessageHistory 의 key 가 됨
MessagesPlaceholder(variable_name="history"),
("human", "{question}"), # 사용자 입력을 변수로 사용
]
)
위와 같습니다.
@@Enosh6079 chain = (
{
"context": itemgetter("question") | retriever | format_docs,
"history": itemgetter("history"),
"question": itemgetter("question")),
}
| prompt
| llm
)
로 바꿔주시고 from operator import itemgetter 상단에 추가해 주시고요.
실행해 보세요~^^
@@teddynote 디스코드 채널이 어딘지 알려주세요~
영상 몇 일 동안 돌려보면서 간신히 따라해보았습니다. 정말 훌륭한 강의 감사합니다. ^^ 혹시 강의 이후에 한글 embedder로 rag 성능 비교를 해보신 적이 있을까요? embedder를 변경하는 것으로도 성능차이가 많이 나지는 않을까 궁금해서 질문드려 봅니다. 그리고 혹시 한국어 embedder로 추천해주실 만한 것이 있을까요?
임베더를 어떤 임베더를 사용하느냐에 따라서 성능 차이가 있을 수 있습니다. 따라서, 직접 변경해 보시면서 테스트 해보시는 것이 중요한 과정 중에 하나라고 볼 수 있습니다. 공개된 무료 임베더 중에서는 BGE-M3 임베딩 괜찮은 것 같습니다!
@@teddynote 감사합니다. 말씀해주신 임베더를 포함해서 다양하게 시도해보겠습니다^^
@@teddynote말씀해주신 bge-m3 로 계속 임베딩 해서 레그 구성 중입니다. 임베딩의 정확도 문제는 잘 안느껴지는데 매번 질문 하나 입력할 때 마다 답변을 생성 중입니다라는 문구가 나타나기 전까지 5초 가량 로드를 계속 합니다. 마치 매번 질문 할 때마다 임베딩 모델을 로드하는 느낌이 드는데 뭐가 문제일까요? 임베딩을 cpu와 cuda로 바꿔 봐도 같은 속도가 걸립니다. ㅠㅜ gpu는 3090을 사용합니다.
아무래도 open ai 처럼 임베더와 추론 모델이 같이 있는 시스템이 아니라서 일까요?
@@SeunggeunBaeck-ou4qf 질문도 임베딩을 해야하기 때문에 질문에 대한 임베딩 시간도 고려해야 합니다! gpu 사용률 체크해 보시면서 진짜 gpu를 활용한 추론 하고 있는지도 한 번 체크해 주세요^^
테디님 영상보며 신세계를 경험하고 있습니다.
ollama create 시 Error:command must be one of "from", "license", "template", "system", "adapter",
"parameter", or "message" 발생해서 temperature 부분 제거 후 생성하였습니다. 같은 문제는 없으셨는지요?
맞습니다 문제 있습니다 코드 수정해 두겠습니다^^
좋은강의 잘 봤습니다!! 보던중 궁금한게 생겼는데 aws와 같이 리눅스환경에서도 이 영상과 같이 똑같이 따라하면 웹서버를 구축할 수 있을까요??
넵 가능합니다! 방화벽 설정을 추가로 해야할 수는 있습니다!
안녕하세요 ModuleNotFoundError: No module named 'langserve.pydantic_v1' 이 모듈만 없다고 나오는데 혹시 어떤 문제일가요? 검색해도 도통 모르겠어서 여쭤봅니다. 혹시 langserve 버전이 0.3.0인데 이게 문제일가요?(pydantic 버전은 2.9.2 입니다)
안녕하세요? langchain 버전이 0.3.0 대로 올라오면서 pydantic 버전이 바뀌었는데요.
다음과 같이 코드를 수정하여 다시 한 번 테스트 해보시기 바랍니다.
server.py 파일의
from langserve.pydantic_v1 import BaseModel, Field
코드를
from pydantic import BaseModel, Field
변경해 주세요!
감사합니다!
안녕하세요 테디님. 좋은 강의 항상 감사합니다. 혹시 인트라넷 같은 폐쇄망에서 호스팅 할 수 있는 방법도 있을까요?
네 인트나넷 같은 폐쇄망도 langserve 가능합니다~
양자화 모델에서는 VRAM 12G 정도에서도 원활하게 돌릴수 있나요?
제가 테스트 해본 환경이 mac 이라 단순 비교가 어렵겠지만 12G충분히 돌아갈 것 같습니다!
안녕하세요 테디님 !! 동영상 큰 도움이 되었습니다 ㅎㅎ. 혹시 첨부 파일도 한개가 아닌 두개 이상 첨부 가능하게 코드 수정한다면 가능할까요??
넵 쉽게 가능합니다👍
@@teddynote 빠른 답변 감사합니다 !! 파일 첨부 부분에 200mb까지 첨부 가능하다고 되어있는데 실제 가능한건가여 ?!
@@김태경-m6f 더 큰 사이즈도 가능합니다~
@@teddynote 감사합니다 😀😀😀 열심히 공부해볼게요!!
좋은 강의 공유해 주셔서 너무 감사합니다. 잘 활용하고 있는데요. 한 가지 궁금한 것이 있습니다.
lang serve를 구동한 후에 처음 질문할 때 시간이 좀 걸리데, 혹시 cold start 문제일까요? 두번째부터는 응답이 느리지 않습니다.
로직에서 처음 체인을 만들때 시간이 걸릴 수 있습니다. 서버 구동하면서 체인 만들어 놓으시면 지연시간을 줄여보실 수 있습니다^^
local에서 ollama를 사용하는 경우에도 비용이 발생하는 건가요? 만약 비용이 발생한다면, 비슷한 형식으로 한글 기반 서비스를 하고자 할때 license free로 사용해볼만한 모델 추천 부탁드려요.
비용이 발생하지 않기 때문에 Ollama 에 사람들이 관심을 많이 가집니다. 오픈되어 있는 모델을 다운로드 받아서 구동하는 개념이구요. 다만, 컴퓨터에서 돌리게되면 전기를 많이 잡아먹어서 전기료 정도? 발생한다고 보시면 됩니다. 오늘 공유드린 EEVE 모델 추천 드립니다. 개인이 사용하는 것은 자유롭고, Apache-license 로 표기되어 있기는 한데요. 상업적인 이용이 궁금하시면 이 부분은 원저작자인 yanolja 개발팀에 문의해보시는 것이 정확할 것 같습니다~
안녕하세요! 우선, RAG를 처음 시작하는 개발자로 너무 많은 도움을 받고 있습니다 감사합니다
한가지 문의 드릴 것이,
local에서 동작 확인 후 heroku를 결재 하여 (유료로 바뀌었군요.. ㅡ.ㅡ) 호스팅을 하는 과정에서
Heroku 설정 후 git push 를 하면 requirements.txt 의 package를 찾아 컴파일 하는 중,
다음과 같은 에러가 발생 합니다.
(해당 package를 막고 해봐도 .. 계속 다른 package 들에서 버전을 찾지 못한다고 에러가 발생하네요..)
RROR: Could not find a version that satisfies the requirement apturl==0.5.2 (from versions: none)
remote: ERROR: No matching distribution found for apturl==0.5.2
-----> Python version has changed from python-3.12.7 to python-3.11.8, clearing cache
remote: -----> Requirements file has been changed, clearing cached dependencies
remote: -----> Installing python-3.11.8
remote: -----> Installing pip 24.0, setuptools 70.3.0 and wheel 0.44.0
remote: -----> Installing SQLite3
remote: -----> Installing requirements with pip
remote: Collecting aiohappyeyeballs==2.4.3 (from -r requirements.txt (line 1))
remote: Downloading aiohappyeyeballs-2.4.3-py3-none-any.whl.metadata (6.1 kB)
remote: Collecting aiohttp==3.10.9 (from -r requirements.txt (line 2))
remote: Downloading aiohttp-3.10.9-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (7.6 kB)
remote: Collecting aiosignal==1.3.1 (from -r requirements.txt (line 3))
remote: Downloading aiosignal-1.3.1-py3-none-any.whl.metadata (4.0 kB)
remote: Collecting annotated-types==0.7.0 (from -r requirements.txt (line 4))
remote: Downloading annotated_types-0.7.0-py3-none-any.whl.metadata (15 kB)
remote: Collecting anyio==4.5.0 (from -r requirements.txt (line 5))
remote: Downloading anyio-4.5.0-py3-none-any.whl.metadata (4.7 kB)
remote: ERROR: Could not find a version that satisfies the requirement apturl==0.5.2 (from versions: none)
remote: ERROR: No matching distribution found for apturl==0.5.2
remote: ! Push rejected, failed to compile Python app.
remote:
remote: ! Push failed
remote: Verifying deploy...
테디님 영상에서는 잘 되는 것으로 보아 ..
Heroku쪽 문제 인 것인지 또는 영상 촬영시 사용 된 requirements.txt 파일이 좀 다른 것인지 알 수 있을까요?
미리 감사드려요~~~
안녕하세요~? 해당 오류만 봐서는 동일 requirements.txt 인지 확인이 어렵습니다만 혹시 github 에 올려 놓은 requirements.txt 파일을 그대로 내려 받아 올리셨을까요~?
너무 잘봤습니다. 다름이 아니라 궁금한게 있는데요... 윈도우에서도 되는 건가여?
네 가능합니다!
너무 설명이 잘되어있어서 rag전까지는 성공을 하였습니다. 그 rag를 하려면 임베딩을 openai로 한다고 하고 다른걸로 할수도 있다고 하셨는데 오픈소스로 되어있는것이 뭐가 있을까요?
@@Withipad 허깅페이스에 bge-m3 임베딩이 있습니다~ 한글 처리 능력도 우수한 편입니다
@@teddynoteㅠㅡㅠ 감사드립니드
한가지만 마지막으로 질문드리려고 합니다..
그 오프라인 환경에서는 절대 진행할수없는 프로젝트인가요??
Server.py를 오프라인에서 실행시켰더니,
에러가 뜨더라구요 랭체인 모듈에서 온라인으로 가져오는게 있는것 같던데용..
안녕하세요!
좋은 영상 잘 봤습니다
이렇게 하면 사내 서버에 설치된 올라마를 통해서만 동작하는거죠?
외부와의 연결점(보안상 문제 관련)은 없는거죠?
네 사내에서 동작 가능하구요 프록시도 설정 가능합니다~ 보안은 모델 자체의 문제보다는 연결시 보안 설정만 잘 해주시면 문제 없을 것 같습니다^^
안녕하세요 테디님, OpenAI로 embedding 하는건 잘 되는데요... 아무래도 보안적인 부분이 고려되어서 만들어 놓으신 허깅페이스 코드로 embedding을 하고 싶은데, 자료를 올리고 질문을 하면 AssertionError 가 나옵니다. 짧은 시간에 생성까지는 했는데, 이 부분에서 막혀서 이렇게 댓글 남겨봅니다! 그리고 임베팅을 OpenAI로 하는건 보안은 괜찮을까요? API는 OpenAI는 학습데이터로 쓰지 않는다고는 하는데, 아무래도 개인정보가 들어간다면 무시할 수 없을 것 같은 부분이라 여쭤봅니다.
네 오류가 나는 부분은 디스코드에 남겨주시면 메시지 보고 답변 드릴 수 있을 것 같아요. 댓글로 남겨 주셔도 좋구요~
openai embedding 은 괜찮다고 생각하는데요. api 써서 모델 답변 받는 건 아무래도 보안이 걱정되실 수 있죠. 만약 이 부분이 걱정이시라면 로컬 모델로(llama3, eeve korean) 다운 받아서 진행하셔야 되지만 GPU 인프라 구축은 동반되어야 원하시는 출력이 나오실꺼에요! 참고하십쇼^^
@@teddynote 아, 추가로 말씀 드리면 Nvidia 카드가 있어 cuda로 셋팅 하고 공유 주신 EEVE Korean으로 사용했습니다. 응답의 퀄리티가 생각보다는 좋아서 더 사용해보고 싶었습니다. 다만 embedding을 OpenAI로 하면 올리는 데이터가 똑같이 OpenAI로 넘어가는 것 같아 걱정되어서 만들어놓으신 USE_BGE_EMBEDDING = True로 하고 사용했더니 에러가 난거였습니다!
@@cklee4069 네~ 그러시군요. 이해했습니다. 오류는 세부로그가 없으면 구체적으로 원인을 알기가 어렵습니다.
유추해보자면 VRAM 메모리 부족일 수 있을 것 같아요 왜냐면 BGE 모델도 GPU에 올려야 하는데요 기존 LLM과 동시에 올라가려면 메모리 부족이 발생할 수 있을 것 같습니다~
@@teddynote CPU로 바꿔도 똑같은 에러가 나오네요, 여기까지 만족하겠습니다. 패스트 캠퍼스 강의 보면서, 하나하나 공부 해보겠습니다. 감사합니다. 월간 라이브도 잘하세요~
@@cklee4069 넵! 나중에 디스코드에 에러 남겨주심 한 번 볼게요~^^ 감사합니다
허깅페이스의 모델을 ollama에 업로드 하려고 하는데 "unsupported content type: text/plain; charset=utf-8" 과 같은 오류가 계속 발생합니다. 혹시 문제 원인이나 해결방법을 알고 계실까요 ?
작성하신 템플릿에 인코딩 오류가 있거나 템플릿 자체에 오류가 있을 것 같아요. 오타 한 번 확인해 보시겠어요?
테디님 늘 좋은 강의 감사 드립니다. 한 가지 질문이 있어 문의 드립니다. Streamlit 로컬 에서 구현 시, 혹시 한글 임베딩 관련해서 페쇄망인경우 추천 해주만한게 있을까요?? 밖에서는 잘 되었는데 폐쇄망인 곳에서는 PDF등록시에 계속 오류가 발생되어서요
안녕하세요! 혹시 langserve github에 업로드된 streamlit 예제에서 bge-m3 임베딩 사용하는 예제가 있는데요. 폐쇄망에서도 문제 없이 잘 동작하고 pdf 도 문제 없이 잘 임베딩 되는데요. 한 번 확인해 보시겠어요? 소스코드 링크 남겨드립니다.
github.com/teddylee777/langserve_ollama/blob/main/example/main.py
만약에 폐쇄망에서 안되는 이유를 찾자면 허깅페이스에서 모델 다운로드 할 때 막혀있을 수는 있을 것 같습니다. 이 부분은 외부망에서 다운로드 받아 놓으시고 그 다음부터는 폐쇄망으로 진행해 보십쇼~!!
정말 감사합니다. 보여주신 대로 따라하기 코딩 하여 진행하였습니다.!!!
다시 한번 테디 님께 감사 드려요!!
다른 것들은 잘 진행 되었습니다. 최종으로 streamlit 에서 안되고 있어요.
윈도우 환경에서 진행해서 그런지 최종 streamlit 에서 pdf 문서를 등록하니
"PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?"
에러가 발생하여 poppler 를 설치 하고 환경변수에 등록 했지만 아직 오류를 해결 못하고 있습니다.
다른 윈도우 환경에서 작업하는 분들은 잘 되시나요?
poppler 윈도우 설치 가이드 아래 링크 한 번 참고해 보세요!!
blog.naver.com/kiddwannabe/222464734713
좋은 영상 감사합니다! 혹시 RAG를 적용 했을 때 속도가 많이 느려지는데 chunk를 나누는 과정을 추가하면 개선이 될까요??
속도는 vector db를 바꿔보시는 것이 좋습니다!
@@teddynote 감사합니다! 테디님! 몇 가지 궁금증이 있습니다...!
1. RAG를 사용해서 gpt4 처럼 웹 접근 결과를 기반으로 응답을 내는 것이 가능한가요?
2. 도큐먼트 리트리버로 응답을 생성하는 경우 도큐먼트의 내용이 아닌 경우 일반 모델을 사용하는 방법이 있을까요?
@@iopp6090 네 두가지 케이스 모두 가능합니다.
1번은 웹검샛 도구를 붙이면 되고요!
2번도 구현 가능합니다~
감사합니다. 아낌없이 주시는 나무. 덕분에 한 번 돌려볼 수 있었어요! 근데, Langserve PlayGround UI가 휴대전화기에서는 짤리는데 해결방법이 있을까요?
아쉽지만 모바일 대응이 아직은 조금 부족한 것 같아요 수정은 가능한데요 아마 css 쪽을 직접 코드로 수정해야 할 것 같습니다 ㅜ 흑
@@JihaoXu FAISS 저장소에 잘 들어 갔는지는 일단 DB INDEX 를 저장한 다음에 생성된 INDEX 파일을 보고 유추할 수 있어요~ 근데 DB 파일이 index 와 pkl 로 되어 있어 우리가 그냥 열어보는 것은 어렵고요~ 어차피 임베딩된 숫자 표현으로 들어가있기 때문에 열어봐도 해석이 어려워요 결국 잘 들어갔는가는 retriever 가져와서 검색어를 날려서 DB 에서 조회가 잘 되는지로 확인해 보는것이 가장 간편합니다~
Modelfile에 'TEMPERATRUE 0' 이 부분을 넣으면 ```Error: command must be one of "from", "license", "template", "system", "ada``` 이런 에러가 뜨고 그 부분을 빼야 정상작동하는데 이유가 뭘까요?
오타가 있어서요~ temperature 0 으로 설정하시면 됩니다~
@@teddynote temperature 0 으로 넣어도 같은 에러가 뜨네요. 지우니까 해결은 되는데 이유를 아무리 검색해도 안 나와서 의견 여쭙고 싶습니다
@@휑-d8k temperature 템플릿에 옵션에서 빠져서 그럴 수도 있어요 빼고 하셔도 나중에 지정 가능하기 때문에 빼고 진행하시면 됩니다~
안녕하세요
로컬 서비스 세팅 후
윈도우에서 로컬, 리모트 접속해서 질문을 1개만해도 속도가 엄청 느립니다.
질문과 동시에 cpu 99%, 메모리 full, gpu는 거의 안먹습니다.
(노트북 사양 : i7 12세대, 16g, 내장그래픽)
혹시 이유가 있을까요?
네 외장 그래픽(엔비디아 계열) 이 달려있지 않으면 답변이 굉장히 느립니다. 빠른 출력을 위해서는 GPU가 필요합니다!!
모델을 ollama에서 run하고 serve하면 옵시디언의 Text Generator이나 Copilot같은 곳에서도 모델 이용하는것도 해보셨나요!
네 방금 말씀해 주셔서 해봤는데~ 꽤나 잘 동작합니다! 아이디어 주셔서 감사합니다. 그리고 브라이언님 덕분에 옵시디언 입문해서 너무나 잘 활용하고 있습니다~ 앞으로도 꿀팁 얻으러 자주 가겠습니다~^^
안녕하세요~ 영상 잘보고있어요 따라하면서 에러부분이 있는데
python server.py 를 입력하면 fastapi가 no module 상태로 자꾸 뜨네요 github에서 requirements.txt 를 몇번이나 터미널창에서 내려받았는데도
똑같습니다 ㅠㅠ 혹시 해결방법아실까요 구글링을 했는데 파이썬 버전을 바꿔보라해서 바꾸고, 터미널열었다 닫아보라해서 다해봤는데도 안됩니다...
안녕하세요? 혹시 가상환경 환경 구성이 되었을까요~?
구성 안하고 베이스에 그냥 설치하면 안되는 경우도 있어서요!
아래 영상 보시고 가상환경 한 번 구성하신 다음에 시도해 보시겠어요?
#랭체인 한국어 튜토리얼🇰🇷 업데이트 소식🔥 처음 사용자를 위한 친절한 환경설치(Windows, Mac)
ruclips.net/video/mVu6Wj8Z7C0/видео.html
@@teddynote 정말 감사합니다!! 이 문제는 해결되었습니다! 그런데, 또 문제가 있는게 로컬호스팅은 되지만, 제가 ai에게 물어보면 Exception in ASGI application 이라고 뜨면서 터미널창에 에러가 나네요 .. .혹시 방법없을까요 구글링 해보니까 CA인증서 때문이라고 해서 인증서도 다운받아보고 했는데 여전히 똑같네요 재부팅을 계속해도 똑같구... 혹시 이 문제사항에 대해 알고계시면 알려주세요 !!!
위 대로 따라하면, 인터넷 연결 없이도 사용 가능한게 맞을까요? 설치할때도 인터넷 연결 없고, 사용할 때도 인터넷 연결 없이도 되는걸까용?
영상의 방식이라면 설치 할 때는 인터넷 연결이 필요합니다~
멋지네요.
그런데, cmd에서 실행하면 확실히 빠르고 gpu 100% 먹는데, python server.js 하면 대답도 느리고 gpu 사용량도 안올라가는데 이유가 무엇일까요?
앗 저도 이거에 막혀서 이것저것 찾아보는 중인 ㅠ_ㅠ CUDA 설정 server.py에 필요한거 같은데 어디다 해야할지 모르겠네요;;
cuda 설정이 잘 되어 있는지 확인해 보시겠어요?
앗 이것저것 하다가 해결되었네요.
1. CUDA재설치(설치내용 자세히 보니 1개만 설치완료되고 나머진 전부 실패였음;;;)
2. 내장그래픽카드 바이오스 상에서 사용 안함
그나저나 특이하게 CMD상에서 llama3:70B는 cpu로 동작하네요. 작은모델은 GPU로 동작하는데;;;
@@netan81 70B 어떤 양자화 모델을 사용하였는지는 모르겠지만 vram 메모리가 GPU 1장으로는 감당하기 어려운 사이즈라면 못 올릴껍니다 ㅜ
테디님, local 환경을 colab으로 두고 EEVE 모델 받을 수 있나요?
코랩에사는 구동하기 어렵기 때문에 PC에서 해보세요!
그럼 로컬호스트로 돌리는 AI는
최대 수신, 답변 길이 제한이나 이런거는 없나요?
답변 길이의 제한은 있고요. 답변 길이의 제한은 다운로드 받은 로컬 모델의 답변 제한을 따라갑니다~
@@teddynote 아하 그렇군요ㅠㅠ
Claude 는 250줄 쯤에서 hit the maximum length limit 가 뜨고
GPT 4는 중간에 코드 빼먹는
(#이미있는 구조 사용) 이런게 아니라
말그대로 코드가 빠지고
이상한데에 "]" 들어가는 이상한 문제가
있어서 로컬모델 찾아보고 있는데 ㅠㅠ
아쉽네요.
ㅡㅡㅡㅡㅡㅡㅡㅡ
궁굼한게 있어서 추가 질문 좀 드려봅니다
지금 쓰는 Gpu가 1080ti 11GB 입니다.
라마 3 70B 모델을 써보려고 하는데 VRAM 11GB면 충분한지 궁굼합니다.
만약 부족하다면 48GB 까지는 늘려볼수 있습니다.
구글링 해보니 Vram 160Gb 필요하고
뭐 양자화 하면 괸찮다는데 맟나요?
@@4527PENK 양자화된 모델로 테스트 가능합니다. Q4 양자화 모델로 테스트 해보시면 될 것 같아요. 24~48GB 사이 정도 될 것 입니다.
다만, Q4 양자화는 인텔리젼스 손실이 많습니다. 원본 모델인 160G 짜리로 해야 거의 무손실의 인텔리젼스를 사용할 수 있습니다. 하지만, 누구나 그런 GPU 자원이 있는 것은 아니기에 가용할 수 있는 자원에 맞춰 양자화된 모델 (Q4, Q6) 정도에서 타협해서 테스트 해보실 수 있습니다~
@@teddynote답변 감사합니다.👍
지금 보니까 이런 Llm 호스팅은 가격이 어마어마하던데... chatgpt를 파인튜닝시켜서 서비스를 런칭하는 것과 이렇게 따로 서버에 띄워서 할경우 비용 절감은 어느쪽이 더 나을까요?
ChatGPT를 파인튜닝 하는 것은 권장드리지는 않고 있어요. 이유는 우리가 생각하는 것처럼 결과가 나오지 않고 비용이 비싼 것도 단점이고요. 베이스 모델도 3.5 기반입니다.
비용 절감만 생각하시면 파인 튜닝 말고 그냥 GPT api 사용하시는게 낫구요. 사용량이 많아지면 그 때는 호스팅 비용이 더 싸게 먹힐 수 있습니다
영상 답변 감사합니다ㅜ 혹시 gpu를 꼭 써서 호스팅해야 한다면 3090정도는 되어야 할까요?
vram 은 넉넉할 수록 좋습니다~ 어떤 모델이냐에 따라서 충분할 수도 혹은 부족할 수도 있을 것 같아요. 여기서 직접 계산해 보실 수 있어요
huggingface.co/spaces/NyxKrage/LLM-Model-VRAM-Calculator
테디님. ollama를 local이 아닌 aws 서버로 띄워서 쓴다면 비용이 많이 들겠죠..?
GPU 인스턴스 종류에 따라서 다를 것 같아요. 비용은 종량제로 발생하기 때문에 지속적인 비용은 발생합니다 ㅜ
@@teddynote 다른 open llm 사용해도 비용부담은 클수밖에 없겠네요..!
테디노트님 전에 테디노트님영상에서 봣는데 그 llm 선택해서 사용할수있는 프로그램이름이 기억이안나요,. 찾지도못하겠고...챗gpt선택하면 api 키넣고 로컬구동가능한 라마같은거 선택하면 라마알아서 다운받아서 쓰고 그런프로그램이었는데. 이런프로그램을 많이써야 더 좋아진다 뭐이런말하셧던걸로기억합니다.
LM Studio 가 로컬에서 다운로드 받아서 구동하는 프로그램이구요!
Anything LLM 은 RAG 단계별 모듈 선택하여 구동할 수 있는 프로그램 입니다!
@@teddynote 감사합니다!!
좋은 영상 감사합니다. 동영상을 보면서 과정을 따라하고 있는데 자꾸 server.py를 실행하는 과정에서
ModuleNotFoundError: No module named 'langserve.pydantic_v2'
이런 오류가 계속 발생하는데 해결방법을 모르겠습니다
해결방법에 대해서 답변해 주실수 있으실까요??
안녕하세요! 아마 최근에 langchain v0.3.x 업데이트 이후 오류가 발생하는 것 같아요.
이 부분은 제가 빠르게 수정해서 업데이트 해드릴께요^^
지금 당장의 해결하는 방법은 다음과 같습니다
pip install langchain==0.2.16
버전으로 재설치
그 다음에 시도해봐 주세요^^
gguf 파일까지 다운 받았고 Modelfile 만드는것 까지는 했는데 ollama create를 하니까 Error: command must be one of "from", "license", "template", "system", "adapter", "parameter", or "message" 가 발생하는데 원인이 뭘까요?
TEMPERATURE를 없애니까 해결되었습니다
옙 좋습니다 제가 temerature 빼고 업데이트 해놓을께요^^
@@user-bj9lt7fg8c 계속 안되서 댓글 보고 해결 했습니다!!! ㅠㅠ
10B이면 상당히 VRAM이 많이 필요할텐데 어떻게 맥북에서 돌아가나요? 아무리 MAX라고 해도?
양자화 모델이라서 가능합니다!
좋은 강의 덕분에 로컬 RAG시스템을 구축하였습니다. 질문이 있는데요. Runnable을 쓸때 , 답변으로 참조 문서를 받을 수 있는 방법이 있나요? ConversationalRetrievalChain에서 return_source_documents=True 요 옵션으로 result['source_documents'] 이렇게 받았었는데 Runnable에서 PromptTemplate에 추가를 해줘 봤는데, 자꾸 에러가 떠서 어떤 참고 할 만한 방법이 있을까요?
답변에 참조 받을 수 있어요. 프롬프트에 답변에 참조를 포함해 달라는 요청을 하게 되면 답변 문자열에 참조가 포함되어서 나오기도 하구요. key 값으로 받고자 한다면, json output parser 를 사용하는 방법도 있습니다. 위키독스에 json output parser 로 검색해서 튜토리얼 참고하시면 좋을 것 같아요~!
감사합니다. 일단 따로 쿼리 날려서 검색해서 찾아 내었습니다. 알려주신 부분도 해보겠습니다.
--local-dir-use-symlinks 가 기본값이 True이기때문에 False를 명시해야하는건가요? 그냥 다운로드하는건데 심링크가 굳이 어떻게 왜 연결되는건가용?
없으면 일단 ~/.cache/~ 경로로 간 후에 심링크를 거는군용
True로 설정하면 파일 크기에 관계없이 심볼릭 링크가 생성됩니다. False로 설정하면 파일이 캐시에서 복제되거나(이미 존재하는 경우) 허브에서 다운로드되어 캐시되지 않습니다!
윈도우에서 cuda 설정하는 방법 알 수 있을까요. main.py에서 model_kwargs = {"device": "cuda"} 로 했지만 CPU를 사용하고 있어 질문드립니다 ㅠㅠㅠ
우선 윈도우에서 CUDA 설정이 되어 있으셔야 model_kwargs = {"device": "cuda"} 이걸 사용하실 수 있어요. 구글에 "Windows CUDA 설치" 키워드로 검색하셔서 설치 먼저 해보십쇼!!
답변 감사드립니다 맥은 다른 설정 없이 가능했는데 윈도우믄 별도로 설치가 필요하군요. 설치 진행해보겠습니다.
윈도우 사용자입니다. ollama run EEVE-Korean-10.8B:latest을 실행하면 llama runner process no longer running: 1 error:failed to create context with model 이라는 오류가 뜨는데, 뭐가 문제일까요?ㅠㅠ
ollama 가 구동 중이어야 하는데 어떤 이유에선지 실행중이 아니라는 메시지 같아요. 먼저 ollama serve 로 구동시켜 놓고 새로운 터미널에서 ollama run 명령어 실행해 보세요!
@@teddynote ollama serve 구동 후에 ollama run을 실행해봤더니 ollama serve를 구동했던 터미널에 아래와 같은 오류 메시지가 뜹니다..ㅠㅠ
ggml_backend_cuda_buffer_type_alloc_buffer: allocating 384.00 MiB on device 0: cudaMalloc failed: out of memory
llama_kv_cache_init: failed to allocate buffer for kv cache
llama_new_context_with_model: llama_kv_cache_init() failed for self-attention cache
llama_init_from_gpt_params: error: failed to create context with model 'C:\Users\Commeci\.ollama\models\blobs\sha256-2ede7a0e79157cecbdd6f6890d6a463e73d8b05040330bfd2fce53bb39b47e28'
{"function":"load_model","level":"ERR","line":410,"model":"C:\\Users\\Commeci\\.ollama\\models\\blobs\\sha256-2ede7a0e79157cecbdd6f6890d6a463e73d8b05040330bfd2fce53bb39b47e28","msg":"unable to load model","tid":"19392","timestamp":1714406828}
time=2024-04-30T01:07:08.795+09:00 level=ERROR source=routes.go:120 msg="error loading llama server" error="llama runner process no longer running: 1 error:failed to create context with model 'C:\\Users\\Commeci\\.ollama\\models\\blobs\\sha256-2ede7a0e79157cecbdd6f6890d6a463e73d8b05040330bfd2fce53bb39b47e28'"
구글링 해봐도 해결법이 나오지 않네요..ㅜㅜ
@@이꼼시 메모리가 부족하다는 에러인 것 같아요. 이미 GPU 가 다른 프로세스에서 사용하고 있어서 가용할 수 있는 메모리가 작아서 에러났을 수 있습니다~
@@teddynote 와아..ㅠㅠㅠㅠㅠ 진짜진짜 감사합니다!!!!!!!! 덕분에 해결했습니다!!!!!!! 늦은 시간까지 도와주셔서 감사합니다 ㅠㅠㅠㅠㅠ 항상 많은 도움 받고 있어요!ㅠㅠ
안녕하세요, 정말 좋은 영상 감사합니다. 모두 다 성공했으나, stramlit 실행 후 PDF불러와서 질의할 때 계속해서 TypeError: 'CacheBackedEmbeddings' object is not callable 오류가 뜨네요... 혹시 해결방법을 알려주실 수 있으실까요?
작성하신 코드도 남겨 주실 수 있을까요~?
야놀자의 한글모델로 번역하면 딥엘과 비교해서 어떤가요? ㅎㅎ
일반 번역 수준은 훌륭합니다. 저는 나름 만족하면서 사용하고 있어요!
안녕하세요 이번에 처음 딥러닝을 공부하는 사람입니다! 먼저 좋은 영상 남겨주셔서 정말 감사드립니다.
제가 vscode와 wsl 연동해서 사용하고 있는데 wsl에 깃허브에 있는 requirement를 설치하고
코드를 그대로 가져와서 server.py를 돌려서 playground에 들어가서 질문했는데 반응이 없더라구요 혹시 cuda를 wsl안에랑 아니면 윈도우 자체에 cuda를 둘다 설치 해야하나요?
아니면 xionic.py에 있는 api_key랑 관련 있는건가 해서요!
질문 하나만해도 gpu가 100%가 되어버리네요 만약애 gpt3처럼 서비스를 하려고한다면 컴퓨터가 무수하게 많이 필요할까요?
VRAM을 더 큰 GPU를 사용할 수 있고요 정말 사용자가 많다면 더 많은 장비가 필요할 수 있어요. 클라우드 서비스를 이용하면 손쉽게 확장할 수 있을 것 같습니다! 그런데 돈은 많이 들죠 ㅜ
감사합니다. ollama 로 돌린 것이랑 transformer 로 돌린 것이랑 성능 차이가 좀 있는지 찾아 봐야겠네요
양자화 모델이기 때문에 양자화 수준에 따라 약간의 성능 차이가 발생할 수 있습니다~
혹시 EEVE-Korean과 LLaMA3하고 연동할 수 있는 방법이 있을까요??
모델은 보통 둘 중 하나를 택1 하여 선택하여 진행하는 것아 일반적입니다. 보통은 둘 다 테스트 해보고 더 나은 모델은 택 1 합니다만, LLM 라우팅이라는 방식도 있습니다. 코드에 관련한 내용은 llama 가 한국어 질문은 eeve 가 답변할 수 있도록 할 수 있어요~
단순 성능만 비교하면 그래도 gpt4 계열의 모델이 EEVE보다 많이 좋은가요? 한국어 기준으로요!
성능이 여러 부분을 포함하고 있지만 GPT4는 입력으로 받는 컨텍스트 길이가 128K로 eeve 의 4K대비 크기 때문에 RAG를 하실 때는 입력의 길이가 길면 좋으므로 GPT4가 좋다고 할 수 있습니다.
AI 초보인데요, Ollama가 LLM인데 EEVE 모델이 왜 필요한지 궁금하네요
네~ ollama는 llm이 아니고 llm을 구동하는 프로그램 입니다. EEVE가 llm입니다~
@@teddynote 아~~감사합니다
cuda는 미리 설치해야 gpu가 작동하는건가요? cuda설치없으니 gpu가안도눈거같아서요
맞습니다 cuda는 설치되어야 gpu 잡아서 동작합니다!
로컬 rtx 4060 8기가로 테스트하면 엄청 느린데 맞는거죠? ㅠ
혹시 CUDA 설정이 되어 있으실까요~? 안되어 있는 경우 느릴 수 있어요 (CPU 사용)
@@teddynote 어떻게 하면 cuda를 사용하는지 간단하게 알려주실 수 있으신가요
@@두뇌트레이닝-o8g cuda 를 이용하기 위해서는 설치 과정이 필요한데요! 블로그에 검색해 보시면 관련 자료가 많이 나옵니다.
GPU 버전에 맞는 CUDA를 설치하시면 GPU가 정상적으로 작동합니다. 예시 링크 공유 드릴께요~
velog.io/@sxngwxx/%EC%9C%88%EB%8F%84%EC%9A%B0Windows-CUDA-cuDNN-%EC%84%A4%EC%B9%98
윈도우 기준으로도 설명해주실수 있을까요?
제가 윈도우가 없어서요 ㅜㅜ
윈도우라고 딱히 다른 점은 없을 것 같아요^^
안녕하세요 영상 감사드립니다.^^ EEVE 모델을 상업용으로 사용해도 되나요?
apache 2.0 라이센스를 따릅니다. 상업용 사용이 가능하나 제약이 있으니 사전에 확인해 보세요^^
아직 오류가 너무 많네요
LLM모드에서 Chat모드로 어떻게 변경하나요...?
주소가 /xionic/playground 로 되어 있으면 Chat 모드, /prompt/playground 로 되어 있으면 LLM 모드인 듯 하네요.
테디님! 영상보며 다른 모델도 적용해 보고있습니다. 샘플코드보니 라마3도 적용해 보신거 같은데 혹시 한글문제 없으셨나요?
한글답변이 안나오는건 아닌데 뭔가 품질이 떨어지기도 하고 시스템 프롬프트를 줘도 영어로 답변하기도 하고 그러네요^^;
에이전트 사용하면 한글 답변에 대하여 좀 품질이 떨어지는 건 사실 인것 같습니다. 8B에서는 확실히 그렇구요 70B 사용하니깐 확실히 좋습니다!
안녕하세요 영상 감사합니다.
생 초보가 따라하려고 하는데, 싸이트에서 GGUF 파일 받아, Modelfile 만드려는데, 자꾸 에러가 나네요
modelfile 확장자가 yaml 맞나요? 메모장에서 확장자를 yaml로 저장했습니다.
cmd 창에서 Modelfile 있는 폴더가서 "ollama create EEVE -f Modelfile 로 하면 파일을 못찾겠다고 하고,
Modelfile.yaml 로 치면 "no FROM line for the model was specified" 라고 하는 에러가 계속 뜨네요.
1. Modelfile 은 별도 확장자가 없습니다 그냥 확장자 없이 Modelfile 이라고 만드시면 됩니다~
2. Modelfile 안에 내용을 입력해 주셔야 합니다 내용은 github.com/teddylee777/langserve_ollama/blob/main/ollama-modelfile/EEVE-Korean-Instruct-10.8B-v1.0/Modelfile
링크의 파일을 보시고 입력하시면 되는데요. 맨 위의 FROM 다음에 나오는 파일의 경로만 본인이 저장한 경로로 변경해 주시면 됩니다!
@@teddynote 감사합니다. modelfile 을 확장자 없이 만든다는 말을 이해못했었는데, 메모장이 아니라 툴 이용해서 만드니까 되네요!
안녕하세요. 항상 자료 감사히 보고 있습니다!
덕분에 LLM 도 손쉽게 호스팅이 가능하다는걸 알게 되었는데요.
혹시 임베딩 모델도 ollama - langserve 조합으로 remote 가 가능할까요?
가능하다면 한국어가 잘되는 임베딩 모델로
예시) db = Chroma(..., embedding_function=RemoteEmbedding("주소/embedding/", ...)
가능해요.
아래의 코드를 참고 해 주세요
from langchain_core.runnables import RunnableLambda
embedder = HuggingFaceEmbeddings(...)
runnable_embedder = RunnableLambda(afunc=embedder.aembed_documents)
add_routes(app, runnable_embedder)
깃헙 이슈에 올라온 내용도 같이 참고하시면 좋아요
github.com/langchain-ai/langserve/discussions/383
정말 감사합니다ㅠ
제한된 환경이라 api 방식 밖에 사용 못했는데 덕분에 여러가지 로컬모델도 시도해볼수 있겠네요!!😊
혹시 ollama 아래 에러는 왜 뜨는건지 아실까요? 구글링해도 잘안나오네요
ValueError: Ollama call failed with status code 500. Details: {"error":"llama runner process no longer running: -1 CUDA error: the provided PTX was compiled with an unsupported toolchain.
current device: 0, in function ggml_cuda_compute_forward at /root/parts/ollama/build/llm/llama.cpp/ggml-cuda.cu:2212
err
GGML_ASSERT: /root/parts/ollama/build/llm/llama.cpp/ggml-cuda.cu:60: !\"CUDA error\""}
llama cpp 로 실행하셨나요?
@@teddynote 아뇨 처음엔 ollama pull로 땡겨오다가 저 에러가 뜨길래 영상 방식대로 GGUF에서 가져왔는데 똑같은 상황입니다. CUDA 버전문제일까요? 참고로 12.2 버전입니다.
@@JeongminYoo-rc5bl CUDA 버전 문제일 수 있어요. 지원하는 CUDA 버전 한 번 확인해 보시고 지원하는 버전으로 한 번 설치해 보시겠어요?
감사합니다!!
감사합니다~🙏