크롤링은 주어진 정보만 조회하려 가져옵니다. 정보를 활용하여 가공하지는 않고 정보를 가져오는 행위까지가 크롤링입니다. 웹검색 에이전트는 웹 검색을 통해 스스로 판단하여 도움이 되는 정보를 가져옵니다. 여기에 입력하는 검색어도 AI가 스스로 정의합니다. 게다가 조회한 정보를 바탕으로 사용자의 질문에 대한 답변을 생성합니다. 에이전트는 단순 웹검색을 넘어서 데이터 분석을 하거나 보고서를 작성하거나 등등의 지능을 겸비한 작업을 수행할 수 있다는 것이 가장 큰 차이점입니다^^
모델을 2개 돌릴려면, 각각 gpu에 로딩 시켜야되는게 맞죠...? 한국어 오픈모델 제일 좋은게 evee-10b(맞나요.? llama 3.2 3b 는 한국어를 하긴 하는데 내용요약 같은 input내용이 있어야 잘하고, 물어보는 내용은 할루시가 심한거 같음)인가 돌려봤는데 속도가 많이 느리더라고요;; 24gb nvidia l4에서 600~800토큰 리턴하는데 거의 30초~50초? 30초당 1000토큰-1분당 2천토큰 생산이라고 치고 계산을 해보면 1시간에 12만 token 인데 gpu가 시간당 1.5달러니까... 파인튜닝 빡세게해서 많이 잘쓸거 아니면 그냥 오픈모델 쓰는건 가성비가 없겠다 생각이 드네요 ㅠㅠ 혹시 어떻게 생각하시나요..? eeve 테스트를 제가 잘못했으려나요..? 그냥 글내용 던져주고 요약해서 json으로 던져줘 라고 eeve 테스트 했습니다... ai hub ko리더보드에 1등으로 되어있는 eeve모델 썼습니다
vram 이 넉넉하시면 하나의 gpu에 여러 모델을 올릴 수도 있습니다. 오픈모델은 가성비 때문에 쓰는 것은 아닙니다. 오히려 상용모델이 더 저렴할 수 있습니다. 만약 서버 장비를 보유하고 있다면 전기료만 내면 되기때문에 그때는 가성비가 좋다라고 이야기 할 수 있을 것 같습니다
안녕하세요~ 좀 다른 질문인데.. groq 아시죠? 저세상 속도로 답변을 뱉어내는.. 라마3 70B를 돌려도 한글을 초당 300토큰 이상 뱉어내는데요. 영어는 두배정도 더 빠르고요. 우리 챗봇 서비스를 라마3 + groq를 사용해서 초스피드로 서비스 할수도 있는건가요?? 제가 잘못생각하고 있는건지.. groq이 무슨 개념이고 챗봇RAG을 개발하고 배포하는 어느단계에 무엇을 대체해서 들어오는건지 궁금합니다ㅠ
groq은 LPU 라는 LLM을 위하여 특화된 칩셋 입니다. 즉 반도체인거죠. CPU -> GPU -> LPU 순서로 추론 속도가 빨라질 것이고요. 기존의 GPU를 대체할 수 있다고 말할 수 있겠네요~ 자세한 내용은 구글링 하시면 관련 블로그글이 많이 나와 있습니다. 한 번 참고해 보세요~^^
감사합니다 선생님👍👍 하나 궁금한게 있는데, LLM으로 의도파악(의도분류) 후에 각 의도에 따라 다른 종류의 문서를 검색(retreiver)하고 그 결과를 토대로 RAG를 하는 것을 만들고 있는데 langchain, langchain agents를 쓰지않더라도 문제없이 되긴 합니다. 이 경우에 langchain agents를 사용하는 방식으로 바꾼다면 코드와 프롬프트의 관리 및 확장에 용의하다는 점 외에 다른 장점이 있을까요?
agent 의 가장 큰 장점은 도구 활용인데요. 순정 llm 보다 도구를 가진 agent 를 사용하게 되면 정보 검색에 더 유연해지게 됩니다. 예를 들어, 문서 검색에서 원하는 내용이 충족되지 않는 경우 search 도구로 찾아서 보완할 수도 있구요. 하지만 지금의 RAG 에도 만족한다면 굳이 agent 로 변경하실 필요까지는 없습니다^^
감사합니다 !! 궁금한게 있는데 그럼 function 엄청 많은 Copilot 만들려고 하면 function 몇천개가 넘어갈수도 있는데 그럼 너무 많은 function definition 이 tool안에 들어 가잔아요? 그럴 경우에 어떻게 하는게 좋을까요? 에이전트를 여러개로 나눠서 메인 에이전트가 세부에이전트 정하게 하고 세부 에이전트가 각각 필요한 functions가지고 있는게 나을까요? 이렇게 할경우 각각 request 마다 무조건 두번이상 request 하게 되는데 그럼 속도도 느려질거같고 해서요
@@Austin-t5o LLM 쪽 개발은 제일 어려운 점이 개발 & 논문 & 수학 모두 다 잘해야되고, 게다가 돈(GPU) 도 많아야 된다는 점인 것 같아요 ㅎㅎ 그런데 저는 우선순위를 두고 공부해 나가기 보다 "프로젝트" 를 먼저 잡고 이를 해나갈때 필요한 개발 지식을 습득하고, 성능 개선을 위한 논문을 보고, 수학이 어려우면 수학 관련 질문도 하고 GPT 도 사용해 보고 해나가면서 앞으로 조금씩 전진하다보면 어느 새 한계단 올라와있는 느낌을 받았습니다. 이 과정을 10번 100번 반복하다보면 자연스럽게 balance 있게 성장하지 않을까합니다. 그치만 이건 저에게 가장 잘 맞는 방식이구요. 사람마다 본인에게 잘 맞는 방식과 견해가 다르기 때무에 여러 명의 의견을 한 번 들어보시고 결정하시는 것이 제일 좋습니다^^
양자화 모델이 양자화 안한 모델이랑 성능?이 많이 차이 나는지도 궁금하네요.. 그냥 돌아가게 하려고 해서 70B나 8B양자화 모델을 쓰긴 하는데 8B모델이 이상하게 gpu메모리 24gb에서 run 실패하는 경우가 있더라고요; 8b 모델이 원래 gpu 24gb에서 실패하나요? gpt한테 물어보니까 fp16으로 돌릴때 클라우드에서 빌려서 그런가, 뭔가 gpu를 나눠쓰는 꺼림직한 느낌;; ㅋㅋ 나는 쓴적이 없는데 이미 gpu메모리 13gb 할당이 되어있다고 메시지가 뜨지를 않나 ㅋㅋㅋ 저만 그런건지 싶습니다 ㅋ; gpu 24gb 2개 사용은 가끔 수량이 없다고 컨테이너 start가 실패해버리고 해서;;
@@meca_p json parsing 문제는 아쉽게도 로컬 모델에 흔히 발생하는 문제에요. 정말 프롬프트 정교하게 튜닝해야 해결 되는 사례가 있고, 또는 모델의 인텔리젼스 높으면 유리한데, 70B 양자화 한 모델은 정보 loss 가 커서 최대한 양자화가 덜 되거나 혹은 아예 안한 모델로 돌려야 하는 것이 권장됩니다. 그런데 그런 GPU 자원이 보통 개인이 없기 때문에 힘든것이 현실이죠. 따라서 가장 현실적인 방안은 json parsing 을 잘 하도록 파인튜닝을 하는 것이 그나마 현실적으로 우리 노트북에서 돌릴 수 있는 방법 같아요. 앞으로 이 부분은 저도 주시하면서 새로운 내용 있으면 공유 드릴께요^^
처음에 LM Studio 대신 Ollama를 사용해서 구현하려고 하는데 llama3로 response를 받아올때 Observation에서 멈추는게 아니라 Action을 리턴하고 "Invalid or incomplete response"를 리턴한다음 다시 Chain을 시작하네요 혹시 멈추게 하는 방법이 따로 있을까요?
@@teddynote 답변 감사합니다! 해당 colab 환경에서 llama3를 qlora로 fine tuning한 후, model.save_pretrained(경로), tokenizer.save_pretrained(경로) 후에 아래와 같이 작성했는데, ''PreTrainedTokenizerFast' object has no attribute 'added_tokens_decoder''오류가 발생합니다..ㅠ 혹시 로컬에서 진행하신 방법이 있으신지 궁금합니다!! (tokenizer.model이 없다고도 뜨네요...!!) !python /convert-hf-to-gguf.py Llama-pdf-Ko-3-8B \ --outfile llama3-custom-Q8-v1.gguf \ --outtype q8_0
@@오라클-r9l finetuning 하신 다음에 merge 해서 huggingface repo 에 먼저 업로드를 해주시고요. 그 다음에 해당 파일을 convert hf to gguf 로 변환하실 수 있어요~ (아 물론 꼭 huggingface 에 업로드를 해야 하는 것은 아니고요. 일단 백업 차원에서 업로드 해놓고 진행해 보시는 것을 추천 드립니다)
너무 잘 봤습니다!!ㅎㅎ
앞으로도 좋은 영상 많이 올려주세요! :)
아이코오.. 후원 감사합니다😭😭 맛있는 거 사먹겠습니다. 유명하신 분께서 좋게 봐주셔서 영광입니다🥹 앞으로도 재밌는 콘텐츠 많이 만들겠습니다~!! 알렉스 채널도 자주 놀러갈께요! 감사합니다🙏
감사합니다. 올리신 영상 모두 잘 보고있어요. 덕분에 항상 많이알아갑니다. ❤
좋게 봐주셔서 감사합니다🫰🫰
고생하신 코드를 이렇게 공개하셔서 정말 감사합니다. 회사에서 정말 필요했던 귀중한 정보입니다. 감사합니다. 꾸벅~~^^ 강좌도 신청했어요~~
감사합니다 앞으로도 실제 바로 적용할 수 있는 관점에서 코드 많이 공유 하도록 하겠습니다^^
어떤 툴을 쓸 것인지와 실제 액션을 하는 LLM을 나눠서 체인을 엮으신 아이디어가 대단하신 것 같습니다. 너무 좋은 강의네요. 감사합니다!
아이쿠 극찬 감사합니다~ 저도 처음 시도해 보는데 실험하는 과정에서 많이 배웠던 것 같습니다~^^ 감사합니다🙏
이런 영상도 만드셨군요. 너무 감사드립니다. 정말 수고하신 것이 느껴지네요.
더 재밌는 콘텐츠도 앞으로 열심히 찍어보겠습니다~^^
캬~ 좋은 정보 공유해 주심에 너무나도 감사 드립니다.
감사합니다~^^
귀한 정보 감사합니다. 공개해 주셔서 정말 감사
앞으로도 재밌는 콘텐츠 공유 많이 드릴께요~ 자주 오세요~ ㅎ
배경지식이 부족해서 완전한 이해는 아니나, 흐름은 파악했습니다. 연습해봐야겠어요 😅
새로운 내용 고맙습니다 🎉
넵 뽜이팅입니다^^
멤버십 있는거 오늘 알았네요 바로 가입했습니다
항상 좋은 정보 공유해주셔서 감사합니다~
가입 감사합니다~🙏 앞으로도 열심히 콘텐츠 제작해 보겠습니다🫡
딕션, 컨텐츠, 무료 공유까지 이게 힙합이지
예써얼~🫡
감사합니다. 기대하던 영상이 올라와서 기쁜 마음으로 보았습니다. 코드 없이 따라 갈지 해봐야겠습니다.
내용이 많아서요~ 차근차근 해보십쇼~ 뽜이팅입니다~
좋은 강의감사합니다. 잘 배워갑니다
감사합니다🤗
사내에서 LLM을 맡게되어서 복잡했는데 많은 도움 얻어갑니다
작성해주신 위키독스도 정독하고있습니다 ㅎㅎ
감사합니다 자주 놀러 오세요~👍
강의 만드시느라 엄청 고생하셨겠군요...! 노고가 느껴집니다. 좋은 내용 감사합니다!
(판교 몽중헌은 꼭 가봐야겠군요..)
ㅎㅎ 저도 이게 될까? 하면서 해봤는데..하다보니 재밌어서 어떻게단 되게끔 해야겠다 하면서 만들었어요 ㅎㅎ 과정이 재밌었습니다^^
(판교 몽중헌 딤섬이 맛나요😉)
감사합니다~~아주 큰 도움이 되네요
감사합니다!
너무 감사합니다! 항상 감사해요🙏
시청해 주셔서 감사해요👍👍
항상 잘 보고, 배우고 있습니다.
감사합니다.
감사합니다🙏
너무 잘봤습니다 :)
큰 도움되었습니다!!
감사합니다🙏🫡
와 투표결과를 그새 반영을 ㄷㄷ 소통갑이세요🎉
투표 올렸다가 이번에 쬐끔 고생했습니다~ ㅎㅎ 그래도 너무너무 재밌게 만들어봤어요~ 앞으로도 좋은 아이디어 많이 던져 주세요~
멋진 강의 감사합니다.
시청해 주셔서 감사해요👍
Thanks!
안녕하세요 테디노트님 좋은 영상 감사드립니다!
4:29 를보다 질문이 생겨서 여쭙고자합니다.
이 웹검색을 하는 에이전트와 크롤러의 차이를 막연하게 알것 같습니다.
이 두개의 차이를 더 명확하게 알고 싶은데 시간 나시면 답변 부탁드려도 될까요?
크롤링은 주어진 정보만 조회하려 가져옵니다. 정보를 활용하여 가공하지는 않고 정보를 가져오는 행위까지가 크롤링입니다. 웹검색 에이전트는 웹 검색을 통해 스스로 판단하여 도움이 되는 정보를 가져옵니다. 여기에 입력하는 검색어도 AI가 스스로 정의합니다. 게다가 조회한 정보를 바탕으로 사용자의 질문에 대한 답변을 생성합니다. 에이전트는 단순 웹검색을 넘어서 데이터 분석을 하거나 보고서를 작성하거나 등등의 지능을 겸비한 작업을 수행할 수 있다는 것이 가장 큰 차이점입니다^^
@@teddynote 훨씬 더 능동적이라는게 에이전크의 특징이겠네요 한번에 이해했습니다 답변 감사드려요!
오 재밌는 프로젝트네요.
구현하는 동안 재밌었습니다^^
Agent < langchain
Function 2 < 1
Write, code < Write
Query, pdf
Invoking
Action, observation
Agent.. langdmith
Tablet search invoke
Retriever
Create retrieval tool
Description.
Open ai function agent
항상 감사합니다 🙏🙏
감사합니당🙏🙏
오 감사합니다 ! 최고최고 !🥰
😉👍👍
좋은 영상 너무 감사합니다. 판교 몽중헌 메모..
ㅎㅎㅎ 맛집입니다.... 메모...
유익한 영상 남겨주셔서 감사합니다. 현재는 코드를 공유하고 계시지 않으신가 여쭈어봅니다.
이건 일종의 멀티모달을 로컬로 구현거가 되겠네요 ㅎㅎ
좋은 정보 받아갑니다!
캄사합니다~ 🙏🙏🙏
고급자료 설명 감사합니다 ^^/
도움이 되셨으면 좋겠습니다^^
안녕하세요 매번 좋은 강의 올려주셔서 잘 보고 있습니다. 코드 정보에 파일을 찾을 없다고 나오는데 이제 공개 안하시는 것인가요? 좋은 강의 항상 감사합니다.
항상 잘 보고 있습니다. 감사합니다 ㅎㅎ
혹시 LM Studio대신 Ollama이용해도 구현이 가능할까요?
그럼요~ 메카니즘은 동일합니다~^^
모델을 2개 돌릴려면, 각각 gpu에 로딩 시켜야되는게 맞죠...?
한국어 오픈모델 제일 좋은게 evee-10b(맞나요.? llama 3.2 3b 는 한국어를 하긴 하는데 내용요약 같은 input내용이 있어야 잘하고, 물어보는 내용은 할루시가 심한거 같음)인가 돌려봤는데 속도가 많이 느리더라고요;; 24gb nvidia l4에서 600~800토큰 리턴하는데 거의 30초~50초? 30초당 1000토큰-1분당 2천토큰 생산이라고 치고 계산을 해보면 1시간에 12만 token 인데
gpu가 시간당 1.5달러니까...
파인튜닝 빡세게해서 많이 잘쓸거 아니면 그냥 오픈모델 쓰는건 가성비가 없겠다 생각이 드네요 ㅠㅠ 혹시 어떻게 생각하시나요..? eeve 테스트를 제가 잘못했으려나요..?
그냥 글내용 던져주고 요약해서 json으로 던져줘 라고 eeve 테스트 했습니다... ai hub ko리더보드에 1등으로 되어있는 eeve모델 썼습니다
vram 이 넉넉하시면 하나의 gpu에 여러 모델을 올릴 수도 있습니다.
오픈모델은 가성비 때문에 쓰는 것은 아닙니다. 오히려 상용모델이 더 저렴할 수 있습니다.
만약 서버 장비를 보유하고 있다면 전기료만 내면 되기때문에 그때는 가성비가 좋다라고 이야기 할 수 있을 것 같습니다
답변 감사합니다~ 그렇군요 ㅠ gpu클라우드를 대량으로 사버려서 쓸 방법을 찾다가 서버리스gpu를 셋팅중인데, 쓰는거 자체가 쉽지가 않네요 ㅎㅎ;
@@루루-z4l 네 맞습니다 ㅜ GPU 설정부터 실제 llm을 호스팅하는 것은 전문영역이 별도로 존재할 정도로 쉬운 분야는 아닌 것 같아요
안녕하세요~ 좀 다른 질문인데.. groq 아시죠? 저세상 속도로 답변을 뱉어내는.. 라마3 70B를 돌려도 한글을 초당 300토큰 이상 뱉어내는데요. 영어는 두배정도 더 빠르고요. 우리 챗봇 서비스를 라마3 + groq를 사용해서 초스피드로 서비스 할수도 있는건가요?? 제가 잘못생각하고 있는건지.. groq이 무슨 개념이고 챗봇RAG을 개발하고 배포하는 어느단계에 무엇을 대체해서 들어오는건지 궁금합니다ㅠ
groq은 LPU 라는 LLM을 위하여 특화된 칩셋 입니다. 즉 반도체인거죠. CPU -> GPU -> LPU
순서로 추론 속도가 빨라질 것이고요. 기존의 GPU를 대체할 수 있다고 말할 수 있겠네요~ 자세한 내용은 구글링 하시면 관련 블로그글이 많이 나와 있습니다. 한 번 참고해 보세요~^^
@@teddynote 아.. API처럼 사용하는게 아니라.. LPU 개발한 업체에서 지금은 단순히 체험할 수 있게 해놓은거군요. 결국은 LPU 하드웨어를 장착해야되는것이고..
@@Dr.Ahn. 네 마치 예전에 그래픽카드(GPU) 달아 놓고 게임 얼만큼 부드럽게 돌아가는지 비교 데모 보여주듯이요^^
감사합니다 선생님👍👍 하나 궁금한게 있는데, LLM으로 의도파악(의도분류) 후에 각 의도에 따라 다른 종류의 문서를 검색(retreiver)하고 그 결과를 토대로 RAG를 하는 것을 만들고 있는데 langchain, langchain agents를 쓰지않더라도 문제없이 되긴 합니다. 이 경우에 langchain agents를 사용하는 방식으로 바꾼다면 코드와 프롬프트의 관리 및 확장에 용의하다는 점 외에 다른 장점이 있을까요?
agent 의 가장 큰 장점은 도구 활용인데요. 순정 llm 보다 도구를 가진 agent 를 사용하게 되면 정보 검색에 더 유연해지게 됩니다. 예를 들어, 문서 검색에서 원하는 내용이 충족되지 않는 경우 search 도구로 찾아서 보완할 수도 있구요.
하지만 지금의 RAG 에도 만족한다면 굳이 agent 로 변경하실 필요까지는 없습니다^^
감사합니다 선생님!
와우...감사합니다!
감사합니다🙏
15:20 에 나오는 tool 이름이 어떻게 될까요..? 랭체인 로고가 있는걸봐서 랭체인 내장 기능 일까요?
커피값 조금 후원했습니다 ㅎㅎ
아이코... 후원 감사합니다... 큰 금액을 해주셨네요...감사한 마음으로 맛있는 것 사먹겠습니다!
tool 은 랭체인에 통합된 내장 툴이고요 영상에서는 인터넷 검색 도구인 tavily search 와 문석 검색 도구인 retrieval 도구를 사용했습니다^^
항상 감사해요 !!!
시청해 주셔서 감사합니다👍👍
감사합니다 !!
궁금한게 있는데 그럼 function 엄청 많은 Copilot 만들려고 하면 function 몇천개가 넘어갈수도 있는데 그럼 너무 많은 function definition 이 tool안에 들어 가잔아요?
그럴 경우에 어떻게 하는게 좋을까요?
에이전트를 여러개로 나눠서 메인 에이전트가 세부에이전트 정하게 하고 세부 에이전트가 각각 필요한 functions가지고 있는게 나을까요?
이렇게 할경우 각각 request 마다 무조건 두번이상 request 하게 되는데 그럼 속도도 느려질거같고 해서요
function을 모두 정의할 필요없이 llm 으로 파이썬 코드 작성 후 -> PythonREPL 도구로 코드를 execute 하는 방법도 있습니다~
돌핀이 6번예제에서 스탑이 안걸리고 계속 혼자 무한루프 돌아서 4번예제에 xionic대신에 돌핀으로 바꾸니까 잘 동작합니다!
와우 꿀정보 감사합니다!!
@@teddynote 지금 계속 해보고 있는데 agent_scratchpad를 사용할 줄 모르는 것 같습니다..ㅠㅠ
@@cccccccccccccccccc 돌핀이 문제라는거죠? 혹시 돌핀 양자화 버전 뭐 쓰세요?
@@teddynote Q6_K쓰고 있습니다. 제 생각에도 아마 버전에 따라 동작이 달라지는 듯 합니다.
질문을 한번에 여러개 던지면 모든 결과가 나올 때까지 여러번 탐색안하고 툴 한번만 사용해서 결론을 내리네요.
주변에 agent 강의가 없어서 답답했는데 정말 감사합니다 혹시 TOOL을 Import해서 쓰는거 말고 개인이 define 한 Tool를 사용할수도 있을까요?
네 가능합니다 커스텀 툴 정의할 수 있어요~
감사합니다!! 그리고, xionic도 너무 고맙네요. 로컬에 설치해도 속도도 안나오고, lamma3 어떻게 해야 하나 고민중이였는데요. ㅜ.ㅜ
사이오닉 너무 감사하죠 ㅜㅜ
와우... 감사합니다.
시청해 주셔서 감사합니다^^
형님 사랑해요❤
오퀘이 알럽유투🫰
좋은 정보 감사합니다. sionic API 콜 도중에 Timeout이 발생하는데 혹시 라마3.1 8b를 로컬에 구성해서 진행해보는 방법도 있을까요?
옙 사이오닉 api 현재 동작오류가 있는 것 같습니다.
라마 3.1 8b 로컬에 구현 가능합니다.
허깅페이스로 받아서 하는 것도 가능하시고요~ 아니면 ollama 로 내려받아서 진행하는 것도 가능하십니다~^^
@@teddynote 너무 친절한 답변 감사합니다 전달해주신 영상 보고 진행해보겠습니다.
혹시 사이오닉 api를 사용하는것과 로컬 구성으로 하는것의 차이가 모델의 처리능력 차이만 있는 것으로 이해하면 될까요?
감사합니다. 소중한 내용 잘 보고 따라 해 보고 있는데.. 저는 이상하게 결과가 다르게 나오면서 돌핀 llm에서 멈추지 않고 툴을 실행해서 답변을 주네요.. 돌핀 llm 기동시에 설정 같은게 문제가 될까요?
혹시 LM Studio 에서 모델의 temperature 값을 설정할 수 있는데요. 0 이나 0.1 로 설정 후 한 번 돌려보시고 안되시면 말씀해 주세요^^
@@teddynote 답변 너무 감사합니다. LM Studio에서 temperature값을 0으로 해도 결과는 비슷한 것 같습니다 ^^;
실행결과를 여기에 남기려 했더니.. 글자 제한에 걸리는 것 같네요..
서버리스 gpu에 돌릴려고 테스트를 했는데 cold start 시간이 너무 느리더라고요;; TGI 사용했는데, 서버리스 gpu에서 로컬모델 실행하는 방법, 혹시 이부분도 아시는게 있을까요....? 제가 컨테이너를 못만들어서 그런거 같기도 하고요 ㅋㅋ
제가 뭘 많이 물어보네요 ㅠㅠ 로컬모델 돌릴려고 하다보니까 막히는거 까지는 아닌데 문제가 많네요 ㅋㅋ
vllm으로 호스팅해 보시길 바랍니다~ 쓰루풋도 훨씬 좋습니다
답변 감사합니다~ vllm으로 해보고 있는데 비전모델 같은 최신모델은 또 호환이 안되네 에러뜨고 그러더라고요; vllm기본도커 이미지로 해보고 있는데.. ㅋㅋ 이미지 빌드1번 하는데만 1시간넘게 걸리는데 이게 맞는건지 모르겠습니다 ㅋㅋㅋ
테디님! 저도 테디님처럼 연구보다는 개발에 관심이 많습니다!
혹시 기존 NLP 논문들을 많이 읽으셨나요??
필요할 때 골라서 읽었습니다. 때로는 논문 리뷰 영상이나 잘 정리된 글을 먼저 보는 것도 도움이 되었어요. 저는 그래도 code 이해하는 것이 더 편한 사람이라 paperswithcode.com 을 애용합니다~
@@teddynote 답변 감사합니다! 테디님께서 밋업에서 발표하셨던 것처럼 프로덕트를 만드는 일을 하는게 목표인데, NLP 관련 논문을 쭉 이해해보는게 얼마나 도움이 될지 궁금합니다..! 우선순위를 잘 모르곘습니다
@@Austin-t5o LLM 쪽 개발은 제일 어려운 점이 개발 & 논문 & 수학 모두 다 잘해야되고, 게다가 돈(GPU) 도 많아야 된다는 점인 것 같아요 ㅎㅎ 그런데 저는 우선순위를 두고 공부해 나가기 보다 "프로젝트" 를 먼저 잡고 이를 해나갈때 필요한 개발 지식을 습득하고, 성능 개선을 위한 논문을 보고, 수학이 어려우면 수학 관련 질문도 하고 GPT 도 사용해 보고 해나가면서 앞으로 조금씩 전진하다보면 어느 새 한계단 올라와있는 느낌을 받았습니다. 이 과정을 10번 100번 반복하다보면 자연스럽게 balance 있게 성장하지 않을까합니다. 그치만 이건 저에게 가장 잘 맞는 방식이구요. 사람마다 본인에게 잘 맞는 방식과 견해가 다르기 때무에 여러 명의 의견을 한 번 들어보시고 결정하시는 것이 제일 좋습니다^^
@@teddynote 정성스런 답변 감사합니다!
감사합니닷!!!
감사합니다👍
궁금한 사항이 있습니다
만약 내가 기존에 가지고 있던 파일(판결문 등)을 토대로 새로운 주제(사건 등)를 주고 기존 파일처럼 판결문을 작성해 달라고 하는것도 에이전트로 가능한가요?
안녕하세요!
네 할 수 있습니다. 다만, 할 수 있다와 잘한자는 좀 다른 부분이고요. 잘하기 위해서는 난이도가 좀 있습니다. 잘하기 위해서는 지금 있는 코드만으로는 어렵습니다. 부가적인 내용들이 많이 필요합니다~
@@teddynote 이런 에이전트도 만들수 있을까요?
양자화 모델이 양자화 안한 모델이랑 성능?이 많이 차이 나는지도 궁금하네요.. 그냥 돌아가게 하려고 해서 70B나 8B양자화 모델을 쓰긴 하는데
8B모델이 이상하게 gpu메모리 24gb에서 run 실패하는 경우가 있더라고요;
8b 모델이 원래 gpu 24gb에서 실패하나요? gpt한테 물어보니까 fp16으로 돌릴때
클라우드에서 빌려서 그런가, 뭔가 gpu를 나눠쓰는 꺼림직한 느낌;; ㅋㅋ 나는 쓴적이 없는데 이미 gpu메모리 13gb 할당이 되어있다고 메시지가 뜨지를 않나 ㅋㅋㅋ 저만 그런건지 싶습니다 ㅋ;
gpu 24gb 2개 사용은 가끔 수량이 없다고 컨테이너 start가 실패해버리고 해서;;
성능 차이가 없다고 볼 수 없습니다 당연히 있고요. 그 정도는 직접 확인해 보시는 것이 좋습니다
gpu에 사전 vram 이 채워져 있는 경우 잡고 있는 프로세스가 gpu를 점유하고 있기 때문에 그렇게 잡혀 있을 수 있습니다~
Task툴만 붙이면 AGI 되는 건가요?ㅋㅋ
ㅎㅎ 궁극적인 목표입니다
6년전 구글에서 어시스턴트를 이용하여 미용실에 예약하는 데모를 보여줬었는데 이런 수준의 서비스를 만들려면 얼마나 깊은 기술이 필요할까요?
요즘에는 정말 간단한 수준으로 구현이 가능합니다. 대신 미용실 예약은 미용실 예약 플렛폼에서 api 지원을 해야 하기 때문에 비즈니스 적으로 이 부분만 협력한다면 되겠네요!
프로젝트를 잘 수행한 AI agent 팀의 대화를 포지티브 학습, 결과가 안 좋은 agent 팀의 대화를 네거티브로 학습 하는 식으로 LLM 파인튜닝 할 수 있을까요?
파인튜닝까지 가기 전에 프롬프팅으로도 어느 정도는 해보실 수 있습니다! 하지만 dpo방식의 최적화를 진행하면 더 좋은 결과를 기대해 볼 수 있을 것 같아요!
xionic-ko-llama-3-70b를 사용하는게 아닌 llama3-70B 모델을 바로 사용해서 진행하는 방법은 없을까요..?
API키로 공개된 모델이라 직접 서비스를 만들거나 할 때는 사용할 수 없다보니 아쉽게 느껴져서 여쭤봅니다.
바로 사용하실려면 GPU가 여러장 있어야 원활한 추론이 가능해요(양자화가 아니라는 기준) GPU 가 있다면 70B 모델을 다운로드 받아서 파인튜닝하여 사용하실 수 있습니다^^
@@teddynote quantized 모델을 ollama로 서빙해서 ChatOpenAI json형식으로 받아서 해보고있는데 json parsing문제 떄문에 Modelfile template을 건드려야하더라구요..
로컬에서 구현해보려다보니 생각보다 막히는 부분이 많네요
@@meca_p json parsing 문제는 아쉽게도 로컬 모델에 흔히 발생하는 문제에요. 정말 프롬프트 정교하게 튜닝해야 해결 되는 사례가 있고, 또는 모델의 인텔리젼스 높으면 유리한데, 70B 양자화 한 모델은 정보 loss 가 커서 최대한 양자화가 덜 되거나 혹은 아예 안한 모델로 돌려야 하는 것이 권장됩니다.
그런데 그런 GPU 자원이 보통 개인이 없기 때문에 힘든것이 현실이죠.
따라서 가장 현실적인 방안은 json parsing 을 잘 하도록 파인튜닝을 하는 것이 그나마 현실적으로 우리 노트북에서 돌릴 수 있는 방법 같아요.
앞으로 이 부분은 저도 주시하면서 새로운 내용 있으면 공유 드릴께요^^
여기서 사용한 SPRI _AI pdf는 어디서 받을 수 있나요?
여기서 다운로드 받으실 수 있어요
spri.kr/posts/view/23669?code=AI-Brief&s_year=&data_page=1
@@teddynote 감사합니다!!!
처음에 LM Studio 대신 Ollama를 사용해서 구현하려고 하는데 llama3로 response를 받아올때 Observation에서 멈추는게 아니라
Action을 리턴하고 "Invalid or incomplete response"를 리턴한다음 다시 Chain을 시작하네요 혹시 멈추게 하는 방법이 따로 있을까요?
Ollama 를 사용하실때 템플릿을 먼저 잘 설정 되어 있는지 한 번 확인해 주시기 바랍니다. 템플릿이 어떻게 설정 되었는가에 따라 올바르게 동작하지 않을수 있어요!
안녕하세요 !! 영상 너무 감사합니다!!
혹시 GGUF파일 변환은 어떻게 할 수 있을지 알 수 있을까요? FINE TUNING한 후에 llama.cpp로 처리하려 하면 이미 양자화 되어있어서 처리할 수 없는걸로 나옵니다 ㅠ
convert hf to gguf 로 변환하실 수 있어요!
@@teddynote 답변 감사합니다! 해당 colab 환경에서 llama3를 qlora로 fine tuning한 후, model.save_pretrained(경로), tokenizer.save_pretrained(경로) 후에 아래와 같이 작성했는데, ''PreTrainedTokenizerFast' object has no attribute 'added_tokens_decoder''오류가 발생합니다..ㅠ 혹시 로컬에서 진행하신 방법이 있으신지 궁금합니다!!
(tokenizer.model이 없다고도 뜨네요...!!)
!python /convert-hf-to-gguf.py Llama-pdf-Ko-3-8B \
--outfile llama3-custom-Q8-v1.gguf \
--outtype q8_0
@@오라클-r9l finetuning 하신 다음에 merge 해서 huggingface repo 에 먼저 업로드를 해주시고요. 그 다음에 해당 파일을 convert hf to gguf 로 변환하실 수 있어요~ (아 물론 꼭 huggingface 에 업로드를 해야 하는 것은 아니고요. 일단 백업 차원에서 업로드 해놓고 진행해 보시는 것을 추천 드립니다)
정말 많은 도움이 되고 있습니다. 그런데 오늘은 말이 너무 빠르네요 속도를 0.9정도로 줄여서 들으니 들을만한데 속도를 줄이니 소리가 끊겨서 좀 아쉬워요. 항상 감사합니다!
다음부터는 말을 좀 더 천천히 해보겠습니다🙏 설명하다보니 자꾸 말이 빨라지네요 ㅜ🥹
너무 좋은 글 감사합니다. 아래 링크 123이 없는 페이지로ㅓ나오는데 공유해주시면 감사하겠습니다.
안녕하세요 도와주세요 선생님 제가 챗봇을 만드는데요 APi 키설정 오류때문에 미치겠네요 아무리해도 오류가나요 제 컴퓨터 문제인가요 제가 문제인가요 하루종일해도 오류나요
오류 메시지를 남겨주시겠어요?
@@teddynote 아까 낮에 오류 생긴거 보냈는데 삭제됐나봐요 그런데 api 키때문에 자꾸 오류가나요 저는 정확하게 키설정했는데 자꾸만 gpt 챗봇이 안되는데요 컴퓨터 문제인가요??
@@세훈김세훈 오류 메시지에 따라 다릅니다. 키가 잘못 되었을 수도 있고요. 한도가 초과되었을 수도 있고요. 혹은 그 외 사유라도 메시지에 표기가 되어 있어서 메시지를 봐야 정확한 답변이 가능해요
Ai 에이전트를 윈도우버전으로 만드는사람이 세계 부호1등 되겠구만
ㅎㅎㅎ👍👍
디스코드 초대장 만료되었습니다 ㅠ😢
죄송합니다 초대장 링크 업데이트 해놓았어요!!🙌
몽중헌에서 광고비 받으셔도 될듯요.
아무래도 그래야겠죠? ㅎㅎ
dolphin~~