llama rag활용 기본 프로세스 따라하기 및 fastapi 적용

Поделиться
HTML-код
  • Опубликовано: 24 янв 2025

Комментарии • 12

  • @byungtaekim2753
    @byungtaekim2753 Месяц назад +1

    교수님. 안녕하세요. 모델을 불러올때 허깅페이스에서 불러오는데 그것은 GGUF 파일이 저장되어져 있는주소인가요? 아님 그냥 저장하여 JSON이 저장된 장소인가요?

    • @HKCODE
      @HKCODE  Месяц назад

      안녕하세요! 본 영상에서는 허깅페이스에 업로드한 파인튜닝 모델 입니다! GGUF는 아닙니다.
      만약 프로젝트 사이트가 인터넷이 가능한 사이트인 경우에는 웹에서 불러오는게 가능해서 해당 기준으로 올린겁니다.
      하지만 프로젝트 현장이 보안상 인터넷 연결이 불가능한경우 허깅페이스에 올린 모델을 GGUF형태로 변환하여 PC에 저장한 후 모델을 구동하게 됩니다.
      (GGUF저장방법 코드 폴더 내도 같이 존재함) 로컬 방식 이라고도 합니다.

    • @byungtaekim2753
      @byungtaekim2753 Месяц назад

      @@HKCODE 교수님. 정말 감사합니다..지금 인터넷연결이 불가능한 경우라 헤매고 있습니다..ㅠㅠ ( 금융권 카드사 ) 데이터를 만들고 파인튜닝하고 로컬에 저장까지는 할수 있을 것 같고 -> 교수님 알려주신 코드로 gguf까지는 될것 같은데 ( wsl or unsloth사용 시 )..이걸 위에 처럼 end point 로 서비스 할수 있게 하는게 가능한지 여쭤봤습니다. 여기서는 pyngrok를 사용했는데..귀한 첨언 감사드립니다... 혹시 관련 코드나 있으면 더 귀한 첨언 주실수 있으실까요...답글도 좋고 관련 영상이 있으면 참 좋을 것 같습니다....워낙 금융,제조,공공 다들 폐쇄망이라 만든 파인튜닝모델에 rag까지 적용해서 end point를 만들어 화면을 붙이면 될것 같은데 참 어렵네요..감사합니다~~

    • @byungtaekim2753
      @byungtaekim2753 Месяц назад

      혹시 gguf 를 ollama 나 msty ? 로 올리라는 말씀은 아니신거죠? 혹시 폐쇄망에서 gguf 를 end-point로 올리는 간단한 방법이 있을까요??감사합니다~~

    • @HKCODE
      @HKCODE  Месяц назад +1

      @@byungtaekim2753 뒤쪽에 rag도 결국은 붙긴하는데 결국은 fastapi로 동일하게 올리긴합니다! 모델이 허깅페이스에서 불러온거와 gguf에서 물러온거와의 차이뿐이고요 모델 선언 부분만..
      llm = Ollama(
      model = llm_model, # ollama 내 llm 모델(gguf로 변환해서 저장한 이름)
      num_gpu = 1,
      temperature = 0.2
      ) 컨셉으로 가고요!

  • @honneon
    @honneon 7 месяцев назад

    항상 감사히 보고 있습니다!!

  • @HKCODE
    @HKCODE  7 месяцев назад +1

    llama 기본 개념 확인하는 용도입니다.
    [데이터 링크]
    drive.google.com/drive/folders/16NrYjHdHxOa76lE6uH3xNsopH_AM0doi?usp=sharing
    [소스코드]
    colab.research.google.com/drive/1VDMSe31CZCaalzLxs2dP9QPdvqmMRS-7?usp=sharing
    [github 링크]
    github.com/hyokwan/llama_repository/tree/main/llama_rag_basic_youtube_20240623
    *** 상단에 사용한 NGROK TOKEN은 다시 생성함 ***
    상단에 사용한 AUTHTOKEN 은 본인 TOKEN으로 변경
    해주셔야 됩니다! (아래 참고)
    외부공유URL 생성 (NGROK) : ngrok.com/
    서버 데이터 연동 테스트: www.postman.com/

  • @Korea3Bros
    @Korea3Bros 7 месяцев назад

    교수님 감사합니다.

  • @태화강러너
    @태화강러너 5 месяцев назад

    좋은 강의입니다
    교수님
    Gemma2 2b모델을 rag용 gpu없이 cpu로만 구동하면서 사내 서비스에 이용해보고자하는데
    Cpu ram이 어느정도 사양이 되야 잘돌아갈까요?

  • @서미영-z8m
    @서미영-z8m 6 месяцев назад

    혹시 FastAPI서버 말고, Spring Boot로 대신하는게 가능하나요? Spring Boot도 colab에서 코드를 작성할 수 있는건가요?

  • @anghs0366
    @anghs0366 6 месяцев назад

    안녕하세요 교수님
    라마3 파인튜닝 후 시스템에서 활용할 예정인데
    모델 학습및검증, 관리 할 서버의 사양은
    Gpu어떤걸 써야할까요?
    70b와 8b 각각 기준으로 궁금합니다..!

    • @HKCODE
      @HKCODE  5 месяцев назад

      @@anghs0366 파인튜닝할 데이터 양에 따라 다른데.. 보통
      L4 GPU 24G 라마 8B기준으로
      30-50줄 데이터 밖에 학습을 못합니다.
      그래도 시스템에 활용한다면 8B기준으로 H100 1장은 기본이고..
      제대로 한다면 H100 80GB * 8장으로 100GB 사전학습 데이터 튜닝한 회사 사례는 있습니다!