테디님~항상 강의 잘 듣고있습니다! 좋은 정보 공유해주셔서 항상 감사드려요!! 추가로 궁금한 것이 있어 댓글 남기게 되었습니다! 저는 LLM 분야로 취업준비를 하고 있어서 이래저래 RAG+웹or앱 구축 프로젝트를 진행하고 있는데요! LLM 분야 취업 준비하는데 있어서 중요하게 보는 점이 무엇일까요?? (신입이라는 전제 하에 다른 스펙적인 부분빼고 경험 부분만요! ) 어떤 부분 위주로 고민하고 공부하고 어떤 마음 가짐으로 프로젝트 해야 현업 가서도 잘할 수 있을지도 고민입니다..ㅠㅠ
실전 프로젝트를 얼마나 많이 경험해 봤는가가 중요할 것 같습니다. 문서만 하더라도 특이 케이스가 수백가지인데 이걸 경험한 사람과(여기서 경험은 어떻게 어려운 문서구조를 잘 풀어냈는가 겠죠) 아닌 사람이 차이가 많이 납니다. 그리고 문제 해결을 위해서는 논문 참고도 필수적인데요. 최신 기법을 논문을 참고하여 실제 구현까지으로 만들어낸 경험이 중요할 것 같습니다.
좋은 가의 너무나 감사합니다. 다른 강의들도 다 시청해야겠어요 ㅠㅠ 혹시 프롬프트를 hub에서 가져오지 않고, 직접 작성하는 경우에는 input_variables=['context', 'question'] messages=[HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['context', 'question'], template="You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say that you don't know. Use three sentences maximum and keep the answer concise. Question: {question} Context: {context} Answer:"))] 이걸 어떤 형식으로 prompt = 에 넣어야 하나요?
네, 기술적으로는 전체 컨텍스트를 모델에 직접 입력하는 것이 가능합니다. 그러나, 이 방법은 이론적으로 가능한 것이지, 실제로는 최적의 결과를 얻는 데 있어서는 권장되지 않습니다. 이에 대한 자세한 설명은 다른 영상(RAPTOR)에서도 다루어집니다. 간단히 말하자면, 모델에 입력되는 데이터는 질문과 밀접한 관련이 있는 압축된 정보여야 합니다. 이를 비유하자면, 오픈북 시험에서 1000페이지 분량의 책 전체를 제공하는 것과, 잘 정리된 요약 노트를 사용하는 것 사이의 차이와 유사합니다. 압축된 정보를 사용하는 것이 보다 효율적이며 바람직한 접근 방식입니다.
영상 너무 잘 보고 있습니다. 오늘 자 증권 리포트와 뉴스 기사를 요약하는 서비스들이 많이 있는데요 여기서 매수 매도 관점과 앞으로 어떻게 될지 예측해보는 시스템을 추가한다고 했을 때 이 부분을 rag로 하려면 어떻게 해야 하는 걸까요? 정해진 컨텍스트 내에서 답변하다 보면 이런 예측 부분은 잘 안 되는 건가 싶기도 하더라고요
좋은 강의 감사합니다! ❤ 만약에 뉴스기사와 관련없는 질문(예를 들면, 아침에 사과를 먹는 것의 효능은 무엇인가?)을 하면, 어떠한 수준의 대답이 나오나요? 직접 검색에 걸리는 문서들은 임베딩된 기사 내용에 제한된다고 보면되나요? (그리고 그 기사들을 학습데이터라고 부를 수 있을까요?) 만약 RAG를 통해 앞서 주제와 관련없는 (사과 효능) 질문에 대해 답변을 받을 수 있다면, OpenAI 임베딩에 영향을 받아서 일 수 있나요? 다시말해 RAG가 기존 LLM 의 학습데이터도 고려하여 답변을 내놓는 것인지 궁금합니다.
1. 뉴스기사와 관련없는 질문은 모른다 혹은 관련성 없다로 나와야 합니다 2. 주어진 기사에 국한 됩니다(추가 검색도 가능하게 구현할 수 있습니다) 3. 학습 데이터 보다는 주어진 문맥(context) 라는 표현을 씁니다. 학습데이터와는 구분됩니다. 4. 주어진 문맥에 기반으로 답하라고 지시하였기 때문에 외적인 내용은 배제한채 답합니다.
11:35 안녕하세요, 강의 영상을 따라하던 중 백터스토어 생성하는 구간에서 막혔습니다. openai api를 연결했는데 저의 billing plan 을 확인하라는 문구가 있어서 확인을 해보았는데 한달 usage limit 이 $5 인것을 확인 할 수 있었고, 저는 현재 chat gpt 4 버전을 구독하며 사용중입니다. 혹시 이 open api 를 연결하기 위해서 따로 지물을 해야되나요?
이해하기 쉽고 핵심만 설명해주셔서 행복한 강의였습니다!! 실습 후애 토이프로젝트로 쇼핑몰의 링크를 넣으면 리뷰를 크롤링하고 데이터를 기반으로 qa봇을 만들어볼까 하는데 혹시 이강의에서 변경할만한 점이 있을까요? 개인적으로는 리뷰의 개수가 많아질 수도 있기에 chunk를 나누는 부분부터 좀 다를 것 같은데 질문드려도 괜찮을까요? 유익한 강의 감사합니다. 항상 잘 보고 있어요!!
QA 목적에 따라 다를 수 있을 것 같아요. 리뷰를 종합하여 리뷰 분석을 하느냐와 리뷰 하나하나에 대한 감정 분석을 하느냐 등등으로요. 종합하여 분석을 할 때는 수집된 리뷰를 하나로 합쳐서 적절한 텍스트 전처리 후에 Chunk 사이즈를 잘 나눠서 결과물로 뽑아내는 것이 중요할 것 같구요. 리뷰 하나씩 개별 처리를 할 때는 리뷰 하나의 길이가 그렇게 길지 않다는 가정하에 Chunk는 리뷰의 최대 길이를 잡아줘도 될 것 같아요!
강의 너무 잘 듣고 있습니다.. 항상 감사합니다. 한가지 질문이 있는데요.. 파이썬으로 답변 결과를 받아서 nodejs로 api 경로 만들어 호출하는데, 로딩 시간이 10초 이상이 걸립니다. 혹시 강의 영상 내용에 추가적인 처리를 해야 하나요? 참고로 구글 코랩에서는 로딩 시간이 1~2초 정도입니다..
너무 좋은 강의 정말 감사드려요!! 질문하나가 있습니다. 혹시 벡터 저장소를 카테고리별로 만들어서 문서를 불러올때 카테고리별로 구분되어져 분할작업과 저장이 실행되도록 할수 있나요? 예를들어 음식, 패션, 여행 이란 카테고리를 정해놓고 문서를 불러올때 문서안의 소주제를 통해 카테고리별로 문서가 나눠지고, 각각 나눠진 문서가 개별로 분할과 저장 작업이 이루어 질수있나요?
안녕하세요~ 어제부터 실습해보고 있는데 faiss에서 문제가 발생해 질문드립니다. from_documents가 존재하지 않는다고 뜹니다ㅠㅠ faiss도 소문자로 인식이 되고.. 파이썬 버전을 3.12에서 3.11, 3.10으로 다운하고 faiss-cpu도 설치해봤는데 그대로네요. 방법이 있을까요?
다 긁어올 수 있어요. 전체 페이지를 다 받아올 수는 있으나, 필요 없는 정보들이 많이 포함되어 있어서요. 질이 좋지 못합니다. 그래서 핀포인트로 가져오시는 것을 추천 드려요. 구조는 하나의 웹 안에서는 보통 통일됩니다. 예를 들어 네이버 뉴스 플랫폼안에서는 구조는 동일하고 콘텐츠만 바뀌기 때문에요. 한 번의 귀찮음으로 차라리 더 질좋은 정보는 소싱하는 것이 나을 것 같습니다!
좋음 강의 올려주셔서 감사합니다. 선생님 깃헙 자료로 공부 중에 질문드릴게 하나 있는데요, pdf를 로드해서 사용할때말고 필드 별로 정리돼있는 csv 파일(내용, 요약문, 주요키워드)를 로드해서 사용할 때 고려해야할 점이 있을까요? 내용에 대해 쿼리를 하면 요약문이나 키워드를 참조하기 원합니다.
CSV Loader 를 사용하시면 편하게 가져오실 수 있을 것 같아요 그리고 조회한 데이터를 LLM 에 전달해야 하는데 이때 방식이 여러가지일 수 있어요. pandas dataframe 을 만들어 데이아 프레임 쿼리를 날릴 수도 있고요(보통은 통계량 다룰때) 단순 텍스트 처리를 하고 싶으면 텍스트화 할 부분은 텍스트로 일괄 병합하여 llm에 넣고 요약을 하거나 요점 정리를 하거나 할 수도 있을 것 같아요~
RAG의 주된 목적은 Retrieval 에 있다고 볼 수 있는데요 한마디로 오픈북 테스트를 생각하시면 쉽습니다. 정답이 없다는 문제에서 답변을 도출해 냈을때 (예를 들면 광고 카피라이팅) RAG 에 과거 답변 이력이나 정답이 없는 문제에 대하여 답변을 도출한 과정 들이 들어가 있다면 이를 참고하여 답변하는 것은 가능해 보입니다.
로컬의 회사문서들을 기반으로 chatGPT등 온라인 기반 LLM을 통해 답변을 합니다. 이때 로컬 자료들에 관련 정보들은 LLM에 공유가 안 되는지 문의합니다. 다이어그램을 보면, LLM은 로컬 자료들을 기반하여 인간의 언어로 변환해주는 작업만 하니 로컬 자료들이 온라인에 뿌려지지는 않을 것 같지만 제가 이해한 것이 맞는지 궁금합니다.
먼저 .env 라는 파일을 하나 만들어서 거기에 OPENAI_API_KEY를 설정해야합니다~ 도움이 될만한 링크 드리고요: learn.griptape.ai/latest/setup/02_openai/#installing-python-dotenv 제가 영상으로도 한 번 다루겠습니다~~
@@teddynote그렇게 진행을 하였는데도 아직 비슷한 오류가 발생합니다.. 초반에 langsmith api key 설정해서 내용들을 전부 tracing하고 llm open api key 설정한다고 말씀해주셨었는데 그렇다면 langsmith api key와 llm api key 두개를 다 .env파일에 저장해놓고 dotenv로 불러와야 하는 건가요?
자료가 만약 raw 데이터로 존재한다고 가정해 보겠습니다. 예를 들어 이력서 폴더에 이력서와 참고할 수 있는 자료들이 다량 들어가 있다고 가정해 볼께요. 그럼 회사에 지원할 자기소개서를 작성해야 하는데 이때도 RAG를 사용하면 내 정보를 기반으로 GPT가 자기소개서를 작성해 줍니다. 이와 비슷하게 RAW data 형태로 존재하는 데이터를 ‘활용’ 하여 새로운 형태의 문서를 생성할 때 유용할 수 있어요
@@teddynote 답변 너무나 감사합니다. 강의력에 감탄하면서 패스트캠퍼스 RAG강의를 수강할지 고민하고 있어요. 저는 1~3인으로 팀을 구성하여 생성형 ai 서비스를 만들려고 하는데요. 이쪽 분야가 사실 처음이다 보니까 로드맵이 잘 안잡히는거 같아요 ㅠㅠ 서버리스 기반으로 백엔드를 구성하고 랭체인 + RAG를 활용하려고 하는데 이런 생각이 올바른지 사실 의문이네요... 더불어 패스트캠퍼스 강의가 저에게 맞을지도 걱정이 되네요. (대상자를 보니 ai개발자 혹은 머신러닝, 데이터 분석가라고 명시되어 있어서요 !)아는게 없다보니 걱정이 많아지는 기분이라 답답해서 긴글로 두서없이 질문드리네요. 혹시 시간이 되신다면 조언해주시면 감사하겠습니다.
@@김민석-m2z 안녕하세요? 생성형 ai 서비스를 만드시려고 하시나보군요! 우선 생성형 AI하면 RAG가 절대 빠질 수 없는 키워드이죠. 서버 구성도 좋지만 그 전에 RAG가 어떤 흐름으로 진행되는지 먼저 이해되어야 올바르게 서버도 셋팅하실 수 있어요. 그래서 먼저 RAG를 사용한 프로젝트부터 하시라고 권해 드리고 싶습니다^^ 패스트캠퍼스에 런칭한 강의는 입문자 분들에게 초점아 맞춰져 있어서 설명도 입문자 눈높이에 맞춰 진행하고 있어요. 따라서 파이썬 이제 막 입문하시는 분들 많으세요! 하지만 무료 강의도 많아요. 유튜브나 deeplearning.ai 에 무료로 된 강의도 있으니 참고해 보십쇼^^ 어떤 강의나 학습방법을 선택하든 다 좋습니다. 시작은 꼭 RAG 프로젝트 단순한 것이라도 만들어 보시는 것으로 시작해 보세요!
아니 이분 강의 지루하지가 않아
🥹🫶
이런 퀄리티의 강의가 유튜브로 올라온다..? 이건 진짜 나라에 공헌하는 수준인데요... 정말 감사합니다. 너무 이해가 쉽게 설명해주시네요. 앞으로도 잘 부탁드립니다 bb
극찬해 주셔서 너무 감사드립니다. 더더더욱 좋은 퀄리티의 영상으로 보답하겠습니다!!🫡
강의 대박입니다^^ 개발자도 아니고 그냥 관심만 있어서 검색하다 여기까지 왔는데요. 1도 지루하지 않게 설명을 재미나게 해주시네요~ 감사합니다!
극찬입니다👍👍 감사합니다🫰
와우 목소리도 내용도 대단합니다. 감동받아 fastcamp 강의 신청하러갑니다! 잘 부탁드립니다.
감사합니다🫰🥹
와.. 강의 보고, 요머칠 이해하고 있는 내용이 조금은 틀렸다는걸 이해했습니다. ㅋ 최고입니다
감사합니다👍👍
와 미쳤다.. 좋은 강의 감사합니다.😊
감사합니다👍👍
족집게... 항상 감사 드립니다.^^
감사합니다 앞으로도 좋은 콘텐츠 만들겠습니다
저도 입문자인데 강의 너무 잘 듣고 있어요
감사합니다🫡
2번째 청강 입니다.. 들을 때마다 느끼지만.. 귀에 쏙쏙 잘 들어오네요. 테디노트님 덕분에 점점 이해도가 높아지고 있습니다~ 감사해요!!😊
좋은 말씀 감사합니다👍👍👍
최고예요. AI 서비스 개발하고 있는데 진짜 많이 도움되었습니다. 정말 감사합니다!!!!!!!
감사합니다👍👍
항상 좋은 강의 감사드립니다! 잘 보고있습니다
항상 봐주셔서 감사합니다!🙌
선생님 강의는 늘 재밌습니다. 제 귀에 쏙쏙 들어와요 감사합니다. ^^
감사합니다~ 도움이 되셨으면 좋겠습니다~^^
강의력 미쳤다 람쥐..
와... 너무 좋은 강의랑 깃허브 정리 감사합니다...ㅜㅜ
너무너무 감사합니다. 앞으로 더더더 좋은 콘텐츠 만들겠습니다 🙌
좋은 강의 감사합니다.
감사합니다🙏
감사합니다. 도움이 많이되었습니다.
감사합니다😀
😊😊😊 최고 강의 압니다...
흑흑 감사합니다😍
와 rag가 뭔지 그냥 이 영상 하나로 이해했네요... 감사합니다
감사합니다~^^
감사합니다!!
감사합니다😮
감사합니다!
이렇게 좋은 강의를 무료로.. 감사합니다. 선생님
너무 재밌다 …
그저 킹갓...
🫰🫰
이영상 저영상 봤지만..설명대박이다
감사합니당🫡
강의가 좋은 것도 좋은건데 목소리가 너무 좋아서 3시간째 듣고 있는데 전혀 물리지가 않네요.
유재석씨 목소리도 헌시간 듣고나면 뮬리는데 말이죠...
ㅎㅎㅎㅎㅎㅎ 극찬 감사합니다~^^
와.. 이게 강의인가(좋은뜻으로..)
감사합니다 ☺️
개쩐다
감사합니당
테디님~항상 강의 잘 듣고있습니다! 좋은 정보 공유해주셔서 항상 감사드려요!!
추가로 궁금한 것이 있어 댓글 남기게 되었습니다! 저는 LLM 분야로 취업준비를 하고 있어서
이래저래 RAG+웹or앱 구축 프로젝트를 진행하고 있는데요!
LLM 분야 취업 준비하는데 있어서 중요하게 보는 점이 무엇일까요?? (신입이라는 전제 하에 다른 스펙적인 부분빼고 경험 부분만요! )
어떤 부분 위주로 고민하고 공부하고 어떤 마음 가짐으로 프로젝트 해야 현업 가서도 잘할 수 있을지도 고민입니다..ㅠㅠ
실전 프로젝트를 얼마나 많이 경험해 봤는가가 중요할 것 같습니다. 문서만 하더라도 특이 케이스가 수백가지인데 이걸 경험한 사람과(여기서 경험은 어떻게 어려운 문서구조를 잘 풀어냈는가 겠죠) 아닌 사람이 차이가 많이 납니다. 그리고 문제 해결을 위해서는 논문 참고도 필수적인데요. 최신 기법을 논문을 참고하여 실제 구현까지으로 만들어낸 경험이 중요할 것 같습니다.
좋은 가의 너무나 감사합니다. 다른 강의들도 다 시청해야겠어요 ㅠㅠ
혹시 프롬프트를 hub에서 가져오지 않고, 직접 작성하는 경우에는
input_variables=['context', 'question'] messages=[HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['context', 'question'], template="You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say that you don't know. Use three sentences maximum and keep the answer concise.
Question: {question}
Context: {context}
Answer:"))]
이걸 어떤 형식으로 prompt = 에 넣어야 하나요?
지금 가져오신 부분에서 prompt=PromptTemplate... 끝까지 가져오셔서요. prompt 를 hub에서 가져온 프롬프트 대신 넣으시면 됩니다!
퀄리티뭐야,..! 이걸이제 보다니 감사합니다
Retriever 도 학습된 모델인가요? 아니면 알고리즘에 의한 건가요?
왜 이제서야 오셨어요~ ㅎㅎ
retriever는 유사도 기반 검색 알고리즘 입니다
@@teddynote 해당 영상에 이어서 "RAG, LangChain, Document Embedding" 에 관련된 해봄직한 프로젝트가 어떤게 있을까요!! 추천해주실 수 있나요?!
너무 좋은 강의네요. 질문이 있습니다. gpt-4-turbo-preview 같은 모델은 최대 128k 토큰의 입출력을 다룰 수 있는데, 이 경우에는 굳이 1000토큰씩 청크를 나누지 않고 전체 글을 통채로 넣어도 되지 않나요?
네, 기술적으로는 전체 컨텍스트를 모델에 직접 입력하는 것이 가능합니다. 그러나, 이 방법은 이론적으로 가능한 것이지, 실제로는 최적의 결과를 얻는 데 있어서는 권장되지 않습니다. 이에 대한 자세한 설명은 다른 영상(RAPTOR)에서도 다루어집니다. 간단히 말하자면, 모델에 입력되는 데이터는 질문과 밀접한 관련이 있는 압축된 정보여야 합니다. 이를 비유하자면, 오픈북 시험에서 1000페이지 분량의 책 전체를 제공하는 것과, 잘 정리된 요약 노트를 사용하는 것 사이의 차이와 유사합니다. 압축된 정보를 사용하는 것이 보다 효율적이며 바람직한 접근 방식입니다.
@@teddynote 와 좋은 답변 감사합니다ㅠ 넘 궁금했었거든요. 챗봇 만드는데 관심이 많아서 정말 많은 영상들을 보았는데.. 그 중 단연 최고입니다. 한줄기 빛이십니다.
@@Dr.Ahn. 과찬이십니다🥹 앞으로도 좋은 영상 많이 공유드리겠습니다👍👍
영상 너무 잘 보고 있습니다. 오늘 자 증권 리포트와 뉴스 기사를 요약하는 서비스들이 많이 있는데요 여기서 매수 매도 관점과 앞으로 어떻게 될지 예측해보는 시스템을 추가한다고 했을 때 이 부분을 rag로 하려면 어떻게 해야 하는 걸까요? 정해진 컨텍스트 내에서 답변하다 보면 이런 예측 부분은 잘 안 되는 건가 싶기도 하더라고요
매수 매도 관점을 그럼 어떤 기준으로 잡을 것인지 llm 에게 프롬프트로 전달해 보세요~ 주어진 리포트로 분석 후 LLM에게 매수 매도 기준을 알려주면 그 기준에 맞춰 의견을 받을 수 있을거에요
좋은 강의 감사합니다! ❤ 만약에 뉴스기사와 관련없는 질문(예를 들면, 아침에 사과를 먹는 것의 효능은 무엇인가?)을 하면, 어떠한 수준의 대답이 나오나요? 직접 검색에 걸리는 문서들은 임베딩된 기사 내용에 제한된다고 보면되나요? (그리고 그 기사들을 학습데이터라고 부를 수 있을까요?) 만약 RAG를 통해 앞서 주제와 관련없는 (사과 효능) 질문에 대해 답변을 받을 수 있다면, OpenAI 임베딩에 영향을 받아서 일 수 있나요? 다시말해 RAG가 기존 LLM 의 학습데이터도 고려하여 답변을 내놓는 것인지 궁금합니다.
1. 뉴스기사와 관련없는 질문은 모른다 혹은 관련성 없다로 나와야 합니다
2. 주어진 기사에 국한 됩니다(추가 검색도 가능하게 구현할 수 있습니다)
3. 학습 데이터 보다는 주어진 문맥(context) 라는 표현을 씁니다. 학습데이터와는 구분됩니다.
4. 주어진 문맥에 기반으로 답하라고 지시하였기 때문에 외적인 내용은 배제한채 답합니다.
감사합니다!! 😊
11:35
안녕하세요, 강의 영상을 따라하던 중 백터스토어 생성하는 구간에서 막혔습니다.
openai api를 연결했는데 저의 billing plan 을 확인하라는 문구가 있어서 확인을 해보았는데 한달 usage limit 이 $5 인것을 확인 할 수 있었고, 저는 현재 chat gpt 4 버전을 구독하며 사용중입니다.
혹시 이 open api 를 연결하기 위해서 따로 지물을 해야되나요?
안녕하세요! Chatgpt 유료 구독과 api는 별개 플랜이며 각각을 따로 결제 등록하여 사용하셔야 합니다. api사용료는 사용한만큼 결제 되는 종량제 방식입니다~
api사용을 위하여 카드 등록을 하셨다면 $5 리미트를 조금 올려보시면 원활하게 동작할 것 같습니다~
@@teddynote 빠른 답변 감사합니다 :)
이해하기 쉽고 핵심만 설명해주셔서 행복한 강의였습니다!!
실습 후애 토이프로젝트로 쇼핑몰의 링크를 넣으면 리뷰를 크롤링하고
데이터를 기반으로 qa봇을 만들어볼까 하는데 혹시 이강의에서 변경할만한 점이 있을까요?
개인적으로는 리뷰의 개수가 많아질 수도 있기에 chunk를 나누는 부분부터 좀 다를 것 같은데
질문드려도 괜찮을까요?
유익한 강의 감사합니다. 항상 잘 보고 있어요!!
QA 목적에 따라 다를 수 있을 것 같아요. 리뷰를 종합하여 리뷰 분석을 하느냐와 리뷰 하나하나에 대한 감정 분석을 하느냐 등등으로요. 종합하여 분석을 할 때는 수집된 리뷰를 하나로 합쳐서 적절한 텍스트 전처리 후에 Chunk 사이즈를 잘 나눠서 결과물로 뽑아내는 것이 중요할 것 같구요. 리뷰 하나씩 개별 처리를 할 때는 리뷰 하나의 길이가 그렇게 길지 않다는 가정하에 Chunk는 리뷰의 최대 길이를 잡아줘도 될 것 같아요!
15:29 context에 넣는 format_docs가 원본 코드에서는 사라졌는데, 이유가 어떤건가요??
아 상황에 따라 넣어도 되고요 안 넣으셔도 됩니다~ 빼도 잘 동작해서 간결한 코드를 위해 제거했어요^^
강의 너무 잘 듣고 있습니다.. 항상 감사합니다. 한가지 질문이 있는데요.. 파이썬으로 답변 결과를 받아서 nodejs로 api 경로 만들어 호출하는데, 로딩 시간이 10초 이상이 걸립니다. 혹시 강의 영상 내용에 추가적인 처리를 해야 하나요? 참고로 구글 코랩에서는 로딩 시간이 1~2초 정도입니다..
안녕하세요! 아마도 그럼 nodejs 쪽 문제로 보입니다. 보통은 1~2초 이내로 답변이 나오는 것이 정상입니다~
@@teddynote 바쁘실텐데 답변 너무 감사합니다. 요청 테스트 해봤는데 파이썬 라이브러리 불러오는데 6초 정도 소요 되더라고요. 암튼, 영상 열심히 보겠습니다. 감사합니다~~^^
혹시 영상을 어떤 순서로 보면 될까요? 혹시 강의 안내시나요 ㅋㅋ 회사에서 팔란티어를 쓰는데 결국 기본개념이 너무 중요하네요 ㅜㅠ
LangChain 튜토리얼 재생목록 순서대로 보셔도 좋을 것 같아요. 5월말에 강의 사전신청 페이지 오픈 예정입니다~
테디님 따라해보고싶은데 실습파일 복구좀 해주실수있으실까요
링크 수정했습니다~^^
@@teddynote 감사합니다 ~
너무 좋은 강의 정말 감사드려요!! 질문하나가 있습니다.
혹시 벡터 저장소를 카테고리별로 만들어서 문서를 불러올때 카테고리별로 구분되어져 분할작업과 저장이 실행되도록 할수 있나요?
예를들어 음식, 패션, 여행 이란 카테고리를 정해놓고 문서를 불러올때 문서안의 소주제를 통해 카테고리별로 문서가 나눠지고, 각각 나눠진 문서가 개별로 분할과 저장 작업이 이루어 질수있나요?
메타데이터와 메타데이터 필터링으로 구현 가능합니다~
안녕하세요~ 어제부터 실습해보고 있는데 faiss에서 문제가 발생해 질문드립니다.
from_documents가 존재하지 않는다고 뜹니다ㅠㅠ
faiss도 소문자로 인식이 되고..
파이썬 버전을 3.12에서 3.11, 3.10으로 다운하고 faiss-cpu도 설치해봤는데 그대로네요.
방법이 있을까요?
해결했습니다ㅠㅠ from langchain_community.vectorstores.faiss import FAISS 라고 불러오면 됩니다. 왜 이렇게 되는건지는 모르겠으나..저와 같은 문제를 겪는 분들 참고하세요.
패키지는 소문자 faiss 이고요 모듈명은 FAISS 대문자입니다~! 대소문자 구분하기 때문에 지켜주셔야 오류가 없습니다~👍
질문이 있습니다. 웹페이지에서 제목과 본문을 긁어올때 꼭 태그를 살펴보고 class나 id를 지정해서 뽑아내는 방법 밖에 없나요? 웹싸이트마다 그 형식이 다 다를텐데.. 뭔가 하나로 다 되는 펑션은 없나요?
다 긁어올 수 있어요. 전체 페이지를 다 받아올 수는 있으나, 필요 없는 정보들이 많이 포함되어 있어서요. 질이 좋지 못합니다. 그래서 핀포인트로 가져오시는 것을 추천 드려요. 구조는 하나의 웹 안에서는 보통 통일됩니다.
예를 들어 네이버 뉴스 플랫폼안에서는 구조는 동일하고 콘텐츠만 바뀌기 때문에요. 한 번의 귀찮음으로 차라리 더 질좋은 정보는 소싱하는 것이 나을 것 같습니다!
큰인물될거임
🙏🙏
좋음 강의 올려주셔서 감사합니다.
선생님 깃헙 자료로 공부 중에 질문드릴게 하나 있는데요,
pdf를 로드해서 사용할때말고
필드 별로 정리돼있는 csv 파일(내용, 요약문, 주요키워드)를 로드해서 사용할 때 고려해야할 점이 있을까요?
내용에 대해 쿼리를 하면 요약문이나 키워드를 참조하기 원합니다.
CSV Loader 를 사용하시면 편하게 가져오실 수 있을 것 같아요 그리고 조회한 데이터를 LLM 에 전달해야 하는데 이때 방식이 여러가지일 수 있어요. pandas dataframe 을 만들어 데이아 프레임 쿼리를 날릴 수도 있고요(보통은 통계량 다룰때)
단순 텍스트 처리를 하고 싶으면 텍스트화 할 부분은 텍스트로 일괄 병합하여 llm에 넣고 요약을 하거나 요점 정리를 하거나 할 수도 있을 것 같아요~
좋은 강의 너무 감사드립니다! 그런데 다음과 같은 오류가 계속 뜹니다ㅠㅠ retrieve 부분 돌리면 401 error가 계속 뜹니다ㅠ
어떤 오류 인가요?
이제 막 rag관련해서 공부하는 중인데, 이 영상 보기에 어려울까요ㅜㅜ
일단 코드 다운 받고 강의 보려고 했는데, 환경 설정 파트에 코드 실행만 했는데도 에러가 뜨고 그러네요,,,
랭체인 한국어 튜토리얼 영상 보시고 환경 구축 하신 다음에 진행하시면 에러 없이 동작하실꺼에요~
최신 영상에 있습니다^^
RAG가 새로운 데이터로 학습하는 것 말고도 "정답이 없는 창의적인 문제에 대해서 잘 된 답변들을 학습하는" 방식으로 GPT 성능을 향상시킬 수 있을까요?
RAG의 주된 목적은 Retrieval 에 있다고 볼 수 있는데요 한마디로 오픈북 테스트를 생각하시면 쉽습니다.
정답이 없다는 문제에서 답변을 도출해 냈을때 (예를 들면 광고 카피라이팅) RAG 에 과거 답변 이력이나 정답이 없는 문제에 대하여 답변을 도출한 과정 들이 들어가 있다면 이를 참고하여 답변하는 것은 가능해 보입니다.
한마디로 답변을 정답지에서 찾아서 답변하기 보다 답변을 도출해낸 과정을 모사하여 답변하도록 유도해보시면 좋을 듯 합니다!
감사합니다!!! 도움이 많이 됐습니다!
로컬의 회사문서들을 기반으로 chatGPT등 온라인 기반 LLM을 통해 답변을 합니다. 이때 로컬 자료들에 관련 정보들은 LLM에 공유가 안 되는지 문의합니다. 다이어그램을 보면, LLM은 로컬 자료들을 기반하여 인간의 언어로 변환해주는 작업만 하니 로컬 자료들이 온라인에 뿌려지지는 않을 것 같지만 제가 이해한 것이 맞는지 궁금합니다.
ChatGPT를 사용하면 공유 될 수 있어요. 물론 공유되지 않는 엔터프라이즈 형을 사용하시면 되긴 하지만 개인이 사용하기엔 어렵죠.
그래서 chatgpt 모델 대신 오픈 모델과 DB도 내부에 구축하여 데이터 유출 방지 하기 위한 설계를 하실 수도 있어요
@@teddynote LLM은 llama3로 세팅하여야 겠어요. 항상 좋은 영상 감사합니다.
안녕하세요
gpt api 를 사용해도 회사 자료 보안에 문제가 없을까요?
openai 가 api 방식으로 입출력에 대한 학습을 하지 않는다고 공식 웹사이트에 공표 하였습니다.
좋은 의견 주셔서 커뮤니티 게시글에 정리하여 글 올렸습니다~^^ 한 번 읽어봐 주십쇼!! 감사합니다
@@teddynote 쓰면서 항상 궁금했는데 감사합니다!!
좋은 강의 감사합니다! 실습 파일 따라해보려는데 맨 처음에 load_dotenv() 실행 결과가 False로 나오는 건 어떤 문제일까요..? 이 부분에 대한 설명이 넘 간략히 되어있어서 어렵네요^^;
먼저 .env 라는 파일을 하나 만들어서 거기에 OPENAI_API_KEY를 설정해야합니다~
도움이 될만한 링크 드리고요: learn.griptape.ai/latest/setup/02_openai/#installing-python-dotenv
제가 영상으로도 한 번 다루겠습니다~~
궁금한게, input 토큰에는 rag 문서도 포함되나요? 그러면 매번 인풋토큰의 양이 꽤 많이 들어갈 것 같아서요. 잘 모르지만 질문 남겨봅니다..
네 포함됩니다. 단 전체 문서는 아니고 일부 검색된 문서가 포함됩니다
혹시 langsmith api key는 유로로 제공되는 것을 사용해야 하는걸까요??
prompt를 langsmith에서 가져올때 무료로 제공되는 api key를 입력했더니 존재하지 않는 api key라고 떠서요..ㅠㅠ
음 아닙니다~ 무료키로도 가능하세요~ 혹시 jupyter notebook 상단 재시작 후 다시 한 번 시도해 보시겠어요?
@@teddynote그렇게 진행을 하였는데도 아직 비슷한 오류가 발생합니다.. 초반에 langsmith api key 설정해서 내용들을 전부 tracing하고 llm open api key 설정한다고 말씀해주셨었는데 그렇다면 langsmith api key와 llm api key 두개를 다 .env파일에 저장해놓고 dotenv로 불러와야 하는 건가요?
@@mortar5166 네 필요한 키를 모두 저장해 둡니다(.env)
@@teddynote .env 파일에 한번에 필요한 key들을 저장해두니까 해결됐습니다! 감사합니다 ㅎㅎ
최근에 8b 13b 사이에 한국어 문서 분석 잘하는 오픈소스 llm 추천해주실 수 있나요?
eeve korean 야놀자 모델 괜찮습니다^^
@@teddynote 네 감사합니다. 패캠 강의 곧 결제하게 되는데, 잘 듣겠습니다 ~
@@유영재-c9c 감사합니다~^^
혹시 회사에서 하는게 아니라 혼자 ai 서비스를 만든다고 했을 때, 내부 데이터 자료가 없는 상태에서 RAG가 의미가 있을까요? 오직 검색 데이터만을 위해서 사용해야하나요 ?
자료가 만약 raw 데이터로 존재한다고 가정해 보겠습니다. 예를 들어 이력서 폴더에 이력서와 참고할 수 있는 자료들이 다량 들어가 있다고 가정해 볼께요.
그럼 회사에 지원할 자기소개서를 작성해야 하는데 이때도 RAG를 사용하면 내 정보를 기반으로 GPT가 자기소개서를 작성해 줍니다.
이와 비슷하게 RAW data 형태로 존재하는 데이터를 ‘활용’ 하여 새로운 형태의 문서를 생성할 때 유용할 수 있어요
@@teddynote 답변 너무나 감사합니다. 강의력에 감탄하면서 패스트캠퍼스 RAG강의를 수강할지 고민하고 있어요.
저는 1~3인으로 팀을 구성하여 생성형 ai 서비스를 만들려고 하는데요. 이쪽 분야가 사실 처음이다 보니까 로드맵이 잘 안잡히는거 같아요 ㅠㅠ 서버리스 기반으로 백엔드를 구성하고 랭체인 + RAG를 활용하려고 하는데 이런 생각이 올바른지 사실 의문이네요... 더불어 패스트캠퍼스 강의가 저에게 맞을지도 걱정이 되네요. (대상자를 보니 ai개발자 혹은 머신러닝, 데이터 분석가라고 명시되어 있어서요 !)아는게 없다보니 걱정이 많아지는 기분이라 답답해서 긴글로 두서없이 질문드리네요. 혹시 시간이 되신다면 조언해주시면 감사하겠습니다.
@@김민석-m2z 안녕하세요? 생성형 ai 서비스를 만드시려고 하시나보군요! 우선 생성형 AI하면 RAG가 절대 빠질 수 없는 키워드이죠. 서버 구성도 좋지만 그 전에 RAG가 어떤 흐름으로 진행되는지 먼저 이해되어야 올바르게 서버도 셋팅하실 수 있어요. 그래서 먼저 RAG를 사용한 프로젝트부터 하시라고 권해 드리고 싶습니다^^
패스트캠퍼스에 런칭한 강의는 입문자 분들에게 초점아 맞춰져 있어서 설명도 입문자 눈높이에 맞춰 진행하고 있어요. 따라서 파이썬 이제 막 입문하시는 분들 많으세요!
하지만 무료 강의도 많아요. 유튜브나 deeplearning.ai 에 무료로 된 강의도 있으니 참고해 보십쇼^^
어떤 강의나 학습방법을 선택하든 다 좋습니다. 시작은 꼭 RAG 프로젝트 단순한 것이라도 만들어 보시는 것으로 시작해 보세요!
@@teddynote 긴 답변해주셔서 너무나 감사합니다 ! 솔직히 랭체인 기반의 RAG 강의는 테디노트님 같은 고퀄리티 강의가 아직 없더라구요.
강의에서 뵙겠습니다 :)
@@김민석-m2z 극찬 감사합니다~🙏🙏
안녕하세요, 이런 챗봇을 만들어서 무료로 서비스화 한다면, 비용이 많이 발생될까요?
사용자가 많다면 그만큼 비례해서 과금이 발생하기 때문에 얼마나 많은 사용자가 이용하는가가 관건일것 같아요!
실습파일이 삭제되었네요 ㅠ
수정했습니다!
vectorstore 생성하는 과정에서 Error Code 429 라고 뜨는데 유료 결제로 바꿔도,, 똑같은 증상이 뜨네용,, 어떻게 해결하면 좋을까요?
vectorestore 는 과금이 발생하지 않습니다~ 아마 Embedding 이나 모델 사용하실때 유료 모델 사용하실 것 같고요. API 키가 올바르게 설정되어 있는지 한 번 확인해 보세요!