R 프로그래밍 / R 기초 - 팩터 🔑 factor() levels() | 범주형 데이터 | 서열팩터 ordered factor | 레벨 level | 교차표

Поделиться
HTML-код
  • Опубликовано: 24 сен 2024
  • [데이터분석 프로그래밍 언어 R]
    범주형 데이터를 표현하는 팩터(factor) 데이터 구조에 대해 살펴봅니다. 다음과 같은 함수에 대한 설명이 포함되어 있습니다: factor(), as.numeric(), levels(), nlevels(), table().
    📢 R과 RStudio 설치는 'R 프로그래밍 / R 기초 - 설치' 강좌를 참고하세요( • R 프로그래밍 / R 기초 - 설치 🔑 ... ).
    📚 『곽기영』 채널의 동영상 강의는 다음 도서를 바탕으로 하고 있습니다. 책의 목차를 포함한 책자에 대한 소개는 도서명 옆의 링크를 참고해주세요. 💕
    『R 기초와 활용』 (product.kyobob...)
    『R을 이용한 통계데이터분석』 (product.kyobob...)
    『R을 이용한 머신러닝과 텍스트마이닝』 (product.kyobob...)
    『R을 이용한 웹스크레이핑과 데이터분석』 (product.kyobob...)
    『SPSS를 이용한 통계데이터분석』 (product.kyobob...)
    『소셜네트워크분석』 (product.kyobob...)
    #R프로그래밍 #데이터분석 #통계 #머신러닝 #데이터애널리틱스 #데이터사이언스

Комментарии • 7

  • @trthffil
    @trthffil 4 года назад

    강의 잘 들었습니다. 감사합니다.^^

  • @BiquiRaccoon
    @BiquiRaccoon 3 года назад

    점점 실제 데이터 분석에도 활용할 수 있는 내용으로 나아가는 것 같네요! 점점 더 흥미로워집니다!! 이번 강의도 감사합니다 ^^

  • @Barbiechon
    @Barbiechon 2 года назад

    설명을 너무 잘해주셔서 이해하기 너무 쉽숑! 정말 감사합니다 :)
    요즘 코딩이 너무 어려워서 기초부터 다시 보고있는데 정말 도움이 많이 됩니다!

  • @이윤서-w3n
    @이윤서-w3n 2 года назад

    교수님 안녕하세요. 강의 매번 잘 보고 있습니다. R 코드 작성에 대해 한가지 질문이 있는데요,
    아래와 같은 결과가 나오도록 각 열에 최소값 0, 최대값 1의 범위 표준화 변환을 하는 방법을 apply()함수를 사용하지 않고 나타내고자 합니다.
    set.seed(1)
    x

  • @백경민-j1l
    @백경민-j1l 3 года назад

    서열 팩터 생성 시 꼭 orderd=True를 사용해야 하는 추가적인 이유가 있을까요.. 출력시 부등호 표시가 나오는 것 말고는 levels에서 사용자가 원하는 옵션을 주는거랑 어떤 차이가 더 있는지 궁금합니다~

    • @kykwahk
      @kykwahk  3 года назад +1

      예를 들어, 다섯 개 제품에 대한 품질을 평가하여 그 결과를 다음과 같은 팩터로 저장했습니다. 첫 번째 제품의 품질은 Medium이고, 두 번째는 Low이고, 세 번째는 High, 네 번째는 Medium, 마지막 다섯 번째는 High입니다.
      > eval eval.unordered eval.unordered
      [1] Medium Low High Medium High
      Levels: Low Medium High
      이때 첫 번째 제품이 두 번째 제품보다 품질이 좋은지 궁금합니다. 그래서 제품 간 품질을 비교하기 위하여 다음과 같이 비교 연산자를 사용해봅니다.
      > eval.unordered[1] > eval.unordered[2]
      [1] NA
      경고메시지(들):
      Ops.factor(eval.unordered[1], eval.unordered[2])에서:
      요인(factors)에 대하여 의미있는 ‘>’가 아닙니다.
      그러면 NA가 출력되면서 의미 없는 연산을 하고 있다는 경고 메시지가 나옵니다. 이런 식으로는 제품 간 품질을 비교할 수 없습니다. 이번에는 서열 팩터를 만들어 동일하게 비교해봅니다.
      > eval.ordered eval.ordered
      [1] Medium Low High Medium High
      Levels: Low < Medium < High
      > eval.ordered[1] > eval.ordered[2]
      [1] TRUE
      첫 번째 제품의 품질이 Medium이고 두 번째 제품의 품질이 Low이므로 첫 번째 제품의 품질이 더 좋고 그래서 비교 결과는 TRUE입니다(Levels: Low < Medium < High). 이처럼 서열 팩터로 만들면 팩터의 원소 간 '서열화된' 크기를 비교할 수 있습니다.
      여기에서는 일반 팩터와 서열 팩터 간 차이를 간단한 비교 연산의 예를 통해서만 보여드렸습니다만 둘 간의 차이는 사실 이보다 더 큰 의미를 갖습니다. 통계분석모델을 적용할 때 차이가 나타나는데요, 범주형 변수(categorical variable)가 순서를 갖는지 여부에 따라 통계모델은 범주형 변수(즉 팩터)를 서로 다른 방식으로 다룹니다.

    • @백경민-j1l
      @백경민-j1l 3 года назад

      @@kykwahk 친절한 답변 감사합니다 ^^ 사용하는 목적에 따라 다르게 써야 겠습니다