Multikollinearität erkennen in R - Daten analysieren in R (37)

Поделиться
HTML-код
  • Опубликовано: 20 янв 2025

Комментарии • 17

  • @StatistikamPC_BjoernWalther
    @StatistikamPC_BjoernWalther  8 месяцев назад

    📘Mein Buch "Statistik mit R - Schnelleinstieg": amzn.to/3OzeLJI [Affiliatelink]

  • @mahmoudmoustafamohammed5896
    @mahmoudmoustafamohammed5896 2 года назад +1

    Vielen Dank für das wunderbare Video. Noch eine kurze Frage: Soll die Kategorische Variable "Geschlecht wie im Tutotial" als nummerisch umkodiert werden, oder es ist egal, ob die Kategorische Variable als Factor kodiert ist?
    Lg

  • @zuckertute2536
    @zuckertute2536 3 года назад +1

    Hi! Tolles Video Danke! Ich habe allerdings noch eine Frage... Ich habe leider ein Modell mit sehr vielen unterschiedlichen Faktoren (Alter, Geschlecht, Familienstand, Extraversions-Werten,...) wenn ich das so durchführe wie du wird mir eine kleine Tabelle ausgeworfen mit den Spalten GVIF, Df und GVIF^(1/(2*Df)) darunter stehen die Werte (allesamt im Bereich von 1-3). Bin ich damit jetzt also im Rahmen, oder ist diese Art der Multikollinearitäts-Prüfung bei meinen Faktoren bzw. dieser großen Anzahl an Faktoren ungeeignet?

  • @StatistikamPC_BjoernWalther
    @StatistikamPC_BjoernWalther  4 года назад

    Bei Fragen und Anregungen zu Multikollinearität in R nutzt bitte die Kommentarfunktion.

  • @Larsi04
    @Larsi04 4 года назад +1

    Wieder mal ein super hilfreiches Video! Ich habe eine kurze Frage. Und zwar habe ich eine multiple lineare Regression durchgeführt. Wenn ich nun die vif() Funktion ausübe, wird mir in einer Übersicht jede unabhängige Variable der Regression sowie meine fixen Effekte mit jeweils drei Spalten dargestellt. Spalte 1 (GVIF) zeigt jeweils nur "NaN" an. Spalte 2 (Df) zeigt bei allen unabhängigen Variablen "1" und bei den fixen Effekten "1312" an. Spalte 3 (GVIF^(1/(2*Df)) zeigt auch wieder überall "NaN" an. Wo liegt das Problem? Wenn ich das Modell ohne die fixen Effekte berechne wird mir die gleiche Übersicht angezeigt wie in deinem Video. Was muss ich beachten? Bzw. gibt es einen alternativen Berechnungsweg? Eine Antwort von dir wäre extrem hilfreich. Vielen Dank!!!

  • @ВладимирЛев-щ1н
    @ВладимирЛев-щ1н 4 года назад +1

    Top Video mal wieder! 😊

  • @fommrmt466
    @fommrmt466 3 года назад

    Vielen Dank für deinen Beitrag. Mal eine grundsätzliche Frage. Ist dies so auch für eine logistische Regression anwendbar?

  • @steffimalajka8225
    @steffimalajka8225 4 года назад +1

    Hallo, vielen Dank für die tollen Videos! Die sind eine große Hilfe. Ich habe eine Frage zu der Multikollinearität. In dem Video wurde auch die Multikollinearität bei zwei Prädiktorvariablen gezeigt, aber nur angemerkt, dass da beide Werte identisch sind. Wie geht man vor, wenn es nur zwei Prädiktorvariablen sind? Ich habe die Korrelation der beiden unabhängigen Variablen berechnet und einen positiven Zusammenhang festgestellt (z = 8.6676, p-value < 2.2e-16, tau
    0.3084338 ). Wie gehe ich beim Hypothesentest über die Multiple lineare Regression vor? Vielen Dank vorab.

    • @StatistikamPC_BjoernWalther
      @StatistikamPC_BjoernWalther  4 года назад

      Hallo Steffi, danke für dein Lob!
      Wenn du nur zwei Prädiktorvariablen hast, reicht ein Augentest der Korrelation. Ist sie, wie bei dir, unter 0,8, ist alles in Ordnung und du kannst ganz normal mit einer Regression fortfahren.
      Viele Grüße, Björn.

  • @churchie388
    @churchie388 4 года назад

    Super Video. Eine Frage habe ich. Habe meine Panelregression (Multivariat) mittels FE-Methode durchgeführt. Habe keinen Intercept und deswegen kann ich keine VIF Werte ermitteln. Was kann ich nun tun? REM und Pooled Regression konnte ich im Vorfeld ausschließen.

    • @StatistikamPC_BjoernWalther
      @StatistikamPC_BjoernWalther  4 года назад

      Hallo und dann danke für dein Lob !
      Soweit ich weiß und das auch selbst gerechnet habe, funktioniert die VIF-Werte-Funktion auch bei Panelmodellen mit FE-Schätzern. Ob eine konstante da ist oder nicht, ist unerheblich. Es sollte also funktionieren.
      Viele Grüße, Björn.

  • @Markus_D_94
    @Markus_D_94 4 года назад

    Was ist denn mit hohen VIF Werten bei Dummy Variablen?? Die Dummy-Trap ist ja bei R quasi ausgeschlossen.
    Wäre dir für Hilfe extrem dankbar.

    • @StatistikamPC_BjoernWalther
      @StatistikamPC_BjoernWalther  4 года назад

      Hallo Markus, hierzu eine direktes Zitat: "t is recommended that collinearity diagnostics be applied to the numeric predictors first to check for collinearity without the influence of any dummies, then add dummy variables in one at a time to see their effect on VIFs" aus Murray, Leigh; Nguyen, Hien; Lee, Yu-Feng; Remmenga, Marta D.; and Smith, David W. (2012). "VARIANCE INFLATION FACTORS IN REGRESSION MODELS WITH DUMMY VARIABLES
      Viele Grüße, Björn.

  • @lanaschludi5466
    @lanaschludi5466 3 года назад

    Hallo! Erstmal danke für das hilfreiche Video :) Ich hätte noch zwei Fragen dazu: 1. Kann man Multikollinearität bei Kontrollvariablen ignorieren? 2. Was ist der Unterschied zwischen VIF, GVIF, GVIF GVIF^(1/(2*Df)? Gilt die Daumenregel mit Wert 10 für alle drei? Vielen Dank im Voraus!

    • @StatistikamPC_BjoernWalther
      @StatistikamPC_BjoernWalther  3 года назад

      Hallo Lana, danke für dein Lob!
      Zu deinen Fragen:
      1) Nein, das kann ein Problem sein. Die Frage ist, ist die Kontrollvariable redundant zu einer anderen Variable? Kann man sie also weglassen? Auf der einen Seite muss es nicht schlimm sein, wenn man Kontrollvariablen weglässt. Auf der anderen Seite gehören sie irgendwie dazu und wenn sie mit anderen Variablen (auch in der Grundgesamtheit) hoch korrelieren, dann ist das so. Da wäre ich pragmatisch, wenn es sich um keine redundanten Variablen handelt und sie drin lassen.
      2) Normalerweise interpretierst du nur VIF, die anderen kannst du ignorieren. Für die speziellen Anwendungsfälle kannst du hier nachlesen: stats.stackexchange.com/questions/70679/which-variance-inflation-factor-should-i-be-using-textgvif-or-textgvif/96584 Der Co-Autor eines Papiers von GVIF hat sich dazu auch geäußert.
      Viele Grüße, Björn.

  • @pate1495
    @pate1495 4 года назад

    Danke für das tolle Video! :) Man kann also entweder die VIF-Werte oder die Korrelationen der unabhängigen Variablen prüfen - beides ist ok?

    • @StatistikamPC_BjoernWalther
      @StatistikamPC_BjoernWalther  4 года назад

      Hallo, beides ist prinzipiell ok, bei den VIF-Werten sieht man aber eher, welche Variable Probleme macht. Bei der Korrelation sieht man ja nur eine hohe Korrelation zwischen zwei Variablen. Welche der beiden jetzt das Problem ist, kann man nur im Ausschluss testen. Mit VIF geht es also eigentlich besser.
      Viele Grüße, Björn.