Vielen Dank für das wunderbare Video. Noch eine kurze Frage: Soll die Kategorische Variable "Geschlecht wie im Tutotial" als nummerisch umkodiert werden, oder es ist egal, ob die Kategorische Variable als Factor kodiert ist? Lg
Hi! Tolles Video Danke! Ich habe allerdings noch eine Frage... Ich habe leider ein Modell mit sehr vielen unterschiedlichen Faktoren (Alter, Geschlecht, Familienstand, Extraversions-Werten,...) wenn ich das so durchführe wie du wird mir eine kleine Tabelle ausgeworfen mit den Spalten GVIF, Df und GVIF^(1/(2*Df)) darunter stehen die Werte (allesamt im Bereich von 1-3). Bin ich damit jetzt also im Rahmen, oder ist diese Art der Multikollinearitäts-Prüfung bei meinen Faktoren bzw. dieser großen Anzahl an Faktoren ungeeignet?
Wieder mal ein super hilfreiches Video! Ich habe eine kurze Frage. Und zwar habe ich eine multiple lineare Regression durchgeführt. Wenn ich nun die vif() Funktion ausübe, wird mir in einer Übersicht jede unabhängige Variable der Regression sowie meine fixen Effekte mit jeweils drei Spalten dargestellt. Spalte 1 (GVIF) zeigt jeweils nur "NaN" an. Spalte 2 (Df) zeigt bei allen unabhängigen Variablen "1" und bei den fixen Effekten "1312" an. Spalte 3 (GVIF^(1/(2*Df)) zeigt auch wieder überall "NaN" an. Wo liegt das Problem? Wenn ich das Modell ohne die fixen Effekte berechne wird mir die gleiche Übersicht angezeigt wie in deinem Video. Was muss ich beachten? Bzw. gibt es einen alternativen Berechnungsweg? Eine Antwort von dir wäre extrem hilfreich. Vielen Dank!!!
Hallo, vielen Dank für die tollen Videos! Die sind eine große Hilfe. Ich habe eine Frage zu der Multikollinearität. In dem Video wurde auch die Multikollinearität bei zwei Prädiktorvariablen gezeigt, aber nur angemerkt, dass da beide Werte identisch sind. Wie geht man vor, wenn es nur zwei Prädiktorvariablen sind? Ich habe die Korrelation der beiden unabhängigen Variablen berechnet und einen positiven Zusammenhang festgestellt (z = 8.6676, p-value < 2.2e-16, tau 0.3084338 ). Wie gehe ich beim Hypothesentest über die Multiple lineare Regression vor? Vielen Dank vorab.
Hallo Steffi, danke für dein Lob! Wenn du nur zwei Prädiktorvariablen hast, reicht ein Augentest der Korrelation. Ist sie, wie bei dir, unter 0,8, ist alles in Ordnung und du kannst ganz normal mit einer Regression fortfahren. Viele Grüße, Björn.
Super Video. Eine Frage habe ich. Habe meine Panelregression (Multivariat) mittels FE-Methode durchgeführt. Habe keinen Intercept und deswegen kann ich keine VIF Werte ermitteln. Was kann ich nun tun? REM und Pooled Regression konnte ich im Vorfeld ausschließen.
Hallo und dann danke für dein Lob ! Soweit ich weiß und das auch selbst gerechnet habe, funktioniert die VIF-Werte-Funktion auch bei Panelmodellen mit FE-Schätzern. Ob eine konstante da ist oder nicht, ist unerheblich. Es sollte also funktionieren. Viele Grüße, Björn.
Hallo Markus, hierzu eine direktes Zitat: "t is recommended that collinearity diagnostics be applied to the numeric predictors first to check for collinearity without the influence of any dummies, then add dummy variables in one at a time to see their effect on VIFs" aus Murray, Leigh; Nguyen, Hien; Lee, Yu-Feng; Remmenga, Marta D.; and Smith, David W. (2012). "VARIANCE INFLATION FACTORS IN REGRESSION MODELS WITH DUMMY VARIABLES Viele Grüße, Björn.
Hallo! Erstmal danke für das hilfreiche Video :) Ich hätte noch zwei Fragen dazu: 1. Kann man Multikollinearität bei Kontrollvariablen ignorieren? 2. Was ist der Unterschied zwischen VIF, GVIF, GVIF GVIF^(1/(2*Df)? Gilt die Daumenregel mit Wert 10 für alle drei? Vielen Dank im Voraus!
Hallo Lana, danke für dein Lob! Zu deinen Fragen: 1) Nein, das kann ein Problem sein. Die Frage ist, ist die Kontrollvariable redundant zu einer anderen Variable? Kann man sie also weglassen? Auf der einen Seite muss es nicht schlimm sein, wenn man Kontrollvariablen weglässt. Auf der anderen Seite gehören sie irgendwie dazu und wenn sie mit anderen Variablen (auch in der Grundgesamtheit) hoch korrelieren, dann ist das so. Da wäre ich pragmatisch, wenn es sich um keine redundanten Variablen handelt und sie drin lassen. 2) Normalerweise interpretierst du nur VIF, die anderen kannst du ignorieren. Für die speziellen Anwendungsfälle kannst du hier nachlesen: stats.stackexchange.com/questions/70679/which-variance-inflation-factor-should-i-be-using-textgvif-or-textgvif/96584 Der Co-Autor eines Papiers von GVIF hat sich dazu auch geäußert. Viele Grüße, Björn.
Hallo, beides ist prinzipiell ok, bei den VIF-Werten sieht man aber eher, welche Variable Probleme macht. Bei der Korrelation sieht man ja nur eine hohe Korrelation zwischen zwei Variablen. Welche der beiden jetzt das Problem ist, kann man nur im Ausschluss testen. Mit VIF geht es also eigentlich besser. Viele Grüße, Björn.
📘Mein Buch "Statistik mit R - Schnelleinstieg": amzn.to/3OzeLJI [Affiliatelink]
Vielen Dank für das wunderbare Video. Noch eine kurze Frage: Soll die Kategorische Variable "Geschlecht wie im Tutotial" als nummerisch umkodiert werden, oder es ist egal, ob die Kategorische Variable als Factor kodiert ist?
Lg
Hi! Tolles Video Danke! Ich habe allerdings noch eine Frage... Ich habe leider ein Modell mit sehr vielen unterschiedlichen Faktoren (Alter, Geschlecht, Familienstand, Extraversions-Werten,...) wenn ich das so durchführe wie du wird mir eine kleine Tabelle ausgeworfen mit den Spalten GVIF, Df und GVIF^(1/(2*Df)) darunter stehen die Werte (allesamt im Bereich von 1-3). Bin ich damit jetzt also im Rahmen, oder ist diese Art der Multikollinearitäts-Prüfung bei meinen Faktoren bzw. dieser großen Anzahl an Faktoren ungeeignet?
Bei Fragen und Anregungen zu Multikollinearität in R nutzt bitte die Kommentarfunktion.
Wieder mal ein super hilfreiches Video! Ich habe eine kurze Frage. Und zwar habe ich eine multiple lineare Regression durchgeführt. Wenn ich nun die vif() Funktion ausübe, wird mir in einer Übersicht jede unabhängige Variable der Regression sowie meine fixen Effekte mit jeweils drei Spalten dargestellt. Spalte 1 (GVIF) zeigt jeweils nur "NaN" an. Spalte 2 (Df) zeigt bei allen unabhängigen Variablen "1" und bei den fixen Effekten "1312" an. Spalte 3 (GVIF^(1/(2*Df)) zeigt auch wieder überall "NaN" an. Wo liegt das Problem? Wenn ich das Modell ohne die fixen Effekte berechne wird mir die gleiche Übersicht angezeigt wie in deinem Video. Was muss ich beachten? Bzw. gibt es einen alternativen Berechnungsweg? Eine Antwort von dir wäre extrem hilfreich. Vielen Dank!!!
Top Video mal wieder! 😊
Vielen Dank für deinen Beitrag. Mal eine grundsätzliche Frage. Ist dies so auch für eine logistische Regression anwendbar?
Hallo, vielen Dank für die tollen Videos! Die sind eine große Hilfe. Ich habe eine Frage zu der Multikollinearität. In dem Video wurde auch die Multikollinearität bei zwei Prädiktorvariablen gezeigt, aber nur angemerkt, dass da beide Werte identisch sind. Wie geht man vor, wenn es nur zwei Prädiktorvariablen sind? Ich habe die Korrelation der beiden unabhängigen Variablen berechnet und einen positiven Zusammenhang festgestellt (z = 8.6676, p-value < 2.2e-16, tau
0.3084338 ). Wie gehe ich beim Hypothesentest über die Multiple lineare Regression vor? Vielen Dank vorab.
Hallo Steffi, danke für dein Lob!
Wenn du nur zwei Prädiktorvariablen hast, reicht ein Augentest der Korrelation. Ist sie, wie bei dir, unter 0,8, ist alles in Ordnung und du kannst ganz normal mit einer Regression fortfahren.
Viele Grüße, Björn.
Super Video. Eine Frage habe ich. Habe meine Panelregression (Multivariat) mittels FE-Methode durchgeführt. Habe keinen Intercept und deswegen kann ich keine VIF Werte ermitteln. Was kann ich nun tun? REM und Pooled Regression konnte ich im Vorfeld ausschließen.
Hallo und dann danke für dein Lob !
Soweit ich weiß und das auch selbst gerechnet habe, funktioniert die VIF-Werte-Funktion auch bei Panelmodellen mit FE-Schätzern. Ob eine konstante da ist oder nicht, ist unerheblich. Es sollte also funktionieren.
Viele Grüße, Björn.
Was ist denn mit hohen VIF Werten bei Dummy Variablen?? Die Dummy-Trap ist ja bei R quasi ausgeschlossen.
Wäre dir für Hilfe extrem dankbar.
Hallo Markus, hierzu eine direktes Zitat: "t is recommended that collinearity diagnostics be applied to the numeric predictors first to check for collinearity without the influence of any dummies, then add dummy variables in one at a time to see their effect on VIFs" aus Murray, Leigh; Nguyen, Hien; Lee, Yu-Feng; Remmenga, Marta D.; and Smith, David W. (2012). "VARIANCE INFLATION FACTORS IN REGRESSION MODELS WITH DUMMY VARIABLES
Viele Grüße, Björn.
Hallo! Erstmal danke für das hilfreiche Video :) Ich hätte noch zwei Fragen dazu: 1. Kann man Multikollinearität bei Kontrollvariablen ignorieren? 2. Was ist der Unterschied zwischen VIF, GVIF, GVIF GVIF^(1/(2*Df)? Gilt die Daumenregel mit Wert 10 für alle drei? Vielen Dank im Voraus!
Hallo Lana, danke für dein Lob!
Zu deinen Fragen:
1) Nein, das kann ein Problem sein. Die Frage ist, ist die Kontrollvariable redundant zu einer anderen Variable? Kann man sie also weglassen? Auf der einen Seite muss es nicht schlimm sein, wenn man Kontrollvariablen weglässt. Auf der anderen Seite gehören sie irgendwie dazu und wenn sie mit anderen Variablen (auch in der Grundgesamtheit) hoch korrelieren, dann ist das so. Da wäre ich pragmatisch, wenn es sich um keine redundanten Variablen handelt und sie drin lassen.
2) Normalerweise interpretierst du nur VIF, die anderen kannst du ignorieren. Für die speziellen Anwendungsfälle kannst du hier nachlesen: stats.stackexchange.com/questions/70679/which-variance-inflation-factor-should-i-be-using-textgvif-or-textgvif/96584 Der Co-Autor eines Papiers von GVIF hat sich dazu auch geäußert.
Viele Grüße, Björn.
Danke für das tolle Video! :) Man kann also entweder die VIF-Werte oder die Korrelationen der unabhängigen Variablen prüfen - beides ist ok?
Hallo, beides ist prinzipiell ok, bei den VIF-Werten sieht man aber eher, welche Variable Probleme macht. Bei der Korrelation sieht man ja nur eine hohe Korrelation zwischen zwei Variablen. Welche der beiden jetzt das Problem ist, kann man nur im Ausschluss testen. Mit VIF geht es also eigentlich besser.
Viele Grüße, Björn.