‼*ACHTUNG: Augrund eines Updates im Paket lmtest sollte bei der Schätzung der heteroskedastizitätskonsistenten Standardfehler mit coeftest() zusätzlich das sandwich-Paket mit library(sandwich) geladen sein. Der Code funktioniert dann weiterhin wie im Video gezeigt.* coeftest(model, vcov = vcovHC(model, type = "HC3"))
Ich habe eine Frage zu der Funktion: Wenn ich mein Modell aufgrund von Heteroskedastizität mit robusten Standardfehlern berechnen will, kann ich dann trotzdem das Bestimmtheitsmaß, das mir die Summary-Funktion ausgibt, verwenden? Denn die coef-Funktion gibt einem ja gar kein R² aus. Dabei könnte es doch rein theoretisch sein, dass ich ohne robuste Standardfehler einen Fehler 1. Art begehe, wodurch dann auch mein R² verzerrt wäre, oder? In meinem Fall ist es jetzt zum Glück so, dass die Koeffizienten auch mit robusten Standardfehlern signifikant bleiben. Heißt das, das normale R² ist unverzerrt und kann zur Interpretation herangezogen werden?
@@BlueBanana5000 Hallo, ja, du kannst das R² von summary() verwenden. Das R² bleibt bei der multiplen linearen Regression von Heteroskedastizität unberührt. Potentiell sind nur die Standardfehler der Koeffizienten verzerrt (sowie der p-Wert beim F-Test). Viele Grüße, Björn.
Hallo, vielen Dank für das tolle Video ☺ Das sind die gleichen Voraussetzungen wie bei einer moderierten Regression, oder? Und hast du eine mögliche Erklärung dafür, warum R bei mir die Sachen bei der Homoskedastizität und den Ausreißern nicht plotten möchte? Wofür steht die 4 in plot(Modell, 4) ? Außerdem: Falls bei mir die Linearität + Normalverteilung nicht gegeben ist, kann ich dann Bootstrapping machen oder ? Vielen Dank schonmal 🙂
Super Video!! Vielen Dank. Ohne dich würde ich nicht weiter wissen in einer Bachelorarbeit. Sind diese Voraussetzungen auch auf einfache Lineare Regressionen übertragbar?
Hallo Michelle, danke für dein Lob! Ja, die Voraussetzungen gelten auch für einfache lineare Regressionen. Die Multikollinearität ist jedoch hinfällig, weil diese erst ab 2 UV auftreten kann. Viele Grüße, Björn.
Hallo, Vielen Dank für dein Hilfreiches Video! Ich habe allerdings ein Problem bei der Anwendung des coefttest. Ich hatte auch Heteroskedastizität und habe deshalb es genauso gemacht wie du in dem Video. Bei mir kommt dann aber als Fehlermeldung HC3 covariances become numerically unstable of hat values are close to 1 as for obersvations: und dann werden 7 Beobachtungen aufgelistet. In Folge habe ich für alle meine unabhängigen Variablen als Standard Fehler, t-Wert und dieses Pr nur NaN stehen. Was soll ich jetzt machen?
Hallo Josy, der Fehler lässt sich nur schwer rekonstruieren. Ich habe aber festgestellt, dass zusätzlich das sandwich-Paket mit library(sandwich) geladen sein sollte, weil es sonst zu Problemen kommt. Evtl. löst sich deines damit ja auch. Viele Grüße, Björn.
Wieso prüft man die Voraussetzungen denn nicht direkt mit z-transformierten Werten? Macht man das immer erst mit den normalen Werten und die z-Transforrmation folgt dann nur für die Regression?
Weil das Stichwort "Panel" gefallen ist: Seit einiger Zeit beschäftige ich mit Paneldatenanalysen (also multiple Regressionen mit Paneldatensätzen) und finde hierzu kaum hilfreiche Literatur oder Videos. Ich arbeite mit SPSS und weiß mittlerweile grob, wie man die Daten für eine Berechnung anpasst (Format Long/Wide, Abweichung vom gruppenspezifischen Mittelwert etc.). Allerdings: Nach wie vor benötige ich Hilfe. Welche Voraussetzungen gelten bei Panelregressionen und wie prüfe ich diese mittels SPSS? Und wie finde ich heraus, welche Verfahren zu verwenden sind (Fixed/Random Effects)? Deine Videos sind immer sehr hilfreich. Und falls du noch weitere planst, wäre es klasse, wenn das Thema aufgegriffen werden könnte. Vielen Dank!
Video scheint top zu sein. Die CSV-Datei in deinem Blogbeitrag bedarf leider einger Anpassungen, damit sie eingelesen werden kann von R. Für einen Einsteiger wie mich schwierig bis ich den Datensatz zum Laufen gebracht habe. Bei mir werden 52 obs. und 18 variabeln angezeigt. Könntest du im Blogeintrag ergänzen, wie man diesen vorliegenden Datensatz anpassen muss?
Hallo und danke für dein Feedback. Die Datei muss im UTF-8-Format vorliegen. Ich habe das noch mal neu gespeichert und im Beitrag auch Infos zum Einlesen verlinkt. Viele Grüße, Björn.
Hallo Björn, Ich habe Panel-Daten vorliegen und würde gerne wissen welche Assumptions erfüllt sein müssen, damit ich eine multiple lineare Regression durchführen darf?! Gibt es modell-spezifische Assumptions (z.B. für Random Effect Model, Fixed Effect Model, OLS Model)? Wäre super wenn du auch hier ein Video machen könntest, wie man in R auf die jeweiligen Assumptions prüfen kann! Vielen Dank für deine Videos, die helfen mir wirklich extrem weiter!
Was kann mache ich falsch, wenn R mir beim platten immer die Fehlermeldung: fehler in plot: "'form' muss eine Formel sein" anzeigt? Wenn ich platte ohne 1,2,3 oder 4 dahinter zu schreiben funktioniert es :(
Wieder mal ein herausragend gutes Video, Danke dafür. Ganz am Ende bin ich nicht sicher, ob ich komplett mitkomme, weil wir ja im Prinzip drei Ergebnistabellen haben und dazwischen hin- und herspringen. Habe ich es korrekt verstanden: Wir nehmen die F-Statitsik und die Estimates beide von dem zmodell und die t- und p-Werte vom coeftest?
Danke fürs Feedback! Die F-Statistik als auch die Gütemaße sind identisch für modell und zmodell, ebenso die p-Werte der Koeffizienten. Letzere werden aber aus coeftest genommen, ebenso wie Standardfehler und t-Werte. Die Koeffizienten bei modell und coeftest sind identisch. Die Standardfehler, t-Werte und p-Werte werden aus coeftest genommen. Zusammengefasst empfehle ich folgendes zu verwenden: 1) R² und F-Test aus modell oder zmodell 2) Koeffizienten aus modell (identisch in coeftest, weil aus modell stammend) 3) Standardisierte Koeffizienten aus zmodell 4) Standardfehler, t-Werte und p-Werte der Koeffizienten aus coeftest. Viele Grüße, Björn.
Hey! Ich hätte eine Frage, mein Datenset stammt aus einer Umfrage, in der die Zufriedenheit von Anwendern mit einem IT System erfasst wird. Meine abhängige Variable ist die Gesamtzufriedenheit und meine unabhängigen Variablen Dinge wie Performance, Datenqualität etc. Bei manchen Variablen bekomme ich einen negativen Standard Koeffizienten. Das macht inhaltlich aber keinen Sinn. Bspw. würde laut dem Modell eine verbesserte Datenqualität zu einer geringeren Gesamtzufriedenheit führen (was ja keinen Sinn macht). Hast du einen Tipp wie ich mein Modell verbessern kann?
Was passiert, wenn ich ein Modell aufstelle, in dem einige Variablen insignifikant sind? Schmeiße ich diese Variablen anschließend aus dem Modell und stelle ein neues Modell nur mit den signifikanten Variablen auf?
Hallo Alex, nein, die bleiben drin. Je mehr du dein Modell nach jeder Rechnung änderst, desto mehr tust du so, als ob die Einflüsse nicht existieren. Das führt aufgrund der Interkorrelation zwischen den UV auch dazu, dass sich die Signifikanzen immer wieder ändern. Also Faustregel: Modell einmal wie aufgestellt rechnen und interpretieren. Viele Grüße, Björn.
Vielen Dank für das tolle Video! Ich wollte Dich fragen, ob Du vielleicht sagen kannst, wie man bei den Befehl coeftest(model, vcov = vcovHC(model, type = "HC3")) sich den standardisierten Koeffizienten anzeigen lassen kann ?
Hallo, das geht nicht. Die Koeffizienten - ob standardisiert oder nicht - ändern sich bei Berechnung robuster Standardfehler NICHT. Viele Grüße, Björn.
Hallo, ich habe folgendes Problem: Mein Datensatz enthält zehn unabhängige Variablen. Hiervon sind neun Kardinalskaliert und eine ist Nominalskaliert mit 0 und 1. Kann diese eine bivariate unabhängige Variable problemlos in die Berechnungen (z.B. multiple lineare Regression in R) mit einfließen oder muss ich diese vorher löschen, damit das Ergebnis nicht verunreinigt wird. Bin für jede Hilfe dankbar 🙏🏼
Vielen Dank für das tolle Video! Ich hätte hierzu noch eine Frage. Wieso hast du beide Prädikatorvariablen in deinem Modell und damit die Voraussetzungen untersucht? Müsste man nicht die Voraussetzungen jeweils separat für die Prädikatorvariablen untersuchen, sprich ein Modell aufstellen mit einer einfach Regression? Ich habe nämlich in meiner Arbeit drei Prädikatorvariablen gehabt und jeweils separat eine einfach Regression für jede Prädikatorvariable durchgeführt und für jede Regression separat die Voraussetzung geprüft. Als die Voraussetzungen gegeben waren habe ich anschließend die multiple Regression durchgeführt. Ich hoffe, dass ich meine Frage etwas verständlich formuliert habe. Über eine Rückmeldung wäre ich dir sehr dankbar.
Hallo Yusuf, wenn deine Hypothesen auf Basis des multiplen Regressionsmodells geprüft werden, sind die Rechnungen zu einfachen linearen Regressionsmodellen nicht notwendig. Du kannst also für dein eines multiples Modell direkt die Voraussetzungen und das Modell rechnen. Die meisten Voraussetzungen beziehen sich auf die Residuen des jeweiligen Modells, welche sich erst im Zusammenspiel der verschiedenen UV ergeben und dann geprüft werden (müssen). Viele Grüße, Björn.
Hallo Steffen, es ist vom Typ LOWESS (locally weighted scatterplot smoothing). Ein spezieller Name für die Linie an sich ist mir nicht bekannt. Viele Grüße, Björn.
Das Video ist echt klasse! Kannst du evtl. ein Video machen, wie man robuste Standardfehler als Stargazertabelle ausgeben lassen kann... es funktioniert nur ohne, aber nicht mit robusten Std. Fehlern...
Hallo Daniel, ja, das ist noch eine Baustelle, die man über stargazer nicht behoben bekommt. Das ist ein Thema für Markdown. Da werde ich in naher Zukunft etwas zu aufnehmen. Viele Grüße, Björn.
@@StatistikamPC_BjoernWalther Ich habe mir das Modell dann immer mit Modelsummary ausgeben lassen, aber Stargazer sieht einfach deutlich besser aus :) Wäre klasse, wenn du über das Problem zeitnah ein Video machen könntest!:) Wie immer danke dir!!:)
Vielen Dank für die Erklärung! Ich hätte eine Frage: was ist wenn ich eine abhängige variable habe eine Test variabel und mehrere unabhängige variablen? Wird mein Test variable als unabhängige variable in dem Programm aufgenommen ? Vielen Dank!
Hallo, wenn ich dich richtig verstehe, hast du eigentlich nur eine Variable, deren Einfluss dich interessiert (Testvariable) und die anderen unabhängigen Variablen laufen nur mit, weswegen man sie auch als Kontrollvariablen bezeichnen könnte. Alle Variablen werden als normale UV mit ins Modell aufgenommen. Viele Grüße, Björn.
Ich habe bei meinem Vif-Befehl diese Fehlermeldung: > vif(modell) Fehler in vif.default(modell): there are aliased coefficients in the model Wie finde ich jetzt heraus welche aliased sind?
Hallo, die Meldung bekommst du idR dann, wenn zwei oder mehr Variablen sehr hoch oder perfekt korrelieren. Um herauszufinden, welche das sind, reicht eine einfache Korrelationstabelle derer. Inhaltlich kannst du das aber vermutlich auch ablesen, wenn du dir die Konstrukte und deren Bedeutung noch mal genauer anschaust. Viele Grüße, Björn.
Hallo, man kann bei großen Stichproben die Prüfung vernachlässigen, wahlweise auch Bootstrap anwenden oder transformieren. Tendenziell kann beim Einsatz von robusten Verfahren wie Bootstrap weniger schiefgehen als bei Transformation. vgl. Field (2012) Discovering Statistics Using R, S. 202. Viele Grüße, Björn.
Danke für das tolle Video! Ich habe eine Frage: beim Befehl coeftest hast du vcov=vcovHC() verwendet. Wenn ich das bei mir im R verwende, kommt die Fehlermeldung could not find function "vcovHC" . Weisst du, ob der folgende Befehl dasselbe Resultat ausspuckt? coeftest(modell, vcov. = vcov(modell, type="HC3")) Oder hast du eine Idee, wieso das bei mir nicht so funktioniert wie bei dir?😊
Hallo Jasmin, in Version 0.9-35 von lmtest wurde das tatsächlich geändert :"The default coeftest() method -- and also coefci() -- now pass the ... arguments on to the vcov.() function argument (if any)." Allerdings kann der Code weiterhin verwendet werden, wenn das sandwich-Paket geladen wird: library(sandwich) Viele Grüße, Björn.
Hallo, das Modell leistet einen Erklärungsbeitrag bzgl. der Stichprobe und da du eine lineare Regression schätzt, muss es zwingend eine Mindestreliabilität aufweisen, da sonst der F-Test fehlschlägt. Viele Grüße, Björn.
Vielen Dank für das tolle Video! Ich habe leider noch nicht verstanden, wie ich es richtig interpretieren bzw. im Text beschreiben muss, wenn einige der Koeffizienten signifikant sind und andere nicht... In meinem Fall sind nur 2 von 10 Variablen signifikant. Wenn gleichzeitig die F-Statistik hocisgnifikant ist und R² = .80, bedeutet das dann, dass der Erklärungsbeitrag des gesamtmodells zwar groß ist, aber die Vorhersagekraft klein? Vielen Dank schonmal!
Hallo, aber gerne doch. Die nicht signifikanten Variablen konnten schlicht nicht als Einflussfaktoren für die AV identifiziert werden. Beim Berichten beschränkt man sich zunächst auf die signifikanten UV. In der Diskussion erörtert man dann schließlich Gründe, warum sie nicht signifikant geworden sein könnten. Das Modell hat mit R² = .8 einen sehr hohen Aufklärungsgehalt der Varianz der AV, also es passt sehr gut zu den Daten und umgekehrt. Die Vorhersagekraft ist damit entsprechend hoch. Die Generalisierbarkeit der Erkenntnisse ist das einzige Hindernis auch direkt eine hohe Vorhersagekraft zu attestieren. Viele Grüße, Björn.
Hallo=) Beim Output wird ja nur der Estimate, also das unstandardisierte b angegeben. Wie komme ich denn zum beta-gewacht, also dem standardisierten maß?
Hallo, vielen Dank für das hilfreiche Video. Ich habe beim Testen auf Multikollinearität festgestellt, dass es besser ist wenn ich eine Variable aus meinem multiplen Modell ausschließe. Was aber, wenn ich trotzdem die Abhängigkeit meiner abhängigen Variable von dieser wissen möchte? Kann ich dazu dann nochmals eine einfache lineare Regression oder ein anderes Modell laufen lassen oder würde dies alles verfälschen?
Hallo Xara, die Multikollinearitätsdiagnose soll ja erstmal nur einen Hinweis darauf geben, ob evtl. eine sehr hohe Abhängigkeit zwischen den UV existtiert. Ist diese gegeben, sollte nach inhaltlichen Gründen gesucht werden, warum dies sein könnte und ob zwei Konstrukte das selbe messen. Wenn dies der Fall ist, ist die Frage nach der Abhängigkeit ja schon beantwortet. Wenn sie "einfach nur" hoch miteinander korrelieren ohne dasselbe Konstrukt zu messen, würde ich mir die Frage stellen, ob dies in der Realität auch zu erwarten ist. Wenn die UV in der Regression ausgeschlossen ist, du aber trotzdem Richtung und SIgnifikanz des Einflusses wissen möchtest, kannst du auf eine Partialkorrelation ausweichen. Viele Grüße, Björn.
Super Video! :) Müssen die Voraussetzungen für die multiple Regressionsanalyse immer im Modell berechnet werden oder kann man die auch pro Variable einzeln berechnen? Falls das nur im Modell geht, wieso? Das habe ich noch nicht verstanden..
Hallo, die Voraussetzungen wie normalverteilte Residuen oder homskedastische Residuen können nur auf Basis des Modells, also nach dessen Rechnung beurteilt werden. Die Residuen sind der Unterschiedsbetrag zwischen dem tatsächlichen y-Wert und dem durch das Modell geschätzten y-Wert. Letzteres verlangt daher zwingend, dass das Modell berechnet wurde. Viele Grüße, Björn.
Hallo Björn, könntest du zufällig den R-Code für die Ergebnistabelle teilen (falls du diese in R erstellt hast)? Das wäre super! Danke für das hilfreiche Video!
Hallo Tom, die Tabelle habe ich lediglich in Excel nachgebaut. Man kann über RMarkdown oder das Paket stargazer (ähnlcihe Outputs generieren) lassen. Stargazer-Tutorial: ruclips.net/video/SQtQkVDl4xU/видео.html Viele Grüße, Björn.
Ich habe 3 verschiedene Regressionen mit unetrschiedlichen Kriterien gerechnet, bei einer ist von mehreren Prädiktoren einer signifikant geworden und zusätzlich das Intercept. Das Intercept ist inhaltlich nicht sinnvoll zu interpretieren; was bedeutet es nun, dass es bei dieser einen Regression signifikant geworden ist und bei den anderen beiden nicht? Bedeutet das, dass ein Interaktionseffekt vorliegt? Wenn ja, wie kann ich das weiter analysieren? Deine Videos retten meine Bachelorarbeit, vielen Dank!
Hallo, die Signifikanz des Intercepts sagts nichts aus, auch nicht über einen Interationseffekt zweier UV. Das müsste man explizit im Vorfeld herleiten und dann im Modell testen. Ansonsten ist das beliebig und jeder Gutachter macht dir da ein Fragezeichen dran, wie du auf die Idee kamst. Wenn es also keinen Grund zur Annahme / Herleitung der Existenz einer Interaktion und damit eine Hypothese hierfür gibt, testet man das nicht. Viele Grüße, Björn.
Hallo, sehr vielen Dank für die informative videos. Ich wollte wissen wie mann testen kann ob bei einer multiplen regression oder bei einer einfachen regression die Beziehung zwischen der abhängigen und der(die) unabhängige Variable (Variablen) linear oder nicht linear ist. Für eine einzige variable benutzen manche dehn Harvey et al. (2008) linearty test. Ich würde mich sehr freuen wenn Sie auch ein Video mitteilen wie man dehb Nonlinear OLS (also mit I(0) Variablen) durchfüren kann? Zumbeispiel wie man die LSTAR und ESTAR modelle schätzen kann. Und welche diagnostische Tests mann durchführen muss.Ausserdem wollte Ich wissen wie mann Beziehung bei nicht stationâren variablen -I(1) also die Beziehung bei der Kointegration auf linerität testen kann.
Hallo Mehmet, ich würde bei einer linearen Regression von einem Test auf Linearität abraten - Tests werden bei zunehmender Stichprobengröße zu sensitiv und die Wahrscheinlichkeit für einen Fehler 1. Art steigt stark an. Man kann anstelle dessen ein Streudiagramm von UV und AV anschauen und hier bei ungefährer Linearität, dies als erfüllt ansehen (funktioniert nur für metrische Variablen, ordinal eingeschränkt je nach Anzahl der Ausprägungen). Im Endeffekt sagt dir aber schon ein signifikanter F-Test, ob das Modell auf die Daten passt und damit auch, ob es hinreichend linear ist. Mit den von dir genannten autoregressiven Modellen kenne ich mich leider zu wenig aus, da meine Disziplin selten darauf zurückgreift. Längsschnittmodellierungen generell sind noch mal ein anderes Thema - ich schmökere zwar regelmäßig bei Wooldridge (Econometric Analysis of Cross Section and Panel Data), würde aber auch hier analog zur normalen linearen Regression vorgehen. Viele Grüße, Björn.
Kann diese Vorgehensweise generell auch zur Prüfung der Voraussetzung einer Moderatorvariable eingesetzt werden? Demnach hätte der Datensatz aber ein *, statt ein + zwischen IQ und Motivation. Und ich habe das mal mit meinem Datensatz durchgespielt. Die Multikollinearität wäre ja ganz furchtbar hoch. Einige Daten wäre auch ein wenig anders. Dein Video zur Moderation in R ist KLASSE übrigens :)
Hallo Jennifer, genau, bei der Moderation fügst du einfach ein * zwischen die X und M-Variable ein. X und M werden dann von R stets noch mal separat als UV aufgenommen. Multikollinearität ist bei einer Moderation zwangsweise vorhanden, weil eine UV ja das Produkt zweier anderer UV ist. Das ist mathematisch unumgänglich und stellt in dem Rahmen kein Problem dar, wie es bei anderen UV der Fall wäre, wenn diese "nichts miteinander zu tun haben sollten". Viele Grüße, Björn.
Hallo Björn, leider habe ich bei meiner Moderatoranalyse Multikollinearität festgestellt (UV=Digitaler Stress, AV=Arbeitszufriedenheit, Moderator=Berufl. Selbstwirksamkeit). Du meinst, dass Multikollinearität bei einer Moderation zwangsweise vorhanden ist... Gibt es dafür Literatur oder etwas zum Zitieren für meiner Masterthesis? Ich bin leider gerade etwas am verzweifeln und weiß nicht, was ich tun soll :D
‼*ACHTUNG: Augrund eines Updates im Paket lmtest sollte bei der Schätzung der heteroskedastizitätskonsistenten Standardfehler mit coeftest() zusätzlich das sandwich-Paket mit library(sandwich) geladen sein. Der Code funktioniert dann weiterhin wie im Video gezeigt.*
coeftest(model, vcov = vcovHC(model, type = "HC3"))
Ich habe eine Frage zu der Funktion: Wenn ich mein Modell aufgrund von Heteroskedastizität mit robusten Standardfehlern berechnen will, kann ich dann trotzdem das Bestimmtheitsmaß, das mir die Summary-Funktion ausgibt, verwenden? Denn die coef-Funktion gibt einem ja gar kein R² aus. Dabei könnte es doch rein theoretisch sein, dass ich ohne robuste Standardfehler einen Fehler 1. Art begehe, wodurch dann auch mein R² verzerrt wäre, oder? In meinem Fall ist es jetzt zum Glück so, dass die Koeffizienten auch mit robusten Standardfehlern signifikant bleiben. Heißt das, das normale R² ist unverzerrt und kann zur Interpretation herangezogen werden?
@@BlueBanana5000 Hallo, ja, du kannst das R² von summary() verwenden. Das R² bleibt bei der multiplen linearen Regression von Heteroskedastizität unberührt. Potentiell sind nur die Standardfehler der Koeffizienten verzerrt (sowie der p-Wert beim F-Test).
Viele Grüße, Björn.
Das Video bietet die am besten und übersichtlichste Erklärung zu dem Thema. Perfekt. Vielen Dank.
Danke für das Lob und Feedback!
Viele Grüße und weiterhin viel Erfolg!
Björn.
Vielen Dank! Mal wieder super hilfreich gewesen.
Das freut mich zu hören!
Viele Grüße, Björn.
Ein wirklich mega geil informatives Video! Hast mir sehr bei meiner BA geholfen.
Wirklich sehr informativ und hilfreich! Danke dir :) !
Super Video, hat mir wie immer sehr geholfen! :)
Das freut mich!
Super hilfreich, vielen Dank!
Sehr guter Erklärwert und Qualität. Vielen Dank. So schaffe ich die Ökonometrie Hausarbeit:)
Danke für das Lob und viel Erfolg weiterhin!
Viele Grüße, Björn.
Hallo, vielen Dank für das tolle Video ☺
Das sind die gleichen Voraussetzungen wie bei einer moderierten Regression, oder?
Und hast du eine mögliche Erklärung dafür, warum R bei mir die Sachen bei der Homoskedastizität und den Ausreißern nicht plotten möchte? Wofür steht die 4 in plot(Modell, 4) ?
Außerdem: Falls bei mir die Linearität + Normalverteilung nicht gegeben ist, kann ich dann Bootstrapping machen oder ?
Vielen Dank schonmal 🙂
Super Video!! Vielen Dank. Ohne dich würde ich nicht weiter wissen in einer Bachelorarbeit. Sind diese Voraussetzungen auch auf einfache Lineare Regressionen übertragbar?
Hallo Michelle, danke für dein Lob! Ja, die Voraussetzungen gelten auch für einfache lineare Regressionen. Die Multikollinearität ist jedoch hinfällig, weil diese erst ab 2 UV auftreten kann.
Viele Grüße, Björn.
@@StatistikamPC_BjoernWalther vielen lieben Dank! 🙏
Hallo,
Vielen Dank für dein Hilfreiches Video!
Ich habe allerdings ein Problem bei der Anwendung des coefttest. Ich hatte auch Heteroskedastizität und habe deshalb es genauso gemacht wie du in dem Video. Bei mir kommt dann aber als Fehlermeldung HC3 covariances become numerically unstable of hat values are close to 1 as for obersvations: und dann werden 7 Beobachtungen aufgelistet. In Folge habe ich für alle meine unabhängigen Variablen als Standard Fehler, t-Wert und dieses Pr nur NaN stehen. Was soll ich jetzt machen?
Hallo Josy, der Fehler lässt sich nur schwer rekonstruieren. Ich habe aber festgestellt, dass zusätzlich das sandwich-Paket mit library(sandwich) geladen sein sollte, weil es sonst zu Problemen kommt. Evtl. löst sich deines damit ja auch.
Viele Grüße, Björn.
frag Chat GPT
Super video, danke :)
Ich danke dir!
Wieso prüft man die Voraussetzungen denn nicht direkt mit z-transformierten Werten? Macht man das immer erst mit den normalen Werten und die z-Transforrmation folgt dann nur für die Regression?
Weil das Stichwort "Panel" gefallen ist: Seit einiger Zeit beschäftige ich mit Paneldatenanalysen (also multiple Regressionen mit Paneldatensätzen) und finde hierzu kaum hilfreiche Literatur oder Videos. Ich arbeite mit SPSS und weiß mittlerweile grob, wie man die Daten für eine Berechnung anpasst (Format Long/Wide, Abweichung vom gruppenspezifischen Mittelwert etc.). Allerdings: Nach wie vor benötige ich Hilfe. Welche Voraussetzungen gelten bei Panelregressionen und wie prüfe ich diese mittels SPSS? Und wie finde ich heraus, welche Verfahren zu verwenden sind (Fixed/Random Effects)? Deine Videos sind immer sehr hilfreich. Und falls du noch weitere planst, wäre es klasse, wenn das Thema aufgegriffen werden könnte. Vielen Dank!
ja genau das brauche ich auch, wie man in R eine Fixed Fixed Effects Panelregression rechnet und man diese als Tablle erhält
habt ihr gute Tutorials zur Panel Regressions in R gefunden? @@danielc8171
Video scheint top zu sein. Die CSV-Datei in deinem Blogbeitrag bedarf leider einger Anpassungen, damit sie eingelesen werden kann von R. Für einen Einsteiger wie mich schwierig bis ich den Datensatz zum Laufen gebracht habe. Bei mir werden 52 obs. und 18 variabeln angezeigt. Könntest du im Blogeintrag ergänzen, wie man diesen vorliegenden Datensatz anpassen muss?
Hallo und danke für dein Feedback. Die Datei muss im UTF-8-Format vorliegen. Ich habe das noch mal neu gespeichert und im Beitrag auch Infos zum Einlesen verlinkt.
Viele Grüße, Björn.
Hallo Björn,
Ich habe Panel-Daten vorliegen und würde gerne wissen welche Assumptions erfüllt sein müssen, damit ich eine multiple lineare Regression durchführen darf?!
Gibt es modell-spezifische Assumptions (z.B. für Random Effect Model, Fixed Effect Model, OLS Model)?
Wäre super wenn du auch hier ein Video machen könntest, wie man in R auf die jeweiligen Assumptions prüfen kann!
Vielen Dank für deine Videos, die helfen mir wirklich extrem weiter!
Was kann mache ich falsch, wenn R mir beim platten immer die Fehlermeldung: fehler in plot: "'form' muss eine Formel sein" anzeigt? Wenn ich platte ohne 1,2,3 oder 4 dahinter zu schreiben funktioniert es :(
Wieder mal ein herausragend gutes Video, Danke dafür. Ganz am Ende bin ich nicht sicher, ob ich komplett mitkomme, weil wir ja im Prinzip drei Ergebnistabellen haben und dazwischen hin- und herspringen. Habe ich es korrekt verstanden: Wir nehmen die F-Statitsik und die Estimates beide von dem zmodell und die t- und p-Werte vom coeftest?
Danke fürs Feedback!
Die F-Statistik als auch die Gütemaße sind identisch für modell und zmodell, ebenso die p-Werte der Koeffizienten. Letzere werden aber aus coeftest genommen, ebenso wie Standardfehler und t-Werte. Die Koeffizienten bei modell und coeftest sind identisch. Die Standardfehler, t-Werte und p-Werte werden aus coeftest genommen.
Zusammengefasst empfehle ich folgendes zu verwenden:
1) R² und F-Test aus modell oder zmodell
2) Koeffizienten aus modell (identisch in coeftest, weil aus modell stammend)
3) Standardisierte Koeffizienten aus zmodell
4) Standardfehler, t-Werte und p-Werte der Koeffizienten aus coeftest.
Viele Grüße, Björn.
Könntest du ein Video zur Poisson Regression machen? verzweifle da etwas dran...
Hey!
Ich hätte eine Frage, mein Datenset stammt aus einer Umfrage, in der die Zufriedenheit von Anwendern mit einem IT System erfasst wird.
Meine abhängige Variable ist die Gesamtzufriedenheit und meine unabhängigen Variablen Dinge wie Performance, Datenqualität etc.
Bei manchen Variablen bekomme ich einen negativen Standard Koeffizienten. Das macht inhaltlich aber keinen Sinn.
Bspw. würde laut dem Modell eine verbesserte Datenqualität zu einer geringeren Gesamtzufriedenheit führen (was ja keinen Sinn macht).
Hast du einen Tipp wie ich mein Modell verbessern kann?
Hallo, wie sehen denn die unstandardisierten Koeffizienten aus?
Viele Grüße, Björn.
Was passiert, wenn ich ein Modell aufstelle, in dem einige Variablen insignifikant sind? Schmeiße ich diese Variablen anschließend aus dem Modell und stelle ein neues Modell nur mit den signifikanten Variablen auf?
Hallo Alex, nein, die bleiben drin. Je mehr du dein Modell nach jeder Rechnung änderst, desto mehr tust du so, als ob die Einflüsse nicht existieren. Das führt aufgrund der Interkorrelation zwischen den UV auch dazu, dass sich die Signifikanzen immer wieder ändern. Also Faustregel: Modell einmal wie aufgestellt rechnen und interpretieren.
Viele Grüße, Björn.
Du könntest möglicherweise eine Modelloptimierung durchführen.
Vielen Dank für das tolle Video! Ich wollte Dich fragen, ob Du vielleicht sagen kannst, wie man bei den Befehl coeftest(model, vcov = vcovHC(model, type = "HC3")) sich den standardisierten Koeffizienten anzeigen lassen kann ?
Hallo, das geht nicht. Die Koeffizienten - ob standardisiert oder nicht - ändern sich bei Berechnung robuster Standardfehler NICHT.
Viele Grüße, Björn.
Hallo, ich habe folgendes Problem: Mein Datensatz enthält zehn unabhängige Variablen. Hiervon sind neun Kardinalskaliert und eine ist Nominalskaliert mit 0 und 1. Kann diese eine bivariate unabhängige Variable problemlos in die Berechnungen (z.B. multiple lineare Regression in R) mit einfließen oder muss ich diese vorher löschen, damit das Ergebnis nicht verunreinigt wird. Bin für jede Hilfe dankbar 🙏🏼
Hallo, jedwede Variable kann aufgenommen werden. Verfälschungen gibt es in dem Sinne nicht.
Viele Grüße, Björn.
Vielen Dank für das tolle Video!
Ich hätte hierzu noch eine Frage. Wieso hast du beide Prädikatorvariablen in deinem Modell und damit die Voraussetzungen untersucht? Müsste man nicht die Voraussetzungen jeweils separat für die Prädikatorvariablen untersuchen, sprich ein Modell aufstellen mit einer einfach Regression? Ich habe nämlich in meiner Arbeit drei Prädikatorvariablen gehabt und jeweils separat eine einfach Regression für jede Prädikatorvariable durchgeführt und für jede Regression separat die Voraussetzung geprüft. Als die Voraussetzungen gegeben waren habe ich anschließend die multiple Regression durchgeführt.
Ich hoffe, dass ich meine Frage etwas verständlich formuliert habe. Über eine Rückmeldung wäre ich dir sehr dankbar.
Hallo Yusuf, wenn deine Hypothesen auf Basis des multiplen Regressionsmodells geprüft werden, sind die Rechnungen zu einfachen linearen Regressionsmodellen nicht notwendig. Du kannst also für dein eines multiples Modell direkt die Voraussetzungen und das Modell rechnen. Die meisten Voraussetzungen beziehen sich auf die Residuen des jeweiligen Modells, welche sich erst im Zusammenspiel der verschiedenen UV ergeben und dann geprüft werden (müssen).
Viele Grüße, Björn.
@@StatistikamPC_BjoernWalther Super, vielen lieben Dank!
Vielen Dank für das Video! Eine Frage hätte ich noch, gibt es einen Namen für die rote Linie im Residuals vs. Fittet plot?
Hallo Steffen, es ist vom Typ LOWESS (locally weighted scatterplot smoothing). Ein spezieller Name für die Linie an sich ist mir nicht bekannt.
Viele Grüße, Björn.
Danke 🙏☺️
Das Video ist echt klasse!
Kannst du evtl. ein Video machen, wie man robuste Standardfehler als Stargazertabelle ausgeben lassen kann... es funktioniert nur ohne, aber nicht mit robusten Std. Fehlern...
Hallo Daniel, ja, das ist noch eine Baustelle, die man über stargazer nicht behoben bekommt. Das ist ein Thema für Markdown. Da werde ich in naher Zukunft etwas zu aufnehmen.
Viele Grüße, Björn.
@@StatistikamPC_BjoernWalther Ich habe mir das Modell dann immer mit Modelsummary ausgeben lassen, aber Stargazer sieht einfach deutlich besser aus :) Wäre klasse, wenn du über das Problem zeitnah ein Video machen könntest!:) Wie immer danke dir!!:)
Vielen Dank für die Erklärung! Ich hätte eine Frage: was ist wenn ich eine abhängige variable habe eine Test variabel und mehrere unabhängige variablen? Wird mein Test variable als unabhängige variable in dem Programm aufgenommen ?
Vielen Dank!
Hallo, wenn ich dich richtig verstehe, hast du eigentlich nur eine Variable, deren Einfluss dich interessiert (Testvariable) und die anderen unabhängigen Variablen laufen nur mit, weswegen man sie auch als Kontrollvariablen bezeichnen könnte. Alle Variablen werden als normale UV mit ins Modell aufgenommen.
Viele Grüße, Björn.
Ich habe bei meinem Vif-Befehl diese Fehlermeldung:
> vif(modell)
Fehler in vif.default(modell): there are aliased coefficients in the model
Wie finde ich jetzt heraus welche aliased sind?
Hallo, die Meldung bekommst du idR dann, wenn zwei oder mehr Variablen sehr hoch oder perfekt korrelieren. Um herauszufinden, welche das sind, reicht eine einfache Korrelationstabelle derer. Inhaltlich kannst du das aber vermutlich auch ablesen, wenn du dir die Konstrukte und deren Bedeutung noch mal genauer anschaust.
Viele Grüße, Björn.
Vielen Dank für das hilfreiche Video! Was genau soll man machen, wenn die Normalverteilung der Residuen nicht gegeben sein sollte?
Hallo, man kann bei großen Stichproben die Prüfung vernachlässigen, wahlweise auch Bootstrap anwenden oder transformieren. Tendenziell kann beim Einsatz von robusten Verfahren wie Bootstrap weniger schiefgehen als bei Transformation. vgl. Field (2012) Discovering Statistics Using R, S. 202.
Viele Grüße, Björn.
Danke für das tolle Video!
Ich habe eine Frage: beim Befehl coeftest hast du vcov=vcovHC() verwendet. Wenn ich das bei mir im R verwende, kommt die Fehlermeldung could not find function "vcovHC" . Weisst du, ob der folgende Befehl dasselbe Resultat ausspuckt?
coeftest(modell, vcov. = vcov(modell, type="HC3"))
Oder hast du eine Idee, wieso das bei mir nicht so funktioniert wie bei dir?😊
Hallo Jasmin, in Version 0.9-35 von lmtest wurde das tatsächlich geändert :"The default coeftest() method -- and also coefci() -- now pass the ... arguments on to the vcov.() function argument (if any)."
Allerdings kann der Code weiterhin verwendet werden, wenn das sandwich-Paket geladen wird: library(sandwich)
Viele Grüße, Björn.
Hallo!
Heißt das, wenn in der F-Statistik der p-Wert
Hallo, das Modell leistet einen Erklärungsbeitrag bzgl. der Stichprobe und da du eine lineare Regression schätzt, muss es zwingend eine Mindestreliabilität aufweisen, da sonst der F-Test fehlschlägt.
Viele Grüße, Björn.
Vielen Dank für das tolle Video! Ich habe leider noch nicht verstanden, wie ich es richtig interpretieren bzw. im Text beschreiben muss, wenn einige der Koeffizienten signifikant sind und andere nicht... In meinem Fall sind nur 2 von 10 Variablen signifikant. Wenn gleichzeitig die F-Statistik hocisgnifikant ist und R² = .80, bedeutet das dann, dass der Erklärungsbeitrag des gesamtmodells zwar groß ist, aber die Vorhersagekraft klein?
Vielen Dank schonmal!
Hallo, aber gerne doch.
Die nicht signifikanten Variablen konnten schlicht nicht als Einflussfaktoren für die AV identifiziert werden. Beim Berichten beschränkt man sich zunächst auf die signifikanten UV. In der Diskussion erörtert man dann schließlich Gründe, warum sie nicht signifikant geworden sein könnten. Das Modell hat mit R² = .8 einen sehr hohen Aufklärungsgehalt der Varianz der AV, also es passt sehr gut zu den Daten und umgekehrt. Die Vorhersagekraft ist damit entsprechend hoch. Die Generalisierbarkeit der Erkenntnisse ist das einzige Hindernis auch direkt eine hohe Vorhersagekraft zu attestieren.
Viele Grüße, Björn.
Hallo=)
Beim Output wird ja nur der Estimate, also das unstandardisierte b angegeben. Wie komme ich denn zum beta-gewacht, also dem standardisierten maß?
Video bis zum Ende gucken hat schon geholfen! also die z-standardisierten estimates sind die Beta-Gewichte!
Hallo, vielen Dank für das hilfreiche Video.
Ich habe beim Testen auf Multikollinearität festgestellt, dass es besser ist wenn ich eine Variable aus meinem multiplen Modell ausschließe. Was aber, wenn ich trotzdem die Abhängigkeit meiner abhängigen Variable von dieser wissen möchte? Kann ich dazu dann nochmals eine einfache lineare Regression oder ein anderes Modell laufen lassen oder würde dies alles verfälschen?
Hallo Xara, die Multikollinearitätsdiagnose soll ja erstmal nur einen Hinweis darauf geben, ob evtl. eine sehr hohe Abhängigkeit zwischen den UV existtiert. Ist diese gegeben, sollte nach inhaltlichen Gründen gesucht werden, warum dies sein könnte und ob zwei Konstrukte das selbe messen. Wenn dies der Fall ist, ist die Frage nach der Abhängigkeit ja schon beantwortet. Wenn sie "einfach nur" hoch miteinander korrelieren ohne dasselbe Konstrukt zu messen, würde ich mir die Frage stellen, ob dies in der Realität auch zu erwarten ist. Wenn die UV in der Regression ausgeschlossen ist, du aber trotzdem Richtung und SIgnifikanz des Einflusses wissen möchtest, kannst du auf eine Partialkorrelation ausweichen.
Viele Grüße, Björn.
Super Video! :) Müssen die Voraussetzungen für die multiple Regressionsanalyse immer im Modell berechnet werden oder kann man die auch pro Variable einzeln berechnen? Falls das nur im Modell geht, wieso? Das habe ich noch nicht verstanden..
Hallo, die Voraussetzungen wie normalverteilte Residuen oder homskedastische Residuen können nur auf Basis des Modells, also nach dessen Rechnung beurteilt werden. Die Residuen sind der Unterschiedsbetrag zwischen dem tatsächlichen y-Wert und dem durch das Modell geschätzten y-Wert. Letzteres verlangt daher zwingend, dass das Modell berechnet wurde.
Viele Grüße, Björn.
Hallo Björn,
könntest du zufällig den R-Code für die Ergebnistabelle teilen (falls du diese in R erstellt hast)? Das wäre super! Danke für das hilfreiche Video!
Hallo Tom, die Tabelle habe ich lediglich in Excel nachgebaut. Man kann über RMarkdown oder das Paket stargazer (ähnlcihe Outputs generieren) lassen. Stargazer-Tutorial: ruclips.net/video/SQtQkVDl4xU/видео.html
Viele Grüße, Björn.
Ich habe 3 verschiedene Regressionen mit unetrschiedlichen Kriterien gerechnet, bei einer ist von mehreren Prädiktoren einer signifikant geworden und zusätzlich das Intercept. Das Intercept ist inhaltlich nicht sinnvoll zu interpretieren; was bedeutet es nun, dass es bei dieser einen Regression signifikant geworden ist und bei den anderen beiden nicht?
Bedeutet das, dass ein Interaktionseffekt vorliegt? Wenn ja, wie kann ich das weiter analysieren?
Deine Videos retten meine Bachelorarbeit, vielen Dank!
Hallo, die Signifikanz des Intercepts sagts nichts aus, auch nicht über einen Interationseffekt zweier UV. Das müsste man explizit im Vorfeld herleiten und dann im Modell testen. Ansonsten ist das beliebig und jeder Gutachter macht dir da ein Fragezeichen dran, wie du auf die Idee kamst. Wenn es also keinen Grund zur Annahme / Herleitung der Existenz einer Interaktion und damit eine Hypothese hierfür gibt, testet man das nicht.
Viele Grüße, Björn.
@@StatistikamPC_BjoernWalther Vielen Dank und beste Grüße!!
Hallo, sehr vielen Dank für die informative videos. Ich wollte wissen wie mann testen kann ob bei einer multiplen regression oder bei einer einfachen regression die Beziehung zwischen der abhängigen und der(die) unabhängige Variable (Variablen) linear oder nicht linear ist. Für eine einzige variable benutzen manche dehn Harvey et al. (2008) linearty test. Ich würde mich sehr freuen wenn Sie auch ein Video mitteilen wie man dehb Nonlinear OLS (also mit I(0) Variablen) durchfüren kann? Zumbeispiel wie man die LSTAR und ESTAR modelle schätzen kann. Und welche diagnostische Tests mann durchführen muss.Ausserdem wollte Ich wissen wie mann Beziehung bei nicht stationâren variablen -I(1) also die Beziehung bei der Kointegration auf linerität testen kann.
Hallo Mehmet, ich würde bei einer linearen Regression von einem Test auf Linearität abraten - Tests werden bei zunehmender Stichprobengröße zu sensitiv und die Wahrscheinlichkeit für einen Fehler 1. Art steigt stark an. Man kann anstelle dessen ein Streudiagramm von UV und AV anschauen und hier bei ungefährer Linearität, dies als erfüllt ansehen (funktioniert nur für metrische Variablen, ordinal eingeschränkt je nach Anzahl der Ausprägungen). Im Endeffekt sagt dir aber schon ein signifikanter F-Test, ob das Modell auf die Daten passt und damit auch, ob es hinreichend linear ist.
Mit den von dir genannten autoregressiven Modellen kenne ich mich leider zu wenig aus, da meine Disziplin selten darauf zurückgreift. Längsschnittmodellierungen generell sind noch mal ein anderes Thema - ich schmökere zwar regelmäßig bei Wooldridge (Econometric Analysis of Cross Section and Panel Data), würde aber auch hier analog zur normalen linearen Regression vorgehen.
Viele Grüße, Björn.
Kann diese Vorgehensweise generell auch zur Prüfung der Voraussetzung einer Moderatorvariable eingesetzt werden? Demnach hätte der Datensatz aber ein *, statt ein + zwischen IQ und Motivation. Und ich habe das mal mit meinem Datensatz durchgespielt. Die Multikollinearität wäre ja ganz furchtbar hoch. Einige Daten wäre auch ein wenig anders. Dein Video zur Moderation in R ist KLASSE übrigens :)
Hallo Jennifer, genau, bei der Moderation fügst du einfach ein * zwischen die X und M-Variable ein. X und M werden dann von R stets noch mal separat als UV aufgenommen.
Multikollinearität ist bei einer Moderation zwangsweise vorhanden, weil eine UV ja das Produkt zweier anderer UV ist. Das ist mathematisch unumgänglich und stellt in dem Rahmen kein Problem dar, wie es bei anderen UV der Fall wäre, wenn diese "nichts miteinander zu tun haben sollten".
Viele Grüße, Björn.
@@StatistikamPC_BjoernWalther lieben Dank 👍
Hallo Björn,
leider habe ich bei meiner Moderatoranalyse Multikollinearität festgestellt (UV=Digitaler Stress, AV=Arbeitszufriedenheit, Moderator=Berufl. Selbstwirksamkeit).
Du meinst, dass Multikollinearität bei einer Moderation zwangsweise vorhanden ist...
Gibt es dafür Literatur oder etwas zum Zitieren für meiner Masterthesis?
Ich bin leider gerade etwas am verzweifeln und weiß nicht, was ich tun soll :D
Sollte man die F-Statistik auch nochmal mit robusten Standardfehlern schätzen?
Hallo Pascal, die ändert sich nicht. Die Standardfehler beeinflussen nur die t-Werte und letztlich die p-Werte.
Viele Grüße, Björn.