Danke für dein Lob! Das liegt ganz einfach daran, dass Universitäten Dozenten nicht nach Lehr- sondern nach Forschungsleistung einstellen, weil mit letzterem die Reputation eher gesteigert werden kann als mit ersterem. :-/ Viele Grüße, Björn.
Mein Prof verliert jeden Respekt sobald man es wagt Excel zur Datenanalyse zu verwenden. Er gibt einem aber auch keine verständliche Erklärung wie man es sonst machen soll... Danke an Björn, du rettest mich
Hallo, danke für das Video. Allerdings habe ich noch ein wichtige Frage: Wenn ich per Hinzufügen der Trendlinie und dem Anzeigen des R^2 klicke vs. der Datenanalyse auswähle, erhalte ich immer ein abweichendes R^2. An was kann dies liegen? Danke vorab
Hi wieder mal ein tolles Video! Kurze Verständnisfrage: Du sagst in dem Video, dass die Signifikanz auf Basis eines vorgegebenen Alphas beurteilt wird, in dem Fall 5% (bzw. Konfidenzintervall von 95%). Handelt es sich bei der Regression nicht immer um einen beidseitigen Test, da ich ja einen Zusammenhang untersuche und müsste dann nicht die Regel gelten, dass p < Alpha / 2 sein müsste? Vielen Dank für deine Rückmeldung!
Hallo, danke für das Lob! Bei einer Regression geht man in der Regel von einer gerichteten Hypothese aus (je, desto). Von daher ist nur ein einseitiger Test anzuwenden und Alpha wie gewöhnlich zu verwenden. Viele Grüße, Björn.
Statistik am PC Achso also wenn ich einen gezielten Zusammenhang unterstelle in meiner Hypothese (je, desto) dann bleibt Alpha so wie es ist und wenn ich untersuche ob es überhaupt einen Zusammenhang gibt ist es dann ungerichtet und ich habe Alpha/2... Liebe Grüße!
Erstmal vielen Dank für das Video, hat mir wirklich weitergeholfen. Ich habe trotzdem noch eine Frage, da ich ein wenig mit den Werten hadere die ich erhalten habe. In meinem Fall habe ich 11-12 unabhängige Variablen, die ich alle markiert und zusammen eingefügt habe für die Regressionsanalyse in Excel und natürlich auch eine abhängige Variable. Ich frage mich jetzt, ob es ggf. das Ergebnis verfälscht, dass ich alle unabhängige Variablen direkt habe mit einfließen lassen oder meinst du dies ist so richtig? Ich würde mich über eine Antwort freuen. LG
Hallo, je näher dein Modell an der Realität ist, also je vollständiger, desto besser. Oder anders formuliert: je mehr Variablen FEHLEN, desto "verfälschter" sind die Ergebnisse. Kurzum: die wichtigsten inhaltlich begründbaren Variablen sollten im Modell sein, das können auch mal >10 sein. Allerdings solltest du aufpassen, dass deine Stichprobe hier etwas größer ist, damit du die angestrebte Power eher erreichst. Viele Grüße, Björn.
Hallo, super vielen Dank für das Video! Wirklich toll erklärt! Die multiple Regressionsanalyse kann man ja einseitig als auch zweitseitig durchführen. Also einmal T und F Statistik. Wenn man die Analyse ein R durchführt ist dies auch erkenntlich. Aber wie erkenne ich in Excel, ob es sich um einen ein oder zweiseitigen Test handelt. Vielen tausend im Voraus! Sonnige Grüße
Hallo Lisa, danke für dein Lob! In Excel wird in der multiplen linearen Regression für die Koeffizienten die t-Statistik verwendet. Der angegebene p-Wert ist zudem der für den zweiseitigen Test. Für den einseitigen Test ist er also zu halbieren. Hoffe das hilft. Viele Grüße, Björn.
Hi, Thanks again for the great video and explanation. In my data set, independent variables (age, weight, height, BMI, days to intervention) have an effect on survival of the patient. The "Sportnote" column is called "mortality" in my spreadsheet and the valve "0" means survival, and "1" means "death". After preforming multiple linear regression I do not have any statically significant values. I am fairly certain that some variables have an effect on patient outcome (death or survival). What am I doing wrong?? Thanks again in advance!
Hello, you described your outcome as death or survival, which calls for a (binary) logistic regression, not a linear regression. You'll be better off doing a logistic regression in R or SPSS, as Excel is not providing the functionality to use logit, by default. Best Regards, Björn.
Danke für das super Video! Ich habe noch eine Frage: Müsste vorab noch die notwendige Stichprobengröße berechnet werden, um die Ergebnisse sinnvoll interpretieren zu können oder führt das zu weit? Was ist da üblich? Habe nämlich selbst eine Umfrage als Teil meiner Diss durchgeführt und nach Versenden von über 160 Fragebögen, habe ich "nur" 30 Antworten erhalten. Das ist natürlich dennoch mit viel Aufwand verbunden gewesen... aber die Ergebnisse der Auswertung zeigen mir zufriedenstellende Werte und die gewünschten statistischen Zusammenhänge. Daher würde ich am liebsten mit diesen Werten einfach weiterarbeiten, habe aber jetzt im Nachhinein Sorge, dass die Stichprobengröße ein Fallstrick sein könnte. Müsste eine a priori Berechnung mit G*Power vorgenommen werden? Das Video "Stichprobengröße bei der multiplen linearen Regression mit G*Power" hat mich da etwas verunsichert.
Hallo, im Rahmen einer Diss führt eigentlich kein Weg an einer vorherigen Stichprobengrößenermittlung vorbei. Was wäre denn im Vorfeld theoretisch rausgekommen? Im Nachhinein so tun, als ob man es vorher gerechnet hat kann natürlich keiner prüfen. Viele Grüße, Björn.
Hallo, vielen Dank für die Erklärungen und super Videos. Wie gehe ich vor, wenn das multiple lineare Regressionsmodell als Ganzes signifikant ist aber einer der Koeffizienten nicht? Wie interpretiere ich das und muss ich hier dann auf Multikolliniarität testen? Vielen Dank für eine kurze Rückmeldung.
Hallo Vivien, das nicht alle Koeffizienten signifikant sind ist der Regelfall und wird einfach so berichtet. Die Voraussetzungen einer Regressionen sind immer zu prüfen, darunter auch Multikollinearität. Eine Verletzung von Voraussetzungen kann unterschiedliche Auswirkungen haben, je nach verletzter Voraussetzung. Multikollinearität sorgt eher für verzerrte Schätzer als verzerrte p-Werte. Viele Grüße, Björn.
@StatistikamPC bei 7.40 : der Koeffizient der Größe ist doch negative, daher kleinere/bessere Sportnote oder? Also wenn ich eher klein bin ist meine Sportnote besser und nicht schlechter? weil beim positiven Koeffizienten des Gewichts sagen Sie ja dass es eine höhere also schlechtere Note gibt...
Hallo, ich habe einige Fragen zu der Funktionsgleichung, die du am Ende des Videos erstellt hast. Erhalte ich mit der multiplen lineare Funktionsgleichung durch das Einsetzen von den zwei Variablen einen Schätzwert, der um den Standardfehler abweichen kann? Erhalte ich demnach den Max- und Min-Wert und wenn ja welcher Standardfehler muss hier angesetzt werden? (Regressions-Statistik oder aus der Zeile Schnittpunkt) Schon mal vielen Dank im Vorraus ;)
Hallo Christoph, zunächst: die Regressions-Statistik gibt dir bereits einen expliziten Standardfehler an, um den der wahre Wert schwanken kann. Man könnte also vom erhaltenen y den Standardfehler abziehen und aufaddieren um den Min- bzw. Max-Wert zu erhalten. Kurz noch zu den Koeffizienten. Die Koeffizienten sind die "besten Schätzer" auf Basis der Stichprobe und haben individuelle Standardfehler. Mehr als sie bestaunen kann man an der Stelle nicht sinnvoll machen. Man sollte sie kurz ansprechen, je nachdem wie groß sie sind auch bei Auffälligkeiten diskutieren können. Da die Standardfehler der Nenner zur Ermittlung der t-Statistik sind, sollten sie entsprechend klein sein, damit du eine möglichst große bzw. zunächst von Null verschiedene t-Statistik bekommst. (Die Koeffizienten sind die entsprechenden Zähler.) Du bekommst beim Einsetzen von Beispielwerten in die Regressionsgleichung daher einen aufgrund der Methode der kleinsten Quadrate besten Schätzwert, der um den o.g. Standardfehler schwanken kann. Hilft dir das weiter? Viele Grüße
Hallo, vielen Dank für deine Antwort. In deinem Beispiel wäre also 1,006 der Standartfehler, den ich addieren bzw. subtrahieren müsste, um den max bzw. min-Wert zu erhalten? Viele Grüße
Ja, 1,006 ist der Standardfehler für die abhängige Variable. Jein, es sind streng genommen keine Min- bzw. Max-Werte. Es sind denkbare untere und obere Grenzen für die abhängige Variable, da ich nur eine Stichprobe habe und wenn ich auf die Grundgesamtheit abstrahiere, mein wahrer Wert um eben jene 1,006 schwankt.
Hallo, zuerst einmal ein riesen Lob, top Video! Jedoch habe ich ein paar fragen. In dem Video sprichst du bei der 1,006 über einen Faktor. Multipliziert man bei einem Faktor nicht? Später bei den Standardfehlern der unabhängigen Variable sprichst du ja von addieren bzw. subtrahieren. Was stimmt nun ich bin etwas verwirrt. Außerdem wollte ich mal fragen ob du einen Tipp hast wo ich in der Literatur Aussagen dazu finde, welcher Wert was wie gut aussagt. Ich habe bei meiner Regression ein Adjustiertes Bestimmtheitsmaß von 0,622. Du sagst im Video dieser Wert sei gut. 0,6 hört sich für mich aber nicht so prickelnd an wenn es 100% erreichen könnte.
Tolles Video! ich habe ein Modell mit 3 unabhängigen Variablen und leider nur einer Stichprobe von 5 berechnet. Mein Problem alle 3 Patameter sind beim p-Test nicht signifikant also größer 0,05. Könnte das mit der Größe der Stichprobe zusammenhängen? Und eine weitere Frage wie kann ich den multiplen Korrelationskoeffizienten händisch berechnen gibt es eine Formel? Liebe Grüße
Hallo Manuel, das wird sehr wahrscheinlich an deiner kleinen Stichprobe liegen. Die Formel habe ich nicht in Kopf, du kannst aber einfach aus R² die Wurzel ziehen und fertig. ;-) Viele Grüße, Björn.
Mit der Gleichung die du am Ende genannt hast kann man also die Sportnote eines Schülers abschätzen anhand seiner Größe und des Gewichts? Warum sollten diese Werte linear eingehen(und nicht etwa quadratisch)?
Hallo, genau, so unterstelle ich das hier im Beispiel. Andere Verlaufsformen sind natürlich denkbar, das muss aber im Vorfeld exploizit theoretisch konzeptionell hergeleitet werden. Auf dergleichen wurde an dieser Stelle aus Gründen der Vereinfachung verzichtet - es ging ja um das rechnen und interpretieren einer multiplen linearen Regression ohne etwaige Zusatzannahmen. Viele Grüße, Björn.
Hallo, ich wollte mal fragen, was passiert, wenn der p-Wert größer als 0,5 ist. Schließt man diesen Koeffizienten dann aus und führt eine weitere Analyse nur mit den anderen Koeffizienten durch? Oder behält man das Ergebnis so wie es ist. Bin gerade etwas ratlos.
Hallo, prinzipiell ist damit gezeigt worden, dass der Koeffizient keinen signfikanten Einfluss hat, was ja auch eine zufriedenstellende Erkenntnis ist. Das Modell an dieser Stelle um nicht signifikante Variablen zu bereinigen und erneut reduziert zu rechnen ist meiner Meinung nach nicht statthaft. Die anderen Variablen gewinnen dadurch zwar ab und an marginal hinsichtlich ihres p-Wertes und man erhält einen etwas besseren Modell-Fit. Dieses und weitere Arten des Fittings sind aber sehr umstritten (z.B. www.jstor.org/stable/2983440?seq=1#page_scan_tab_contents) Prinzipiell hast du dir ja etwas bei deinem Modell gedacht (theoriebasierte Hypothesenherleitung) und dann in eine quasi-schrittweise rückwärtige (stepwise backward) Regression zu verfallen, ist nicht ohne: "[...] stepwise methods are best avoided except for exploratory model building. If you must do a stepwise regression then it is advisable to cross-validate your model by splitting the data" (Field- DISCOVERING STATISTICS USING SpSS (2009), Kap. 7.5.3.4) Viele Statistiker machen um so etwas daher einen großen Bogen (siehe Artikel oben). Ich weiß, das ist ein Zitat aus einem SPSS-Buch, aber beschreibt es dennoch ganz gut. Ich werde demnächst noch ein Video zu multipler linearer Regression in SPSS machen, da werde ich mich auch etwas um schrittweise Regression kümmern. Ich hoffe ich konnte helfen. Bei weiteren Fragen, lass es mich wissen.
Gutes Video. Ich habe mal eine frage dazu. Mal angenommen ich habe eine Regressionsgerade erstellt. Nun kennen ich den linearen Zusammenhang zwischen zwei Sachverhalte. Nun bekomme ich mehr Datensätze welche nur den y-Wert besitzen. Wie kann ich nun die Werte auf der Geraden eintragen? Ich habe alle versucht. Der nimmt einfach die Gerade nicht als Referenzwert für andere Datensätze. Das ist zum Mäuse melken. Liebe Grüße
Hallo Robert, danke für dein Lob! Zunächst setzt eine Anwendung einer Regressionsgerade, die du in einer multiplen linearen Regression erhalten hast, von einem Datensatz auf einen anderen Datensatz voraus, dass sie der gleichen Grundgesamtheit entstammen oder irgendwie ähnliche Merkmale aufweisen Eine Übertragung also Sinn ergibt. Des Weiteren ist es nicht sinnvoll, von einem y- auf einen x-Wert schließen zu wollen, da man hierbei ja umgekehrte bzw. eine beliebig wechselseitige Beziehung unterstellt. Wenn du x-Werte hast, kannst du die in deine Regressionsgleichung einsetzten und ein y schätzen - unter den o.g. Voraussetzungen. Hilft dir das zunächst? Viele Grüße, Björn.
Hallo Robert, du setzt deinen x-Wert in deine Regressionsgleichung ein. Die Konstante addierst du zum Produkt des Koeffizienten und des eingesetzten x-Wertes. Viele Grüße, Björn.
Hallo Gesine, analog hierzu: ruclips.net/video/t8GLDZAGuO8/видео.html Die nicht moderierte UV muss natürlich mit im berechneten Modell sein. Viele Grüße, Björn.
@@StatistikamPC_BjoernWalther ok dank. Dann werde ich mich mal daran versuchen. Das nicht moderierte Exemplar habe ich schon nach einem Video von dir berechnet :)
@@StatistikamPC_BjoernWalther ich befürchte allerdings, dass ich es nicht hinbekomme, die beiden zu verbinden... bzw ich kann nicht prüfen, ob ich es richtig gemacht habe... eine Anleitung für die moderierte multiple gibt es noch nicht?
Hallo Gesine, wenn du es hier nach gemacht hast: ruclips.net/video/t8GLDZAGuO8/видео.html sollte dein x-Eingabebereich einfach die andere UV beinhalten, dann wird sie automatisch im Modell mit berechnet. Viele Grüße, Björn.
Vielleicht ist das eine blöde Frage, aber warum heißt es immer, dass man statistische Auswertungen mit SPSS machen soll, wenn ich doch alles auch mit Excel ausrechnen kann?!
Hallo Julia, in der Statistik gibt es fast keine blöden Fragen. ;-) Excel reicht auch vollkommen aus - in vielerlei Hinsicht zumindest. Man muss aber wissen, was man macht. Gerade bei stark standardisierten Verfahren wie der multiplen linearen Regression oder t-Tests gibt es kaum Unterschiede - vorausgesetzt, man beachtet die jeweiligen Annahmen. Die zu prüfen fällt in SPSS leichter - normalverteilte Residuen als eine Voraussetzung der Regression wäre da ein Beispiel. Ich hoffe, das konnte etwas Licht ins Dunkel bringen. Viele Grüße, Björn.
Hallo Susanne, der Wert Schnittpunkt ist die Konstante, das sog. Alpha in der Regressionsgleichung. Wenn alle Variablen den Wert 0 haben, nimmt dein y diesen Wert an. Da wir nur eine Stichprobe haben und alle Koeffizienten schätzen, weichen die Werte der Stichprobe vom wahren Wert in der Grundgesamtheit ab. Das ist bei jeder erneut gezogenen Stichprobe ähnlich. Die Koeffizienten sollten aber dennoch ungefähr gleich bleiben. Die Werte in der Spalte ober/unter 95% geben uns Grenzen von Konfidenzintervallen an. Die Konfidenzintervalle der nicht standardisierten Beta-Werte sind Grenzen, die so konstruiert sind, dass in 95% der gezogenen Stichproben diese Grenzen den wahren Wert von b enthalten. Hilft dir das weiter?
Hallo Luca, weil der SE zusätzlich mit dem Quantil der Standardnormalverteilung multipliziert werden muss. Dieser Wert ist bei dem 95%-KI ca. 1,96. Viele Grüße, Björn.
Hallo,eine dringende Frage habe ich zu der Datenauswertung einer linearen Regressionsanalyse im Excel.Ich habe mir folgende Datenanalyse ausgelesen.Ich möchte jetzt einen Schätzwert ermitteln, der im 95% Konfidenzintervall liegt.Ich würde jetzt in die Regressionsanalyse folgendes einsetzen:x wert ist: 6.000.000Für die Ermittlung Unterer Grenzwert: y= 1,62883754 x 6.000.000 - 327.145,31Ist dies Korrekt oder muss ich auch als Achsenabschnitt in die Spalte Untere 95% den Wert von -1.187.173 nehmen?Ganz vielen Dank vorab für eine Antwort.LG
Hallo Susanne, deine Daten sind aufgrund des Formats leider etwas schlecht zuzordnen. Dennoch versuche ich eine Antwort zu geben: Du kannst deine Regressionsgleichung wie von dir vorgeschlagen auchjeweils aus den oberen und unteren Konfidenzintervallwerten konstruieren, wozu sowohl der x-Wert als auch der Achsenabschnitt gehören sollte. Alles andere würde in dem Fall auch keinen Sinn ergeben, da du die Gleichung aus verschiedenen Komponenten zusammensetzen und unsinnige Werte erhalten würdest. Beantwortet das deine Frage bereits? Ansonsten wohl noch viel Erfolg bei der Klausur. ;-)
Hallo, Vielen Dank für die schnelle Antwort. Leider ist mir gestern Nacht der Fehler mit der Formatierung nicht aufgefallen. Also, meine Frage betrifft die Interpretation der im Excel durchgeführten Linearen Regressionsanalyse und sind in Graphik anbei die GELB markiert. 1000 Dank vorab.
Oh nein, ich kann keine Graphik einfügen :-(Die Frage, die gestellt wurde lautet:Wie ist der prognostizierte Jahresumsatz 2017.Basis: Halbjahresumsätze der Jahre 2017 - 2017.Mittels: Linearer Regressionsfunktion im Excel.Excel gibt über die Datenanalyse eine Ergebnistabelle aus:1) Koeffizienten: Schnittpunkt: 805.481X Variable 1: 3,4492) P-WertSchnittpunkt: 0,02344X Variable 1: 0,000000013) Untere 95%:Schnittpunkt: 145.545X Variable 1: 3,1123) Obere 95%:Schnittpunkt: 1.465.419X Variable 1: 3,787X [Halbjahresumsatz 2017] = 3.000.000 €Schätzwert:Y = 3,449 x 3.000.000 + 805.481Konfidenzintervall:Untere 95%: Y = 3,112 * 3.000.000 +145.545 Y = 9.481.545 €oder?Untere 95%: Y = 3,112 * 3.000.000 +805.481Y = 10.141.481 € 1. Frage:Setzte ich in die Regressionsgerade zur Ermittlung des Konfidenzintervalls als Schnittpunkt immer 805.481 [Spalte Koeffizienten] oder 145.545 [Spalte "Untere 95%] bzw. 1.465.419 [Spalte "Obere 95%] ein?2. Frage:Ist folgene Interpretation des Konfidenzintervalls richtig?a) Mit 95% Wahrscheinlichkeit liegt der wahre Wert des Jahresumsatzes 2017 in dem Intervall 10.141.481 € und 11.361.003 € ? [Wenn Schnittpunkt 805.481]oderb) Mit 95% Wahrscheinlichkeit liegt der wahre Wert des Jahresumsatzes 2017 in dem Intervall 9.481.545 € und 12.826.419 € ?? [Wenn Schnittpunkt 145.545 und 1.465.419]1000 Dank vorab für eine Antwort.LG Susi
Hallo Susi, dein Kommentar war aufgrund der vielen Zahl als Spam markiert und mir erst jetzt zur Prüfung vorgeleget worden. Ich hoffe, die Antwort ist nicht zu spät. Für das Konfidenzintervall nimmst du stets die 95%-Werte, sie spannen dir das Konfidenzintervall auf. Dann müsste bei richtiger Berechnung (Werte sind immer noch schwer lesbar für mich) Frage 2 einfach zu beantworten sein, weil es genau das Intervall aufspannt, in dem mit 95%iger Wahrscheinlichkeit der wahre Wert. Ich hoffe das hilft dir etwas weiter.
Ich kann es einfach nicht verstehen warum dass ein Hochschul-Dozent in diesem Umfang nicht erklärt bekommt.
Ich danke dir so sehr für dieses Video!
Danke für dein Lob!
Das liegt ganz einfach daran, dass Universitäten Dozenten nicht nach Lehr- sondern nach Forschungsleistung einstellen, weil mit letzterem die Reputation eher gesteigert werden kann als mit ersterem. :-/
Viele Grüße, Björn.
Mein Prof verliert jeden Respekt sobald man es wagt Excel zur Datenanalyse zu verwenden. Er gibt einem aber auch keine verständliche Erklärung wie man es sonst machen soll... Danke an Björn, du rettest mich
Ich danke dir tausend mal für diese Videos. Ich weiß nicht ob ich die Auswertung meine BA sonst hinbekommen hätte :)) wirklich super erklärt!
Schönes Video. Jedoch ist der Datensatz völlig absurd. Alessio eine 1 in Sport? Naja, Hauptsache es geht ihm gut.
Klasse Video!
Danke für das Lob!
Viele Grüße, Björn.
Hallo, danke für das Video. Allerdings habe ich noch ein wichtige Frage: Wenn ich per Hinzufügen der Trendlinie und dem Anzeigen des R^2 klicke vs. der Datenanalyse auswähle, erhalte ich immer ein abweichendes R^2. An was kann dies liegen?
Danke vorab
Hi wieder mal ein tolles Video! Kurze Verständnisfrage: Du sagst in dem Video, dass die Signifikanz auf Basis eines vorgegebenen Alphas beurteilt wird, in dem Fall 5% (bzw. Konfidenzintervall von 95%). Handelt es sich bei der Regression nicht immer um einen beidseitigen Test, da ich ja einen Zusammenhang untersuche und müsste dann nicht die Regel gelten, dass p < Alpha / 2 sein müsste? Vielen Dank für deine Rückmeldung!
Hallo, danke für das Lob! Bei einer Regression geht man in der Regel von einer gerichteten Hypothese aus (je, desto). Von daher ist nur ein einseitiger Test anzuwenden und Alpha wie gewöhnlich zu verwenden.
Viele Grüße, Björn.
Statistik am PC Achso also wenn ich einen gezielten Zusammenhang unterstelle in meiner Hypothese (je, desto) dann bleibt Alpha so wie es ist und wenn ich untersuche ob es überhaupt einen Zusammenhang gibt ist es dann ungerichtet und ich habe Alpha/2...
Liebe Grüße!
Erstmal vielen Dank für das Video, hat mir wirklich weitergeholfen. Ich habe trotzdem noch eine Frage, da ich ein wenig mit den Werten hadere die ich erhalten habe. In meinem Fall habe ich 11-12 unabhängige Variablen, die ich alle markiert und zusammen eingefügt habe für die Regressionsanalyse in Excel und natürlich auch eine abhängige Variable. Ich frage mich jetzt, ob es ggf. das Ergebnis verfälscht, dass ich alle unabhängige Variablen direkt habe mit einfließen lassen oder meinst du dies ist so richtig?
Ich würde mich über eine Antwort freuen.
LG
Hallo, je näher dein Modell an der Realität ist, also je vollständiger, desto besser. Oder anders formuliert: je mehr Variablen FEHLEN, desto "verfälschter" sind die Ergebnisse. Kurzum: die wichtigsten inhaltlich begründbaren Variablen sollten im Modell sein, das können auch mal >10 sein. Allerdings solltest du aufpassen, dass deine Stichprobe hier etwas größer ist, damit du die angestrebte Power eher erreichst.
Viele Grüße, Björn.
Hallo, super vielen Dank für das Video! Wirklich toll erklärt! Die multiple Regressionsanalyse kann man ja einseitig als auch zweitseitig durchführen. Also einmal T und F Statistik. Wenn man die Analyse ein R durchführt ist dies auch erkenntlich. Aber wie erkenne ich in Excel, ob es sich um einen ein oder zweiseitigen Test handelt. Vielen tausend im Voraus! Sonnige Grüße
Hallo Lisa, danke für dein Lob!
In Excel wird in der multiplen linearen Regression für die Koeffizienten die t-Statistik verwendet. Der angegebene p-Wert ist zudem der für den zweiseitigen Test. Für den einseitigen Test ist er also zu halbieren. Hoffe das hilft.
Viele Grüße, Björn.
Vielen Dank!! Sehr gutes Video
Hi, Thanks again for the great video and explanation. In my data set, independent variables (age, weight, height, BMI, days to intervention) have an effect on survival of the patient. The "Sportnote" column is called "mortality" in my spreadsheet and the valve "0" means survival, and "1" means "death". After preforming multiple linear regression I do not have any statically significant values. I am fairly certain that some variables have an effect on patient outcome (death or survival). What am I doing wrong?? Thanks again in advance!
Hello, you described your outcome as death or survival, which calls for a (binary) logistic regression, not a linear regression. You'll be better off doing a logistic regression in R or SPSS, as Excel is not providing the functionality to use logit, by default.
Best Regards, Björn.
Danke für das super Video! Ich habe noch eine Frage: Müsste vorab noch die notwendige Stichprobengröße berechnet werden, um die Ergebnisse sinnvoll interpretieren zu können oder führt das zu weit? Was ist da üblich? Habe nämlich selbst eine Umfrage als Teil meiner Diss durchgeführt und nach Versenden von über 160 Fragebögen, habe ich "nur" 30 Antworten erhalten. Das ist natürlich dennoch mit viel Aufwand verbunden gewesen... aber die Ergebnisse der Auswertung zeigen mir zufriedenstellende Werte und die gewünschten statistischen Zusammenhänge. Daher würde ich am liebsten mit diesen Werten einfach weiterarbeiten, habe aber jetzt im Nachhinein Sorge, dass die Stichprobengröße ein Fallstrick sein könnte. Müsste eine a priori Berechnung mit G*Power vorgenommen werden? Das Video "Stichprobengröße bei der multiplen linearen Regression mit G*Power" hat mich da etwas verunsichert.
für a priori ist es natürlich eigentlich schon zu spät...
Hallo, im Rahmen einer Diss führt eigentlich kein Weg an einer vorherigen Stichprobengrößenermittlung vorbei. Was wäre denn im Vorfeld theoretisch rausgekommen? Im Nachhinein so tun, als ob man es vorher gerechnet hat kann natürlich keiner prüfen.
Viele Grüße, Björn.
Hallo, vielen Dank für die Erklärungen und super Videos. Wie gehe ich vor, wenn das multiple lineare Regressionsmodell als Ganzes signifikant ist aber einer der Koeffizienten nicht? Wie interpretiere ich das und muss ich hier dann auf Multikolliniarität testen? Vielen Dank für eine kurze Rückmeldung.
Hallo Vivien, das nicht alle Koeffizienten signifikant sind ist der Regelfall und wird einfach so berichtet. Die Voraussetzungen einer Regressionen sind immer zu prüfen, darunter auch Multikollinearität. Eine Verletzung von Voraussetzungen kann unterschiedliche Auswirkungen haben, je nach verletzter Voraussetzung. Multikollinearität sorgt eher für verzerrte Schätzer als verzerrte p-Werte.
Viele Grüße, Björn.
@StatistikamPC bei 7.40 : der Koeffizient der Größe ist doch negative, daher kleinere/bessere Sportnote oder? Also wenn ich eher klein bin ist meine Sportnote besser und nicht schlechter? weil beim positiven Koeffizienten des Gewichts sagen Sie ja dass es eine höhere also schlechtere Note gibt...
wenn du 1 cm wächst "steigt" deine note um -0,12 (note 1 gut note 6 schlecht) also geht die note mit jedem cm Wachstum näher gegen note 1
Hallo Kalinka, Florian hat es exakt erklärt. Der "Trick" ist die umgekehrte Kodierung der Note. Da ist kleiner besser.
Viele Grüße, Björn.
@@floriantrueby5337, gut aufgepasst. ;-)
Viele Grüße, Björn.
You da real mvp
Hast du ein Video oder eine Infoquelle wie man eine Schätzung bei der multiplen linearen Regression durchführen kann?
Hallo, ich habe einige Fragen zu der Funktionsgleichung, die du am Ende des Videos erstellt hast.
Erhalte ich mit der multiplen lineare Funktionsgleichung durch das Einsetzen von den zwei Variablen einen Schätzwert, der um den Standardfehler abweichen kann? Erhalte ich demnach den Max- und Min-Wert und wenn ja welcher Standardfehler muss hier angesetzt werden? (Regressions-Statistik oder aus der Zeile Schnittpunkt)
Schon mal vielen Dank im Vorraus ;)
Hallo Christoph,
zunächst: die Regressions-Statistik gibt dir bereits einen expliziten Standardfehler an, um den der wahre Wert schwanken kann. Man könnte also vom erhaltenen y den Standardfehler abziehen und aufaddieren um den Min- bzw. Max-Wert zu erhalten.
Kurz noch zu den Koeffizienten. Die Koeffizienten sind die "besten Schätzer" auf Basis der Stichprobe und haben individuelle Standardfehler. Mehr als sie bestaunen kann man an der Stelle nicht sinnvoll machen. Man sollte sie kurz ansprechen, je nachdem wie groß sie sind auch bei Auffälligkeiten diskutieren können. Da die Standardfehler der Nenner zur Ermittlung der t-Statistik sind, sollten sie entsprechend klein sein, damit du eine möglichst große bzw. zunächst von Null verschiedene t-Statistik bekommst. (Die Koeffizienten sind die entsprechenden Zähler.)
Du bekommst beim Einsetzen von Beispielwerten in die Regressionsgleichung daher einen aufgrund der Methode der kleinsten Quadrate besten Schätzwert, der um den o.g. Standardfehler schwanken kann.
Hilft dir das weiter?
Viele Grüße
Hallo, vielen Dank für deine Antwort. In deinem Beispiel wäre also 1,006 der Standartfehler, den ich addieren bzw. subtrahieren müsste, um den max bzw. min-Wert zu erhalten?
Viele Grüße
Ja, 1,006 ist der Standardfehler für die abhängige Variable.
Jein, es sind streng genommen keine Min- bzw. Max-Werte. Es sind denkbare untere und obere Grenzen für die abhängige Variable, da ich nur eine Stichprobe habe und wenn ich auf die Grundgesamtheit abstrahiere, mein wahrer Wert um eben jene 1,006 schwankt.
Hallo, zuerst einmal ein riesen Lob, top Video! Jedoch habe ich ein paar fragen.
In dem Video sprichst du bei der 1,006 über einen Faktor. Multipliziert man bei einem Faktor nicht? Später bei den Standardfehlern der unabhängigen Variable sprichst du ja von addieren bzw. subtrahieren. Was stimmt nun ich bin etwas verwirrt.
Außerdem wollte ich mal fragen ob du einen Tipp hast wo ich in der Literatur Aussagen dazu finde, welcher Wert was wie gut aussagt. Ich habe bei meiner Regression ein Adjustiertes Bestimmtheitsmaß von 0,622. Du sagst im Video dieser Wert sei gut. 0,6 hört sich für mich aber nicht so prickelnd an wenn es 100% erreichen könnte.
Tolles Video! ich habe ein Modell mit 3 unabhängigen Variablen und leider nur einer Stichprobe von 5 berechnet. Mein Problem alle 3 Patameter sind beim p-Test nicht signifikant also größer 0,05. Könnte das mit der Größe der Stichprobe zusammenhängen? Und eine weitere Frage wie kann ich den multiplen Korrelationskoeffizienten händisch berechnen gibt es eine Formel? Liebe Grüße
Hallo Manuel, das wird sehr wahrscheinlich an deiner kleinen Stichprobe liegen. Die Formel habe ich nicht in Kopf, du kannst aber einfach aus R² die Wurzel ziehen und fertig. ;-)
Viele Grüße, Björn.
Mit der Gleichung die du am Ende genannt hast kann man also die Sportnote eines Schülers abschätzen anhand seiner Größe und des Gewichts? Warum sollten diese Werte linear eingehen(und nicht etwa quadratisch)?
Hallo, genau, so unterstelle ich das hier im Beispiel. Andere Verlaufsformen sind natürlich denkbar, das muss aber im Vorfeld exploizit theoretisch konzeptionell hergeleitet werden. Auf dergleichen wurde an dieser Stelle aus Gründen der Vereinfachung verzichtet - es ging ja um das rechnen und interpretieren einer multiplen linearen Regression ohne etwaige Zusatzannahmen.
Viele Grüße, Björn.
Hallo,
ich wollte mal fragen, was passiert, wenn der p-Wert größer als 0,5 ist. Schließt man diesen Koeffizienten dann aus und führt eine weitere Analyse nur mit den anderen Koeffizienten durch? Oder behält man das Ergebnis so wie es ist. Bin gerade etwas ratlos.
Hallo, prinzipiell ist damit gezeigt worden, dass der Koeffizient keinen signfikanten Einfluss hat, was ja auch eine zufriedenstellende Erkenntnis ist. Das Modell an dieser Stelle um nicht signifikante Variablen zu bereinigen und erneut reduziert zu rechnen ist meiner Meinung nach nicht statthaft. Die anderen Variablen gewinnen dadurch zwar ab und an marginal hinsichtlich ihres p-Wertes und man erhält einen etwas besseren Modell-Fit. Dieses und weitere Arten des Fittings sind aber sehr umstritten (z.B. www.jstor.org/stable/2983440?seq=1#page_scan_tab_contents)
Prinzipiell hast du dir ja etwas bei deinem Modell gedacht (theoriebasierte Hypothesenherleitung) und dann in eine quasi-schrittweise rückwärtige (stepwise backward) Regression zu verfallen, ist nicht ohne: "[...] stepwise methods are best avoided except for exploratory model building. If you must do a stepwise regression then it is advisable to cross-validate your model by splitting the data" (Field- DISCOVERING STATISTICS USING SpSS (2009), Kap. 7.5.3.4) Viele Statistiker machen um so etwas daher einen großen Bogen (siehe Artikel oben).
Ich weiß, das ist ein Zitat aus einem SPSS-Buch, aber beschreibt es dennoch ganz gut. Ich werde demnächst noch ein Video zu multipler linearer Regression in SPSS machen, da werde ich mich auch etwas um schrittweise Regression kümmern.
Ich hoffe ich konnte helfen. Bei weiteren Fragen, lass es mich wissen.
@@StatistikamPC_BjoernWalther #Ehrenmann
Gutes Video. Ich habe mal eine frage dazu. Mal angenommen ich habe eine Regressionsgerade erstellt. Nun kennen ich den linearen Zusammenhang zwischen zwei Sachverhalte. Nun bekomme ich mehr Datensätze welche nur den y-Wert besitzen. Wie kann ich nun die Werte auf der Geraden eintragen? Ich habe alle versucht. Der nimmt einfach die Gerade nicht als Referenzwert für andere Datensätze. Das ist zum Mäuse melken. Liebe Grüße
Hallo Robert, danke für dein Lob!
Zunächst setzt eine Anwendung einer Regressionsgerade, die du in einer multiplen linearen Regression erhalten hast, von einem Datensatz auf einen anderen Datensatz voraus, dass sie der gleichen Grundgesamtheit entstammen oder irgendwie ähnliche Merkmale aufweisen Eine Übertragung also Sinn ergibt. Des Weiteren ist es nicht sinnvoll, von einem y- auf einen x-Wert schließen zu wollen, da man hierbei ja umgekehrte bzw. eine beliebig wechselseitige Beziehung unterstellt. Wenn du x-Werte hast, kannst du die in deine Regressionsgleichung einsetzten und ein y schätzen - unter den o.g. Voraussetzungen.
Hilft dir das zunächst?
Viele Grüße, Björn.
Danke für die Antwort. Wenn ich einen x-wert habe wie kann ich ein y schätzen lassen? Genau das finde ich einfach nicht.
Hallo Robert, du setzt deinen x-Wert in deine Regressionsgleichung ein. Die Konstante addierst du zum Produkt des Koeffizienten und des eingesetzten x-Wertes.
Viele Grüße, Björn.
Moin, kannst du den Datensatz vielleicht noch hochladen?
beste grüße
Hallo, ich möchte eine moderierte multiple lineare Regression mit 2 Prädiktoren berechnen. Wie kann ich das in Excel durchführen?
Hallo Gesine, analog hierzu: ruclips.net/video/t8GLDZAGuO8/видео.html
Die nicht moderierte UV muss natürlich mit im berechneten Modell sein.
Viele Grüße, Björn.
@@StatistikamPC_BjoernWalther ok dank. Dann werde ich mich mal daran versuchen. Das nicht moderierte Exemplar habe ich schon nach einem Video von dir berechnet :)
@@StatistikamPC_BjoernWalther ich befürchte allerdings, dass ich es nicht hinbekomme, die beiden zu verbinden... bzw ich kann nicht prüfen, ob ich es richtig gemacht habe... eine Anleitung für die moderierte multiple gibt es noch nicht?
Hallo Gesine, wenn du es hier nach gemacht hast: ruclips.net/video/t8GLDZAGuO8/видео.html sollte dein x-Eingabebereich einfach die andere UV beinhalten, dann wird sie automatisch im Modell mit berechnet.
Viele Grüße, Björn.
Vielleicht ist das eine blöde Frage, aber warum heißt es immer, dass man statistische Auswertungen mit SPSS machen soll, wenn ich doch alles auch mit Excel ausrechnen kann?!
Hallo Julia, in der Statistik gibt es fast keine blöden Fragen. ;-)
Excel reicht auch vollkommen aus - in vielerlei Hinsicht zumindest. Man muss aber wissen, was man macht. Gerade bei stark standardisierten Verfahren wie der multiplen linearen Regression oder t-Tests gibt es kaum Unterschiede - vorausgesetzt, man beachtet die jeweiligen Annahmen. Die zu prüfen fällt in SPSS leichter - normalverteilte Residuen als eine Voraussetzung der Regression wäre da ein Beispiel.
Ich hoffe, das konnte etwas Licht ins Dunkel bringen.
Viele Grüße, Björn.
Hallo, was sagt in der Koeffiziententabelle der Wert in Spalte obere 95% / untere 95% und Zeile Schnittpunkt aus? LG
Hallo Susanne,
der Wert Schnittpunkt ist die Konstante, das sog. Alpha in der Regressionsgleichung. Wenn alle Variablen den Wert 0 haben, nimmt dein y diesen Wert an.
Da wir nur eine Stichprobe haben und alle Koeffizienten schätzen, weichen die Werte der Stichprobe vom wahren Wert in der Grundgesamtheit ab. Das ist bei jeder erneut gezogenen Stichprobe ähnlich. Die Koeffizienten sollten aber dennoch ungefähr gleich bleiben. Die Werte in der Spalte ober/unter 95% geben uns Grenzen von Konfidenzintervallen an. Die Konfidenzintervalle der nicht standardisierten Beta-Werte sind Grenzen, die so konstruiert sind, dass in 95% der gezogenen Stichproben diese Grenzen den wahren Wert von b enthalten.
Hilft dir das weiter?
Warum bekomme ich nicht die obere Grenze des 95% konfidenzintervall, wenn ich den Standardfehler auf den Koeffizienten aufaddiere?
Hallo Luca, weil der SE zusätzlich mit dem Quantil der Standardnormalverteilung multipliziert werden muss. Dieser Wert ist bei dem 95%-KI ca. 1,96.
Viele Grüße, Björn.
Hallo,eine dringende Frage habe ich zu der Datenauswertung einer linearen Regressionsanalyse im Excel.Ich habe mir folgende Datenanalyse ausgelesen.Ich möchte jetzt einen Schätzwert ermitteln, der im 95% Konfidenzintervall liegt.Ich würde jetzt in die Regressionsanalyse folgendes einsetzen:x wert ist: 6.000.000Für die Ermittlung Unterer Grenzwert: y= 1,62883754 x 6.000.000 - 327.145,31Ist dies Korrekt oder muss ich auch als Achsenabschnitt in die Spalte Untere 95% den Wert von -1.187.173 nehmen?Ganz vielen Dank vorab für eine Antwort.LG
Koeffizienten
Standardfehler
t-Statistik
P-Wert
Untere 95%
Obere 95%
Schnittpunkt
-327145,31
363705,651
-0,89947822
0,39828286
-1.187.173
532.882
X Variable 1
1,82942587
0,08482884
21,5660839
1,162E-07
1,62883754
2,03001421
Hallo Susanne, deine Daten sind aufgrund des Formats leider etwas schlecht zuzordnen. Dennoch versuche ich eine Antwort zu geben: Du kannst deine Regressionsgleichung wie von dir vorgeschlagen auchjeweils aus den oberen und unteren Konfidenzintervallwerten konstruieren, wozu sowohl der x-Wert als auch der Achsenabschnitt gehören sollte. Alles andere würde in dem Fall auch keinen Sinn ergeben, da du die Gleichung aus verschiedenen Komponenten zusammensetzen und unsinnige Werte erhalten würdest.
Beantwortet das deine Frage bereits?
Ansonsten wohl noch viel Erfolg bei der Klausur. ;-)
Hallo, Vielen Dank für die schnelle Antwort. Leider ist mir gestern Nacht der Fehler mit der Formatierung nicht aufgefallen. Also, meine Frage betrifft die Interpretation der im Excel durchgeführten Linearen Regressionsanalyse und sind in Graphik anbei die GELB markiert. 1000 Dank vorab.
+Susanne Förster
Hallo Susanne, auf welche Grafik beziehst du dich denn?
Oh nein, ich kann keine Graphik einfügen :-(Die Frage, die gestellt wurde lautet:Wie ist der prognostizierte Jahresumsatz 2017.Basis: Halbjahresumsätze der Jahre 2017 - 2017.Mittels: Linearer Regressionsfunktion im Excel.Excel gibt über die Datenanalyse eine Ergebnistabelle aus:1) Koeffizienten: Schnittpunkt: 805.481X Variable 1: 3,4492) P-WertSchnittpunkt: 0,02344X Variable 1: 0,000000013) Untere 95%:Schnittpunkt: 145.545X Variable 1: 3,1123) Obere 95%:Schnittpunkt: 1.465.419X Variable 1: 3,787X [Halbjahresumsatz 2017] = 3.000.000 €Schätzwert:Y = 3,449 x 3.000.000 + 805.481Konfidenzintervall:Untere 95%: Y = 3,112 * 3.000.000 +145.545 Y = 9.481.545 €oder?Untere 95%: Y = 3,112 * 3.000.000 +805.481Y = 10.141.481 €
1. Frage:Setzte ich in die Regressionsgerade zur Ermittlung des Konfidenzintervalls als Schnittpunkt immer 805.481 [Spalte Koeffizienten] oder 145.545 [Spalte "Untere 95%] bzw. 1.465.419 [Spalte "Obere 95%] ein?2. Frage:Ist folgene Interpretation des Konfidenzintervalls richtig?a) Mit 95% Wahrscheinlichkeit liegt der wahre Wert des Jahresumsatzes 2017 in dem Intervall 10.141.481 € und 11.361.003 € ? [Wenn Schnittpunkt 805.481]oderb) Mit 95% Wahrscheinlichkeit liegt der wahre Wert des Jahresumsatzes 2017 in dem Intervall 9.481.545 € und 12.826.419 € ?? [Wenn Schnittpunkt 145.545 und 1.465.419]1000 Dank vorab für eine Antwort.LG Susi
KoeffizientenStandardfehlert-StatistikP-WertUntere 95%Obere 95%Schnittpunkt805.481279.0882,886130,0234456145.5451.465.419X Variable 13,4490,142724,173400,00000013,1123,787
Hallo Susi,
dein Kommentar war aufgrund der vielen Zahl als Spam markiert und mir erst jetzt zur Prüfung vorgeleget worden. Ich hoffe, die Antwort ist nicht zu spät.
Für das Konfidenzintervall nimmst du stets die 95%-Werte, sie spannen dir das Konfidenzintervall auf.
Dann müsste bei richtiger Berechnung (Werte sind immer noch schwer lesbar für mich) Frage 2 einfach zu beantworten sein, weil es genau das Intervall aufspannt, in dem mit 95%iger Wahrscheinlichkeit der wahre Wert.
Ich hoffe das hilft dir etwas weiter.