Sunday 29 October 2017

Regression Ausgabetabelle In Stata Forex


Um den Standardfehler der Schätzung zu finden, nehmen wir die Summe aller quadrierten Restterme und dividieren durch (n - 2) und nehmen dann die Quadratwurzel des Ergebnisses. In diesem Fall beträgt die Summe der quadrierten Reste 0.090.160.642.250.04 3.18. Mit fünf Beobachtungen, n - 2 3 und SEE (3.18 / 3) 1/2 1.03. Die Berechnung für Standardfehler ist relativ ähnlich der Standardabweichung für eine Probe (n - 2 wird anstelle von n - 1 verwendet). Es gibt einige Hinweise auf die prädiktive Qualität eines Regressionsmodells mit niedrigeren SEE-Zahlen, die zeigen, dass genauere Vorhersagen möglich sind. Die Standard-Fehler-Messung zeigt jedoch nicht, inwieweit die unabhängige Variable Variationen im abhängigen Modell erklärt. Bestimmungskoeffizient Wie der Standardfehler gibt diese Statistik einen Hinweis darauf, wie gut ein lineares Regressionsmodell als Schätzer von Werten für die abhängige Variable dient. Sie arbeitet, indem man den Bruchteil der Gesamtvariation in der abhängigen Variablen misst, die durch Variation in der unabhängigen Variable erklärt werden kann. In diesem Zusammenhang besteht die Gesamtvariation aus zwei Fraktionen: Gesamtvariation erklärt Variation unerklärliche Variation Gesamtvariation Gesamtvariation Der Bestimmungskoeffizient. Oder erklärter Variation als Prozentsatz der Gesamtvariation, ist der erste dieser beiden Ausdrücke. Es wird manchmal als 1 - (ungeklärte Variation / totale Variation) ausgedrückt. Für eine einfache lineare Regression mit einer unabhängigen Variablen quadriert das einfache Verfahren zur Berechnung des Bestimmungskoeffizienten den Korrelationskoeffizienten zwischen den abhängigen und unabhängigen Variablen. Da der Korrelationskoeffizient durch r gegeben ist, wird der Bestimmungskoeffizient im Volksmund als R² oder R-Quadrat bezeichnet. Wenn beispielsweise der Korrelationskoeffizient 0,76 beträgt, ist das R-Quadrat (0,76) 2 0,578. R-Quadrat-Ausdrücke werden gewöhnlich als Prozentsätze ausgedrückt, weshalb 0,578 57,8 wäre. Ein zweites Verfahren zur Berechnung dieser Zahl besteht darin, die Gesamtvariation in der abhängigen Variablen Y als die Summe der quadrierten Abweichungen von dem Probenmittel zu finden. Als nächstes wird der Standardfehler der Schätzung nach dem im vorigen Abschnitt beschriebenen Verfahren berechnet. Der Koeffizient der Bestimmung wird dann durch (Gesamtvariation in Y) / Gesamtvariation in Y berechnet. Diese zweite Methode ist für mehrere Regressionen notwendig, wobei es mehr als eine unabhängige Variable gibt, aber für unseren Kontext werden wir Vorausgesetzt der r (Korrelationskoeffizient), um ein R-Quadrat zu berechnen. Was R 2 uns sagt, sind die Änderungen der abhängigen Variablen Y, die durch Änderungen in der unabhängigen Variablen X erklärt werden. R 2 von 57.8 sagt uns, dass 57.8 der Änderungen in Y aus X resultieren, dass auch 1 - 57.8 oder 42.2 von Die Änderungen in Y sind unerklärt durch X und sind das Ergebnis anderer Faktoren. Je höher der R-Quadrat, desto besser die Vorhersagecharakteristik des linearen Regressionsmodells. Regressionskoeffizienten Für einen Regressionskoeffizienten (Intercept a oder Slope b) kann ein Konfidenzintervall mit folgenden Informationen ermittelt werden: 13 Ein geschätzter Parameterwert aus einer Probe 13 Standardfehler der Schätzung (SEE) 13 Signifikanzniveau für die t - Verteilung 13 Freiheitsgrade (die Stichprobengröße - 2) 13 Für einen Steigungskoeffizienten ist die Formel für das Konfidenzintervall durch btc SEE gegeben, wobei tc der kritische t-Wert auf unserem gewählten signifikanten Niveau ist. Um zu veranschaulichen, nehmen Sie eine lineare Regression mit einem Investmentfonds Renditen als abhängige Variable und den SampP 500 Index als unabhängige Variable. Für fünf Jahre der vierteljährlichen Renditen ergibt sich der Steigungskoeffizient b als 1,18 mit einem Standardfehler der Schätzung von 0,147. Die Studierenden-t-Verteilung für 18 Freiheitsgrade (20 Quartale - 2) bei einer 0,05 Signifikanzniveau ist 2,011. Diese Daten geben uns ein Konfidenzintervall von 1,18 (0,147) (2,011) oder einen Bereich von 0,87 bis 1,49. Unsere Interpretation ist, dass es nur eine Chance von 5, dass die Steigung der Bevölkerung ist entweder weniger als 0,87 oder größer als 1,49 - wir sind 95 zuversichtlich, dass dieser Fonds mindestens 87 so flüchtig wie die SampP 500, aber nicht mehr als 149 wie Volatil, basierend auf unserer Fünf-Jahres-Stichprobe. Hypothesentests und Regressionskoeffizienten Regressionskoeffizienten werden häufig mit dem Hypothesentestverfahren getestet. Abhängig davon, was der Analytiker zu beweisen beabsichtigt, können wir einen Steigungskoeffizienten testen, um zu ermitteln, ob er die Chancen in der abhängigen Variablen und das Ausmaß, in dem sie Veränderungen erklärt, erklärt. Betas (Steigungskoeffizienten) können entweder über oder unter 1 (flüchtiger oder weniger flüchtig als der Markt) bestimmt werden. Alphas (der Intercept-Koeffizient) können auf einer Regression zwischen einem Investmentfonds und dem relevanten Marktindex getestet werden, um festzustellen, ob Anhaltspunkte für ein hinreichend positives Alpha vorliegen (was auf eine Wertschöpfung des Fondsmanagers schließen lässt). Die Mechanismen der Hypothesentests entsprechen denen, die wir vorher verwendet haben. Eine Nullhypothese wird auf der Grundlage eines ungleichen, grßer als oder kleiner als der Fall gewählt, wobei die Alternative alle Werte erfüllt, die nicht in dem null Fall abgedeckt sind. Angenommen in unserem vorherigen Beispiel, in dem wir eine Rendite auf dem SampP 500 für 20 Quartale zurückgestellt haben, ist unsere Hypothese, dass dieser Investmentfonds volatiler ist als der Markt. Ein Fonds, der der Marktvolatilität entspricht, wird eine Steigung b von 1,0 aufweisen, so dass für diesen Hypothesentest die Nullhypothese (H 0) als Fall angegeben wird, bei dem die Steigung kleiner oder gleich 1,0 ist (dh H 0: b lt 1,0 ). Die alternative Hypothese H a hat b gt 1,0. Wir wissen, dass dies ein größerer Fall ist (dh ein Schwanz) - wenn wir ein 0,05 Signifikanzniveau annehmen, ist t gleich 1.734 bei Freiheitsgraden n - 2 18. Beispiel: Interpretieren eines Hypothesentests Aus unserer Stichprobe haben wir Hatte b von 1,18 und Standardfehler von 0,147 geschätzt. Unsere Teststatistik wird mit dieser Formel berechnet: t geschätzter Koeffizient - hypothetischer Koeffizient. / Standardfehler (1,18 - 1,0) / 0,177 0,18 / 0,147 oder t 1,224. Für dieses Beispiel liegt unsere berechnete Teststatistik unter dem Ablehnungsniveau von 1,734, so dass wir nicht in der Lage sind, die Nullhypothese zurückzuweisen, dass der Fonds volatiler ist als der Markt. Interpretation: Die Hypothese, dass b gt 1 für diesen Fonds wahrscheinlich mehr Beobachtungen (Freiheitsgrade) benötigt, die mit statistischer Signifikanz nachgewiesen werden können. Auch bei 1,18 nur leicht über 1,0 ist es durchaus möglich, dass dieser Fonds eigentlich nicht so volatil ist wie der Markt, und wir waren richtig, die Nullhypothese nicht abzulehnen. Beispiel: Interpretation eines Regressionskoeffizienten Die CFA-Prüfung ist wahrscheinlich, die zusammenfassende Statistik einer linearen Regression zu geben und um Interpretation zu bitten. Zur Veranschaulichung gehen die folgenden Statistiken für eine Regression zwischen einem Small-Cap-Wachstumsfonds und dem Russell 2000-Index in Betracht: 13 Korrelationskoeffizient 13 Die beiden Abkürzungen sind RSS und SSE: 13 RSS. Oder die Regressions-Summe der Quadrate, ist die Summe der Gesamtvariation in der abhängigen Variablen Y, die in der Regressionsgleichung erklärt wird. Die RSS wird berechnet, indem jede Abweichung zwischen einem vorhergesagten Y-Wert und dem mittleren Y-Wert berechnet wird, wobei die Abweichung quadriert und alle Terme addiert werden. Wenn eine unabhängige Variable keine der Variationen einer abhängigen Variablen erklärt, dann sind die vorhergesagten Werte von Y gleich dem Mittelwert und RSS 0. 13 SSE. Oder die Summe des quadratischen Fehlers von Residuen berechnet, indem die Abweichung zwischen einem vorhergesagten Y und einem tatsächlichen Y ermittelt wird, das Ergebnis quadriert und alle Terme addiert werden. 13 TSS oder Gesamtabweichung ist die Summe aus RSS und SSE. Mit anderen Worten, diese ANOVA-Prozess bricht Varianz in zwei Teile: eine, die durch das Modell und eine, die nicht erklärt wird. Für eine Regressionsgleichung mit hoher prädiktiven Qualität müssen wir eine hohe RSS und eine niedrige SSE sehen, die das Verhältnis (RSS / 1) / SSE / (n - 2) hoch macht und (basierend auf einem Vergleich mit Ein kritischer F-Wert) statistisch aussagekräftig. Der kritische Wert wird der F-Verteilung entnommen und basiert auf Freiheitsgraden. Zum Beispiel, mit 20 Beobachtungen, Freiheitsgrade wäre n-2 oder 18, was zu einem kritischen Wert (aus der Tabelle) von 2,19. Wenn RSS 2,5 und SSE 1,8 wäre, wäre die berechnete Teststatistik F (2,5 / (1,8 / 18) 25, die über dem kritischen Wert liegt, was anzeigt, dass die Regressionsgleichung eine prädiktive Qualität aufweist (b ist von 0 verschieden) Schätzung der Wirtschaftsstatistiken mit Regressionsmodellen Regressionsmodelle werden häufig verwendet, um ökonomische Statistiken wie Inflation und BIP-Wachstum abzuschätzen. Es wird angenommen, dass zwischen der geschätzten jährlichen Inflation (X oder unabhängiger Variable) und der tatsächlichen Zahl (Y oder abhängiger Variable) : Unter Verwendung dieses Modells würde die vorhergesagte Inflationszahl auf der Grundlage des Modells für die folgenden Inflationsszenarien berechnet werden: 13 Inflationsabschätzung 13 Inflation basierend auf Modell 13 Die auf diesem Modell basierenden Prognosen scheinen am besten für typische Inflationsschätzungen zu sein und deuten darauf hin, dass extreme Schätzungen tendieren dazu, die Inflation zu übertreiben - z. B. eine tatsächliche Inflation von nur 4,46, wenn die Schätzung 4.7 war. Das Modell scheint zu suggerieren, dass Schätzungen sehr voraussagend sind. Um dieses Modell besser zu bewerten, müssten wir jedoch den Standardfehler und die Anzahl der Beobachtungen sehen, auf denen er basiert. Wenn wir den wahren Wert der Regressionsparameter (Slope und Intercept) kennen, wäre die Varianz eines beliebigen vorhergesagten Y-Werts gleich dem Quadrat des Standardfehlers. In der Praxis müssen wir die Regressionsparameter schätzen, also ist unser vorhergesagter Wert für Y eine Schätzung, die auf einem geschätzten Modell basiert. Wie zuversichtlich können wir in einem solchen Prozess sein Um ein Vorhersageintervall zu bestimmen, verwenden Sie die folgenden Schritte: 1. Prognostizieren Sie den Wert der abhängigen Variablen Y auf der Grundlage der unabhängigen Beobachtung X. 2. Berechnen Sie die Varianz des Vorhersagefehlers Wobei n die Anzahl der Beobachtungen ist, X der Wert der unabhängigen Variablen ist, die verwendet wird, um die Vorhersage durchzuführen, wobei X der geschätzte Mittelwert der unabhängigen Variablen und sx ist 2 ist die Varianz von X. 3. Wählen Sie ein Signifikanzniveau für das Konfidenzintervall. 4. Konstruieren Sie ein Intervall bei (1 -) Prozent Zuverlässigkeit unter Verwendung der Struktur Y t c s f. Hier ist ein weiterer Fall, wo das Material viel technischer als notwendig wird und man kann sich in Vorbereitung, wenn in Wirklichkeit die Formel für die Varianz eines Vorhersagefehlers nicht wahrscheinlich abgedeckt werden. Prioritize - dont verschwenden kostbare Studienzeiten zu merken. Wenn das Konzept überhaupt getestet wird, youll wahrscheinlich die Antwort auf Teil 2 gegeben werden. Einfach wissen, wie die Struktur in Teil 4 verwenden, um eine Frage zu beantworten. Wenn zum Beispiel die vorhergesagte X-Beobachtung 2 für die Regression Y 1,5 2,5X ist, würden wir ein vorhergesagtes Y von 1,5 2,5 (2) oder 6,5 haben. Unser Vertrauensintervall beträgt 6,5 t c s f. Der t-stat basiert auf einem gewählten Vertrauensintervall und Freiheitsgraden, während sf die Quadratwurzel der obigen Gleichung ist (für Varianz des Prädiktionsfehlers: Wenn diese Zahlen tc 2.10 für 95 Vertrauen und sf 0.443 das Intervall sind Ist 6.5 (2.1) (0.443) oder 5.57 bis 7.43 Einschränkungen der Regressionsanalyse Konzentrieren Sie sich auf drei Hauptbeschränkungen: 1. Parameter Instabilität - Dies ist die Tendenz, dass sich die Beziehungen zwischen Variablen im Laufe der Zeit ändern, und zwar aufgrund von Veränderungen in der Wirtschaft oder den Märkten , Unter anderen Unsicherheiten. Wenn ein Investmentfonds eine Rückkehr Geschichte in einem Markt, in dem Technologie war ein Leadership-Sektor, das Modell kann nicht funktionieren, wenn ausländische Märkte und Small-Cap-Märkte sind führend. 2. Public Dissemination der Beziehung - In einem effizienten Markt , Kann dies die Effektivität dieser Beziehung in künftigen Perioden beschränken. So zeigt beispielsweise die Entdeckung, dass niedrige Kurs-zu-Buch-Wertbestände einen hohen Preis-zu-Buch-Wert übertreffen, eine höhere Wertentwicklung dieser Wertpapiere und wertorientierte Anlageansätze Wird nicht beibehalten die gleiche Beziehung wie in der Vergangenheit. 3. Verletzung von Regressionsbeziehungen - Früher haben wir die sechs klassischen Annahmen einer linearen Regression zusammengefasst. In der realen Welt sind diese Annahmen oft unrealistisch - z. B. Dass die unabhängige Variable X nicht zufällig ist. Regression Was ist Regression Regression ist eine statistische Maßnahme in Finanz-, Investitions-und anderen Disziplinen, die versucht, die Stärke der Beziehung zwischen einer abhängigen Variable (in der Regel mit Y bezeichnet) und eine Reihe von anderen zu bestimmen (Sogenannte unabhängige Variablen). Regression hilft Investitions - und Finanzmanagern, Vermögenswerte zu bewerten und die Zusammenhänge zwischen Variablen wie Rohstoffpreisen und den Beständen von Unternehmen, die sich mit diesen Rohstoffen befassen, zu verstehen. Laden des Players. BREAKING DOWN Regression Die beiden grundlegenden Arten der Regression sind lineare Regression und multiple lineare Regression, obwohl es nicht-lineare Regressionsmethoden für kompliziertere Daten und Analysen gibt. Die lineare Regression verwendet eine unabhängige Variable, um das Ergebnis der abhängigen Variablen Y zu erklären oder vorherzusagen, während die multiple Regression zwei oder mehr unabhängige Variablen verwendet, um das Ergebnis vorherzusagen. Regression kann helfen, Finanz-und Investment-Profis sowie Profis in anderen Unternehmen. Regression kann helfen, den Umsatz für ein Unternehmen basierend auf Wetter, vorherigen Umsatz, BIP-Wachstum oder andere Bedingungen vorherzusagen. Das Kapital-Asset-Pricing-Modell (CAPM) ist ein häufig verwendetes Regressionsmodell in der Finanzierung von Pricing-Assets und der Entdeckung von Kapitalkosten. Die allgemeine Form jedes Regressionstyps ist: Lineare Regression: Y a bX u Y die Variable, die Sie vorhersagen wollen (abhängige Variable) X die Variable, die Sie verwenden, um Y (unabhängige Variable) a den Intercept u der Regression vorherzusagen Restliche Regression nimmt eine Gruppe von Zufallsvariablen. Dass sie Y vorhersagen und versucht, eine mathematische Beziehung zwischen ihnen zu finden. Diese Beziehung ist typischerweise in Form einer Geraden (lineare Regression), die sich am besten allen einzelnen Datenpunkten annähert. Bei der mehrfachen Regression werden die einzelnen Variablen durch die Verwendung von Zahlen mit Tiefstellung unterschieden. Regression in Investing Regression wird oft verwendet, um festzustellen, wie viele spezifische Faktoren wie der Preis für eine Ware, Zinssätze. Bestimmte Branchen oder Branchen beeinflussen die Kursentwicklung eines Vermögenswertes. Das vorgenannte CAPM basiert auf Regression und wird verwendet, um die erwarteten Renditen für Aktien zu projizieren und Kapitalkosten zu generieren. Eine Aktienrückgabe wird gegen die Renditen eines breiteren Index, wie dem SP 500, zurückgesetzt, um eine Beta für den jeweiligen Bestand zu erzeugen. Beta ist das Aktienrisiko im Verhältnis zum Markt oder Index und wird als Steilheit im CAPM-Modell reflektiert. Die erwartete Rendite für die betreffende Aktie wäre die abhängige Variable Y, während die unabhängige Variable X die Marktrisikoprämie wäre. Zusätzliche Variablen wie die Marktkapitalisierung einer Aktie, Bewertungsverhältnisse und jüngste Erträge können dem CAPM-Modell hinzugefügt werden, um bessere Schätzungen für Renditen zu erhalten. Diese zusätzlichen Faktoren sind bekannt als die Fama-Französisch Faktoren, benannt nach den Professoren, die das multiple lineare Regressionsmodell entwickelt, um besser zu erklären asset returns. Welcome an das Institut für digitale Forschung und Bildung Regression mit SAS Kapitel 5: Zusätzliche Codierungssysteme für kategorische Variablen In der Regressionsanalyse Kapitel 5.1 Einfache Kodierung 5.2 Vorwärtsdifferenzkodierung 5.3 Rückwärtsdifferenzkodierung 5.4 Helmert-Kodierung 5.5 Reverse Helmert-Kodierung 5.6 Abweichungs-Kodierung 5.7 Orthogonale Polynomkodierung 5.8 Benutzerdefinierte Kodierung 5.9 Zusammenfassung Kategoriale Variablen erfordern bei der Regressionsanalyse besondere Aufmerksamkeit, weil sie im Gegensatz zu dichotom oder Kontinuierlichen Variablen können sie nicht in die Regressionsgleichung eingegeben werden, so wie sie sind. Zum Beispiel, wenn Sie eine Variable namens Rasse, die 1 Hispanic, 2 Asiatische 3 Schwarz 4 Weiß codiert ist, dann Eingabe Rasse in Ihrer Regression wird auf die lineare Wirkung der Rasse, die wahrscheinlich nicht das, was Sie beabsichtigt. Stattdessen müssen kategorische Variablen wie diese in eine Reihe von Variablen umcodiert werden, die dann in das Regressionsmodell eingegeben werden können. Es gibt eine Vielzahl von Codierungssystemen, die beim Codieren kategorischer Variablen verwendet werden können. Idealerweise würden Sie ein Codierungssystem wählen, das die Vergleiche widerspiegelt, die Sie machen möchten. In Kapitel 3 der Regression mit SAS Web Book haben wir die Verwendung von kategorischen Variablen in der Regressionsanalyse behandelt, die sich auf die Verwendung von Dummy-Variablen konzentriert, aber das ist nicht das einzige Codierungsschema, das Sie verwenden können. Sie können beispielsweise jede Ebene mit der nächsthöheren Ebene vergleichen, wobei Sie in diesem Fall eine Quottendifferenzquot-Codierung verwenden möchten, oder Sie möchten jede Ebene mit dem Mittelwert der folgenden Ebenen der Variablen vergleichen Möchten Sie quotHelmertquot-Codierung verwenden. Durch die bewusste Auswahl eines Codierungssystems erhalten Sie Vergleiche, die für die Prüfung Ihrer Hypothesen aussagekräftig sind. Unabhängig von dem Codierungssystem, das Sie wählen, wird der Test der Gesamteffekt der kategorischen Variablen (d. h. der Gesamteffekt der Rasse) gleich bleiben. Unten ist eine Tabelle mit verschiedenen Arten von Kontrasten und den Vergleich, den sie machen. Name des Kontrasts Vergleicht jeden Level einer Variablen mit dem Referenzpegel Benachbarte Ebenen einer Variablen (jede Ebene minus der nächsten Ebene) Benachbarte Ebenen einer Variablen (jede Ebene minus der vorherigen Ebene) Vergleichen Sie die Ebenen einer Variablen mit dem Mittelwert der Folge Ebenen der Variablen Vergleicht die Ebenen einer Variablen mit dem Mittelwert der vorherigen Ebenen der Variablen Vergleicht die Abweichungen von den großen mittleren orthogonalen Polynomkontrasten Es gibt ein paar Notizen über die oben aufgeführten Kodierungssysteme. Die erste ist, dass sie geplante Vergleiche und nicht posthoc Vergleiche darstellen. Mit anderen Worten, sie sind Vergleiche, die Sie vor der Analyse Ihrer Daten planen, nicht Vergleiche, die Sie denken, sobald Sie die Ergebnisse der vorläufigen Analysen gesehen haben. Auch einige Formen der Kodierung machen mehr Sinn mit ordinalen kategorischen Variablen als mit nominalen kategorischen Variablen. Im folgenden zeigen wir Beispiele mit Rasse als kategoriale Variable, die eine nominale Variable ist. Da die Einfacheffektkodierung den Mittelwert der abhängigen Variablen für jede Ebene der kategorialen Variablen mit dem Mittelwert der abhängigen Variablen für den Referenzpegel vergleicht, ist sie mit einer Nominalvariablen sinnvoll. Jedoch kann es nicht so viel Sinn machen, ein Codierungsschema zu verwenden, das die lineare Wirkung des Rennens testet. Wie wir jede Art von Codierung System zu beschreiben, beachten wir die Codierung Systeme, mit denen es nicht so viel Sinn, eine nominale Variable verwenden. Außerdem können Sie feststellen, dass wir bei der Erstellung der Kontrastcodierungsschemata mehrere Regeln befolgen. Weitere Informationen zu diesen Regeln finden Sie im Abschnitt Benutzerdefinierte Codierung. Diese Seite veranschaulicht zwei Möglichkeiten, wie Sie Analysen unter Verwendung dieser Codierungsschemata durchführen können: 1) Verwenden von proc glm mit Schätzanweisungen, um quotcontrastquot-Koeffizienten zu definieren, die Ebenen der kategorialen Variablen angeben, die verglichen werden sollen, und 2) mit proc reg. Wenn Sie proc reg verwenden, um Kontraste zu erstellen, müssen Sie zunächst k-1 neue Variablen erstellen (wobei k die Anzahl der Ebenen der kategorischen Variablen ist) und diese neuen Variablen als Prädiktoren in Ihrem Regressionsmodell verwenden. Methode 1 verwendet eine Art der Codierung, die wir quotcontrast codingquot aufrufen werden, während Methode 2 eine Art der Codierung verwendet, die wir quotregression Codingquot anrufen. Die Beispiel-Datendatei Die Beispiele auf dieser Seite verwenden das Dataset namens hsb2.sas7bdat und wir konzentrieren uns auf das kategorische Variablen-Rennen. Die vier Ebenen hat (1 Hispanic, 2 Asian, 3 African American und 4 White) und wir schreiben als unsere abhängige Variable schreiben. Obwohl unser Beispiel eine Variable mit vier Ebenen verwendet, arbeiten diese Codierungssysteme mit Variablen, die mehr oder weniger Kategorien haben. Unabhängig davon, welches Codierungssystem Sie wählen, haben Sie immer eine weniger umcodierte Variable als die Ebenen der ursprünglichen Variablen. In unserem Beispiel hat unsere kategorische Variable vier Ebenen, so dass wir drei neue Variablen haben werden (eine Variable, die dem endgültigen Niveau der kategorischen Variablen entspricht, wäre überflüssig und daher unnötig). Bevor wir irgendwelche Analysen betrachten, betrachten wir den Mittelwert der abhängigen Variablen, schreiben. Für jede Rasse. Dies hilft bei der Interpretation der Ausgabe aus späteren Analysen. Die Ergebnisse der einfachen Codierung sind der Dummy-Codierung sehr ähnlich, da jede Ebene mit dem Referenzpegel verglichen wird. Im Beispiel unten ist Stufe 4 der Referenzpegel, und der erste Vergleich vergleicht Pegel 1 mit Pegel 4, der zweite Vergleich Pegel 2 mit Pegel 4 und der dritte Vergleich Pegel 3 mit Pegel 4. Prozeß 1: PROC GLM Die Tabelle Unten zeigt die einfache Codierung, die die oben beschriebenen Vergleiche vornimmt. Der erste Kontrast vergleicht Pegel 1 mit Pegel 4 und Pegel 1 wird mit 1 codiert und Pegel 4 mit -1 codiert. Ebenso vergleicht der zweite Kontrast Level 2 mit Level 4 durch Codierung von Level 2 als 1 und Level 4 als -1. Wie Sie mit Kontrast-Codierung sehen können, können Sie die Bedeutung der Vergleiche einfach durch Inspektion der Kontrast-Koeffizienten zu erkennen. Zum Beispiel, wenn man die Kontrastkoeffizienten für c3 betrachtet, kann man sehen, dass sie die Ebene 3 mit der Stufe 4 vergleicht. Einfache Kontrastkodierung Neue Variable 1 (c1) Neue Variable 2 (c2) Nachfolgend zeigen wir, wie diese Vergleiche mit proc glm zu bilden sind. Wie Sie sehen, wird für jeden Kontrast eine separate Schätzanweisung verwendet. Die Kontrastschätzung für den ersten Kontrast vergleicht den Mittelwert der abhängigen Variablen, schreiben. Für die Level 1 und 4 mit -7.597 und ist statistisch signifikant (plt.000). Der mit diesem Test assoziierte t-Wert ist -3,82. Die Ergebnisse des zweiten Kontrastes, die den Mittelwert des Schreibens für die Stufen 2 und 4 vergleichen, sind nicht statistisch signifikant (t 1,40, S. 1638), während der dritte Kontrast statistisch signifikant ist. Beachten Sie, dass, während wir die vollständige SAS-Ausgabe für dieses Beispiel enthalten haben, werden wir nur die entsprechende Ausgabe in späteren Beispielen zeigen, um Platz zu sparen. Methode 2: Regression Die Regressionscodierung ist etwas komplexer als die Kontrastcodierung. In unserem Beispiel unten ist Level 4 der Referenzpegel und x1 vergleicht Level 1 mit Level 4, x2 vergleicht Level 2 mit Level 4 und x3 vergleicht Level 3 mit Level 4. Für x1 ist die Codierung 3/4 für Level 1 und -1/4 für alle anderen Ebenen. Ebenso ist für x2 die Kodierung 3/4 für die Ebene 2 und -1/4 für alle anderen Ebenen und für x3 die Kodierung 3/4 für die Ebene 3 und -1/4 für alle anderen Ebenen. Es ist nicht intuitiv, dass dieses Regressionscodierungsschema diese Vergleiche liefert, wenn Sie jedoch einfache Vergleiche wünschen, können Sie dieser allgemeinen Regel folgen, um diese Vergleiche zu erhalten. Simple Regression Coding Neue Variable 1 (x1) Neue Variable 2 (x2) Neue Variable 3 (x3) 3 (African American) Im Folgenden zeigen wir die allgemeinere Regel für die Schaffung dieser Art von Kodierungsschema mit Regression Kodierung, wobei k die Zahl der Ebenen der kategorischen Variablen (in diesem Fall k 4). SIMPLE Regressionscodierung Neue Variable 1 (x1) Neue Variable 2 (x2) Nachfolgend zeigen wir, wie man x1 erzeugt. X2 und x3 und geben Sie diese neuen Variablen in das Regressionsmodell mit proc reg ein. Sie werden feststellen, dass die Regressionskoeffizienten in der folgenden Tabelle dieselben sind wie die Kontrastkoeffizienten, die wir mit proc glm sahen. Sowohl der Regressionskoeffizient für x1 als auch die Kontrastschätzung für c1 sind der Mittelwert des Schreibens für die Stufe 1 der Rasse (Hispanic) minus dem Mittelwert des Schreibens für Level 4 (weiß). Ebenso sind der Regressionskoeffizient für x2 und die Kontrastschätzung für c2 der Mittelwert des Schreibens für Stufe 2 (asiatisch) minus dem Mittelwert des Schreibens für Ebene 4 (weiß). Sie können auch sehen, dass die t-Werte und die Signifikanzniveaus auch die gleichen sind wie die der Proc-Glm-Ausgabe. Beachten Sie, dass, während wir die vollständige SAS-Ausgabe für dieses Beispiel enthalten haben, werden wir nur die entsprechende Ausgabe in späteren Beispielen zeigen, um Platz zu sparen. 5.2 Vorwärtsdifferenzcodierung In diesem Codierungssystem wird der Mittelwert der abhängigen Variablen für eine Ebene der kategorischen Variablen mit dem Mittelwert der abhängigen Variablen für den nächsten (benachbarten) Pegel verglichen. In unserem Beispiel unten vergleicht der erste Vergleich den Mittelwert des Schreibens für Stufe 1 mit dem Mittelwert des Schreibens für Stufe 2 der Rasse (Hispanics minus Asians). Der zweite Vergleich vergleicht den Mittelwert des Schreibens für den Pegel 2 abzüglich des Pegels 3. Der dritte Vergleich vergleicht den Mittelwert des Schreibens für den Pegel 3 mit dem Pegel 4. Dieser Codierungstyp kann sowohl mit einer nominalen als auch mit einer ordinalen Variable nützlich sein. Methode 1: PROC GLM VORWÄRTSDIFFERENZ Kontrastkodierung Neue Variable 1 (c1) Neue Variable 2 (c2) Neue Variable 3 (c3) Stufe 1 v. Stufe 2 Stufe 2 v. Stufe 3 Stufe 3 v. Stufe 4 3 (African American) Mit diesem Codierungssystem werden benachbarte Ebenen der kategorischen Variablen verglichen. Somit wird der Mittelwert der abhängigen Variablen auf Ebene 1 mit dem Mittelwert der abhängigen Variablen auf Stufe 2 verglichen: 46.4583 - 58 - 11.542, was statistisch signifikant ist. Für den Vergleich zwischen den Ebenen 2 und 3 wäre die Berechnung des Kontrastkoeffizienten 58 - 48,2 9,8, was ebenfalls statistisch signifikant ist. Schließlich, Vergleich der Ebenen 3 und 4, 48.2 - 54.0552 -5.855, ein statistisch signifikanter Unterschied. Daraus lässt sich schließen, dass jede benachbarte Rasse statistisch signifikant verschieden ist. Methode 2: Regression Für den ersten Vergleich, bei dem der erste und der zweite Pegel verglichen werden, wird x1 für den Pegel 1 codiert 3/4 und die anderen Pegel mit -1/4 codiert. Für den zweiten Vergleich, bei dem der Pegel 2 mit dem Pegel 3 verglichen wird, ist x2 codiert 1/2 1/2 -1/2 -1/2, und für den dritten Vergleich, wenn Pegel 3 mit Pegel 4 verglichen wird, wird x3 codiert 1 / 4 1/4 1/4 -3/4. FORWARD DIFFERENCE Regressionscodierung Neue Variable 1 (x1) Neue Variable 2 (x2) Neue Variable 3 (x3) Ebene 1 v. Ebene 2 Ebene 2 v. Ebene 3 Ebene 3 v. Ebene 4 3 (African American) Die allgemeine Regel dafür Regressionscodierungsschema ist nachstehend gezeigt, wobei k die Anzahl von Stufen der kategorischen Variablen (in diesem Fall k & sub4;) ist. VORWÄRTS-DIFFERENZ Regressionscodierung Neue Variable 1 (x1) Neue Variable 2 (x2) Sie sehen den Regressionskoeffizienten für x1 ist der Mittelwert des Schreibens für Stufe 1 (Hispanic) minus dem Mittelwert des Schreibens für Stufe 2 (asiatisch). Ebenso ist der Regressionskoeffizient für x2 der Mittelwert des Schreibens für Stufe 2 (asiatisch) minus dem Mittelwert des Schreibens für Stufe 3 (African American) und der Regressionskoeffizient für x3 ist der Mittelwert des Schreibens für Stufe 3 (Afroamerikaner) minus Der Mittelwert des Schreibens für Stufe 4 (weiß). 5.3 Rückwärtsdifferenzcodierung In diesem Codierungssystem wird der Mittelwert der abhängigen Variablen für eine Ebene der kategorischen Variablen mit dem Mittelwert der abhängigen Variablen für die vorherige benachbarte Ebene verglichen. In unserem Beispiel unten vergleicht der erste Vergleich den Mittelwert des Schreibens für Stufe 2 mit dem Mittelwert des Schreibens für Stufe 1 der Rasse (Hispanics minus Asians). Der zweite Vergleich vergleicht den Mittelwert des Schreibens für den Pegel 3 abzüglich des Pegels 2, und der dritte Vergleich vergleicht den Mittelwert des Schreibens für den Pegel 4 abzüglich des Pegels 3. Dieser Codetyp kann sowohl mit einer nominalen als auch mit einer ordinalen Variablen nützlich sein. Methode 1: PROC GLM BACKWARD DIFFERENCE Kontrastcodierung Neue Variable 1 (c1) Neue Variable 2 (c2) Neue Variable 3 (c3) Ebene 1 v. Ebene 2 Ebene 2 v. Ebene 3 Ebene 3 v. Ebene 4 3 (African American) Mit diesem Codierungssystem werden benachbarte Ebenen der kategorischen Variablen verglichen, wobei jedes Niveau gegenüber dem vorherigen Niveau verglichen wird. Daher wird der Mittelwert der abhängigen Variablen auf Ebene 2 mit dem Mittelwert der abhängigen Variablen auf Stufe 1 verglichen: 58 - 46.4583 11.542, was statistisch signifikant ist. Für den Vergleich zwischen den Ebenen 3 und 2 beträgt die Berechnung des Kontrastkoeffizienten 48,2 - 58 - 9,8, was ebenfalls statistisch signifikant ist. Schließlich, Vergleich der Ebenen 4 und 3, 54.0552 - 48.2 5.855, ein statistisch signifikanter Unterschied. Daraus lässt sich schließen, dass jede benachbarte Rasse statistisch signifikant verschieden ist. Methode 2: Regression Für den ersten Vergleich, bei dem der erste und der zweite Pegel verglichen werden, wird x1 für das Niveau 1 codiert 3/4, während die anderen Pegel -1/4 codiert werden. Für den zweiten Vergleich, bei dem der Pegel 2 mit dem Pegel 3 verglichen wird, ist x2 codiert 1/2 1/2 -1/2 -1/2, und für den dritten Vergleich, wenn Pegel 3 mit Pegel 4 verglichen wird, wird x3 codiert 1 / 4 1/4 1/4 -3/4. BACKWARD DIFFERENCE Regressionscodierung Neue Variable 1 (x1) Neue Variable 2 (x2) Neue Variable 3 (x3) Ebene 2 v. Ebene 1 Ebene 3 v. Ebene 2 Ebene 4 v. Ebene 3 3 (African American) Die allgemeine Regel dafür Regression-Codierungsschema ist unten gezeigt, wobei k die Anzahl von Ebenen der kategorischen Variablen (in diesem Fall k & sub4;) ist. BACKWARD DIFFERENCE Regressionscodierung Neue Variable 1 (x1) Neue Variable 2 (x2) Im obigen Beispiel ist der Regressionskoeffizient für x1 der Mittelwert des Schreibens für Level 2 minus dem Mittelwert des Schreibens für Level 1 (58- 46.4583 11.542). Ebenso ist der Regressionskoeffizient für x2 der Mittelwert des Schreibens für den Pegel 3 minus dem Mittelwert des Schreibens für den Pegel 2, und der Regressionskoeffizient für x3 ist der Mittelwert des Schreibens für das Niveau 4 minus dem Mittelwert des Schreibens für das Niveau 3. 5.4 Helmert-Codierung Die Helmert-Kodierung vergleicht jede Ebene einer kategorischen Variablen mit dem Mittelwert der nachfolgenden Ebenen. Somit vergleicht der erste Kontrast den Mittelwert der abhängigen Variablen für die Stufe 1 der Rasse mit dem Mittelwert aller nachfolgenden Rassebenen (Stufen 2, 3 und 4), wobei der zweite Kontrast den Mittelwert der abhängigen Variablen für die Ebene vergleicht 2 des Rennens mit dem Mittelwert aller nachfolgenden Rennen (Stufe 3 und 4), und der dritte Kontrast vergleicht den Mittelwert der abhängigen Variablen für Rasse Ebene 3 mit dem Mittelwert aller nachfolgenden Rassebenen (Level 4). Während diese Art von Kodierungssystem nicht viel Sinn macht mit einer Nenngröße wie Rasse. Ist es nützlich in Situationen, in denen die Ebenen der kategorischen Variablen geordnet sind, z. B. vom niedrigsten zum höchsten oder kleinsten zum größten usw. Für die Helmert-Kodierung sehen wir, dass der erste Vergleichsvergleichsgrad 1 mit den Niveaus 2, 3 und 4 kodiert ist 1, -1/3, -1/3 und -1/3, was den Vergleich von Stufe 1 mit allen anderen Ebenen widerspiegelt. Der zweite Vergleich wird mit 0, 1, -1/2 und -1/2 codiert, was bedeutet, dass er den Pegel 2 mit den Pegeln 3 und 4 vergleicht. Der dritte Vergleich wird mit 0, 0, 1 und -1 codiert, was das Niveau 3 widerspiegelt Verglichen mit Stufe 4. Methode 1: PROC GLM HELMERT Kontrastcodierung Neue Variable 1 (c1) Neue Variable 2 (c2) Neue Variable 3 (c3) Stufe 1 v. Spätere Stufe 2 v. Spätere Stufe 3 v. Später 3 (African American ) Im Folgenden wird gezeigt, wie diese Vergleiche mit proc glm mit Schätzanweisungen zu bilden. Beachten Sie, dass wir auf der ersten Schätzungsanweisung -.33333 und nicht nur -.33. Wir müssen diese vielen Dezimalstellen verwenden, so daß die Summe aller Kontrastkoeffizienten (d. h. 1 - 0,33333 - 0,33333 - 0,33333) ausreichend nahe Null ist, andernfalls wird SAS sagen, daß der Term nicht abgeschätzt werden kann. The contrast estimate for the comparison between level 1 and the remaining levels is calculated by taking the mean of the dependent variable for level 1 and subtracting the mean of the dependent variable for levels 2, 3 and 4: 46.4583 - (58 48.2 54.0552) / 3 -6.960, which is statistically significant. This means that the mean of write for level 1 of race is statistically significantly different from the mean of write for levels 2 through 4. As noted above, this comparison probably is not meaningful because the variable race is nominal. This type of comparison would be more meaningful if the categorical variable was ordinal. To calculate the contrast coefficient for the comparison between level 2 and the later levels, you subtract the mean of the dependent variable for levels 3 and 4 from the mean of the dependent variable for level 2: 58 - (48.2 54.0552) / 2 6.872, which is statistically significant. The contrast estimate for the comparison between level 3 and level 4 is the difference between the mean of the dependent variable for the two levels: 48.2 - 54.0552 -5.855, which is also statistically significant. Method 2: Regression Below we see an example of Helmert regression coding. For the first comparison (comparing level 1 with levels 2, 3 and 4) the codes are 3/4 and -1/4 -1/4 -1/4. The second comparison compares level 2 with levels 3 and 4 and is coded 0 2/3 -1/3 -1/3. The third comparison compares level 3 to level 4 and is coded 0 0 1/2 -1/2. HELMERT regression coding New variable 1 (x1) New variable 2 (x2) New variable 3 (x3) Below we illustrate how to create x1 . x2 and x3 and enter these new variables into the regression model using porc reg . As you see below, the regression coefficient for x1 is the mean of write for level 1 (Hispanic) versus all subsequent levels (levels 2, 3 and 4). Likewise, the regression coefficient for x2 is the mean of write for level 2 minus the mean of write for levels 3 and 4. Finally, the regression coefficient for x3 is the mean of write for level 3 minus the mean of write for level 4. 5.5 Reverse Helmert Coding Reverse Helmert coding (also know as difference coding) is just the opposite of Helmert coding: instead of comparing each level of categorical variable to the mean of the subsequent level(s), each is compared to the mean of the previous level(s). In our example, the first contrast codes the comparison of the mean of the dependent variable for level 2 of race to the mean of the dependent variable for level 1 of race . The second comparison compares the mean of the dependent variable level 3 of race with both levels 1 and 2 of race . and the third comparison compares the mean of the dependent variable for level 4 of race with levels 1, 2 and 3. Clearly, this coding system does not make much sense with our example of race because it is a nominal variable. However, this system is useful when the levels of the categorical variable are ordered in a meaningful way. For example, if we had a categorical variable in which work-related stress was coded as low, medium or high, then comparing the means of the previous levels of the variable would make more sense. For reverse Helmert coding, we see that the first comparison comparing levels 1 and 2 are coded -1 and 1 to compare these levels, and 0 otherwise. The second comparison comparing levels 1, 2 with level 3 are coded -1/2, -1/2, 1 and 0, and the last comparison comparing levels 1, 2 and 3 with level 4 are coded -1/3, -1/3, -1/3 and 1. Method 1: PROC GLM REVERSE HELMERT contrast coding New variable 1 (c1) New variable 2 (c2) New variable 3 (c3) Below we illustrate how to form these comparisons using proc glm with estimate statements. Note that on the third estimate statement we indicate -.33333 and not just -.33. We need to use this many decimals so the sum of all of the contrast coefficients (i. e. -.333333 - .333333 - .333333 1) is sufficiently close to zero, otherwise SAS will say that the term cannot be estimated. An alternate way, which solves the problem of the repeating decimals, is shown below. Only one output is shown because the two outputs are identical. The contrast estimate for the first comparison shown in this output was calculated by subtracting the mean of the dependent variable for level 2 of the categorical variable from the mean of the dependent variable for level 1: 58 - 46.4583 11.542. This result is statistically significant. The contrast estimate for the second comparison (between level 3 and the previous levels) was calculated by subtracting the mean of the dependent variable for levels 1 and 2 from that of level 3: 48.2 - (46.4583 58) / 2 -4.029. This result is not statistically significant, meaning that there is not a reliable difference between the mean of write for level 3 of race compared to the mean of write for levels 1 and 2 (Hispanics and Asians). As noted above, this type of coding system does not make much sense for a nominal variable such as race . For the comparison of level 4 and the previous levels, you take the mean of the dependent variable for the those levels and subtract it from the mean of the dependent variable for level 4: 54.0552 - (46.4583 58 48.2) / 3 3.169. This result is statistically significant. Method 2: Regression The regression coding for reverse Helmert coding is shown below. For the first comparison, where the first and second level are compared, x1 is coded -1/2 and 1/2 and 0 otherwise. For the second comparison, the values of x2 are coded -1/3 -1/3 2/3 and 0. Finally, for the third comparison, the values of x3 are coded -1/4 -1/4 -/14 and 3/4. REVERSE HELMERT regression coding New variable 1 (x1) New variable 2 (x2) New variable 3 (x3) Below we illustrate how to create x1 . x2 and x3 and enter these new variables into the regression model using proc reg . In the above examples, both the regression coefficient for x1 and the contrast estimate for c1 would be the mean of write for level 1 (Hispanic) minus the mean of write for level 2 (Asian). Likewise, the regression coefficient for x2 and the contrast estimate for c2 would be the mean of write for levels 1 and 2 combined minus the mean of write for level 3. Finally, the regression coefficient for x3 and the contrast estimate for c3 would be the mean of write for levels 1, 2 and 3 combined minus the mean of write for level 4. 5.6 Deviation Coding This coding system compares the mean of the dependent variable for a given level to the overall mean of the dependent variable. In our example below, the first comparison compares level 1 (Hispanics) to all levels of race . the second comparison compares level 2 (Asians) to all levels of race . and the third comparison compares level 3 (African Americans) to all levels of race . As you can see, the logic of the contrast coding is fairly straightforward. The first comparison compares level 1 to levels 2, 3 and 4. A value of 3/4 is assigned to level 1 and a value of -1/4 is assigned to levels 2, 3 and 4. Likewise, the second comparison compares level 2 to levels 1, 3 and 4. A value of 3/4 is assigned to level 2 and a value of -1/4 is assigned to levels 1, 3 and 4. A similar pattern is followed for assigning values for the third comparison. Note that you could substitute 3 for 3/4 and 1 for 1/4 and you would get the same test of significance, but the contrast coefficient would be different. Method 1: PROC GLM DEVIATION contrast coding New variable 1 (c1) New variable 2 (c2) New variable 3 (c3) Below we illustrate how to form these comparisons using proc glm . The contrast estimate is the mean for level 1 minus the grand mean. However, this grand mean is not the mean of the dependent variable that is listed in the output of the means command above. Rather it is the mean of means of the dependent variable at each level of the categorical variable: (46.4583 58 48.2 54.0552) / 4 51.678375. This contrast estimate is then 46.4583 - 51.678375 -5.220. The difference between this value and zero (the null hypothesis that the contrast coefficient is zero) is statistically significant (p .0016), and the t-value for this test of -3.20. The results for the next two contrasts were computed in a similar manner. Method 2: Regression As you see in the example below, the regression coding is accomplished by assigning 1 to level 1 for the first comparison (because level 1 is the level to be compared to all others), a 1 to level 2 for the second comparison (because level 2 is to be compared to all others), and 1 to level 3 for the third comparison (because level 3 is to be compared to all others). Note that a -1 is assigned to level 4 for all three comparisons (because it is the level that is never compared to the other levels) and all other values are assigned a 0. This regression coding scheme yields the comparisons described above. DEVIATION regression coding New variable 1 (x1) New variable 2 (x2) New variable 3 (x3) 3 (African American) Below we illustrate how to create x1 . x2 and x3 and enter these new variables into the regression model using proc reg . In this example, both the regression coefficient for x1 is the mean of write for level 1 (Hispanic) minus the grand mean of write. Likewise, the regression coefficient for x2 is the mean write for level 2 (Asian) minus the grand mean of write . and so on. As we saw in the previous analyses, all three contrasts are statistically significant. 5.7 Orthogonal Polynomial Coding Orthogonal polynomial coding is a form of trend analysis in that it is looking for the linear, quadratic and cubic trends in the categorical variable. This type of coding system should be used only with an ordinal variable in which the levels are equally spaced. Examples of such a variable might be income or education. The table below shows the contrast coefficients for the linear, quadratic and cubic trends for the four levels. These could be obtained from most statistics books on linear models. 3 (African American) Method 1: PROC GLM To calculate the contrast estimates for these comparisons, you need to multiply the code used in the new variable by the mean for the dependent variable for each level of the categorical variable, and then sum the values. For example, the code used in x1 for level 1 of race is -.671 and the mean of write for level 1 is 46.4583. Hence, you would multiply -.671 and 46.4583 and add that to the product of the code for level 2 of x1 and its mean, and so on. To obtain the contrast estimate for the linear contrast, you would do the following: -.67146.4583 -.22458 .22448.2 .67154.0552 2.905 (with rounding error). This result is not statistically significant at the .05 alpha level, but it is close. The quadratic component is also not statistically significant, but the cubic one is. This suggests that, if the mean of the dependent variable was plotted against race . the line would tend to have two bends. As noted earlier, this type of coding system does not make much sense with a nominal variable such as race . Method 2: Regression The regression coding for orthogonal polynomial coding is the same as the contrast coding. Below you can see the SAS code for creating x1 . x2 and x3 that correspond to the linear, quadratic and cubic trends for race . The regression coefficients obtained from this analysis are the same as the contrast coefficients obtained using proc glm . 5.8 User Defined Coding You can use SAS for any general kind of coding scheme. For our example, we would like to make the following three comparisons: 1) level 1 to level 3 2) level 2 to levels 1 and 4 3) levels 1 and 2 to levels 3 and 4. In order to compare level 1 to level 3, we use the contrast coefficients 1 0 -1 0. To compare level 2 to levels 1 and 4 we use the contrast coefficients -1/2 1 0 -1/2. Finally, to compare levels 1 and 2 with levels 3 and 4 we use the coefficients 1/2 1/2 -1/2 -1/2. Before proceeding to the SAS code necessary to conduct these analyses, lets take a moment to more fully explain the logic behind the selection of these contrast coefficients. For the first contrast, we are comparing level 1 to level 3, and the contrast coefficients are 1 0 -1 0. This means that the levels associated with the contrast coefficients with opposite signs are being compared. In fact, the mean of the dependent variable is multiplied by the contrast coefficient. Hence, levels 2 and 4 are not involved in the comparison: they are multiplied by zero and quotdropped out. quot You will also notice that the contrast coefficients sum to zero. This is necessary. If the contrast coefficients do not sum to zero, the contrast is not estimable and SAS will issue an error message. Which level of the categorical variable is assigned a positive or negative value is not terribly important: 1 0 -1 0 is the same as -1 0 1 0 in that both of these codings compare the first and the third levels of the variable. However, the sign of the regression coefficient would change. Now lets look at the contrast coefficients for the second and third comparisons. You will notice that in both cases we use fractions that sum to one (or minus one). They do not have to sum to one (or minus one). You may wonder why we would use fractions like -1/2 1 0 -1/2 instead of whole numbers such as -1 2 0 -1. While -1/2 1 0 -1/2 and -1 2 0 -1 both compare level 2 with levels 1 and 4 and both will give you the same t-value and p-value for the regression coefficient, the contrast estimates/regression coefficients themselves would be different, as would their interpretation. The coefficient for the -1/2 1 0 -1/2 contrast is the mean of level 2 minus the mean of the means for levels 1 and 4: 58 - (46.4583 54.0552)/2 7.74325. (Alternatively, you can multiply the contrasts by the mean of the dependent variable for each level of the categorical variable: -1/246.4583 158.00 048.20 -1/254.0552 7.74325. Clearly these are equivalent ways of thinking about how the contrast coefficient is calculated.) By comparison, the coefficient for the -1 2 0 -1 contrast is two times the mean for level 2 minus the means of the dependent variable for levels 1 and 4: 258 - (46.4583 54.0552) 15.4865, which is the same as -146.4583 258 048.20 - 154.0552 15.4865. Note that the regression coefficient using the contrast coefficients -1 2 0 -1 is twice the regression coefficient obtained when -1/2 1 0 -1/2 is used. Method 1: PROC GLM In order to compare level 1 to level 3, we use the contrast coefficients 1 0 -1 0. To compare level 2 to levels 1 and 4 we use the contrast coefficients -1/2 1 0 -1/2. Finally, to compare levels 1 and 2 with levels 3 and 4, we use the coefficients 1/2 1/2 -1/2 -1/2. These coefficients are used in the estimate statements below. The contrast estimate for the first comparison is the mean of level 1 minus the mean for level 3, and the significance of this is .525, i. e. not significant. The second contrast estimate is 7.743, which is the mean of level 2 minus the mean of level 1 and level 4, and this difference is significant, p 0.008. The final contrast estimate is 1.1 which is the mean of levels 1 and 2 minus the mean of levels 3 and 4, and this contrast is not statistically significant, p .576. Method 2: Regression As in the prior example, we will make the following three comparisons: 1) level 1 to level 3, 2) level 2 to levels 1 and 4 and 3) levels 1 and 2 to levels 3 and 4. For methods 1 and 2 it was quite easy to translate the comparisons we wanted to make into contrast codings, but it is not as easy to translate the comparisons we want into a regression coding scheme. If we know the contrast coding system, then we can convert that into a regression coding system using the SAS program shown below. As you can see, we place the three contrast codings we want into the matrix c and then perform a set of matrix operations on c, yielding the matrix x . We then display x using the print command. Below we see the output from this program showing the regression coding scheme we would use. This converted the contrast coding into the regression coding that we need for running this analysis with proc reg . Below, we use if-then statements to create x1 . x2 and x3 according to the coding shown above and then enter them into the regression analysis. The first comparison of the mean of the dependent variable for level 1 to level 3 of the categorical variable was not statistically significant, while the comparison of the mean of the dependent variable for level 2 to that of levels 1 and 4 was. The comparison of the mean of the dependent variable for levels 1 and 2 to that of levels 3 and 4 also was not statistically significant. This page has described a number of different coding systems that you could use for categorical data, and two different strategies you could use for performing the analyses. You can choose a coding system that yields comparisons that make the most sense for testing your hypotheses. In general we would recommend using the easiest method that accomplishes your goals. 5.10 Additional Information Here are some additional resources. The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California.

No comments:

Post a Comment