Thursday 17 August 2017

Dichotomous variables in stata forex


Regressão O que é Regressão Regressão é uma medida estatística usada em finanças, investimentos e outras disciplinas que tentam determinar a força da relação entre uma variável dependente (normalmente denotada por Y) e uma série de outras variáveis ​​variáveis ​​(conhecidas como variáveis ​​independentes). A regressão ajuda os gestores financeiros e de investimento a valorizar os activos e a compreender as relações entre as variáveis, como os preços das matérias-primas e os stocks das empresas que operam nessas matérias-primas. VIDEO Carregar o leitor. BREAKING Down Regressão Os dois tipos básicos de regressão são regressão linear e regressão linear múltipla, embora existam métodos de regressão não linear para dados e análises mais complicados. A regressão linear usa uma variável independente para explicar ou prever o resultado da variável dependente Y, enquanto a regressão múltipla usa duas ou mais variáveis ​​independentes para predizer o resultado. A regressão pode ajudar os profissionais de finanças e investimento, bem como profissionais de outras empresas. A regressão pode ajudar a prever as vendas de uma empresa com base no tempo, nas vendas anteriores, no crescimento do PIB ou em outras condições. O modelo de precificação de ativos de capital (CAPM) é um modelo de regressão freqüentemente usado em finanças para a determinação de preços de ativos e descoberta de custos de capital. A forma geral de cada tipo de regressão é: Regressão linear: Y a bX u Y a variável que você está tentando predizer (variável dependente) X a variável que você está usando para prever Y (variável independente) a a intercepção u a regressão Regressão residual toma um grupo de variáveis ​​aleatórias. Pensado para ser a previsão de Y, e tenta encontrar uma relação matemática entre eles. Esta relação é tipicamente na forma de uma linha reta (regressão linear) que melhor se aproxima de todos os pontos de dados individuais. Na regressão múltipla, as variáveis ​​separadas são diferenciadas usando números com subscrito. Regressão em Investimentos A regressão é freqüentemente usada para determinar quantos fatores específicos, como o preço de uma mercadoria, as taxas de juros. Determinadas indústrias ou setores influenciam a movimentação de preços de um ativo. O referido CAPM é baseado em regressão, e é utilizado para projetar os retornos esperados para as ações e gerar custos de capital. Os retornos de ações são regredidos contra os retornos de um índice mais amplo, como o SP 500, para gerar um beta para o estoque específico. Beta é o risco de ações em relação ao mercado ou índice e é refletido como a inclinação no modelo CAPM. O retorno esperado para o estoque em questão seria a variável dependente Y, enquanto que a variável independente X seria o prêmio de risco de mercado. Variáveis ​​adicionais, como a capitalização de mercado de ações, índices de avaliação e retornos recentes podem ser adicionadas ao modelo CAPM para obter melhores estimativas de retornos. Esses fatores adicionais são conhecidos como fatores Fama-French, nomeados após os professores que desenvolveram o modelo de regressão linear múltipla para melhor explicar os retornos de ativos. Perspectivas Críticas de Pesquisa e Prática de Desenvolvimento Sustentável Institucionalizar a sustentabilidade: um estudo empírico de registro corporativo e compromisso com a Diretrizes do Pacote Mundial das Nações Unidas Luis A. Perez-Batres Van V. Miller. Michael J. Pisani Departamento de Administração, Universidade Central de Michigan, Mount Pleasant, MI, EUA Recebido em 12 de novembro de 2009. Revisado em 26 de maio de 2010. Aceito em 7 de junho de 2010. Disponível em 15 de junho de 2010. Resumo Com base nas teorias institucionais e de partes interessadas, Mecanismos causais de institucionalização e sua influência nas iniciativas de Desenvolvimento Sustentável. Para testar nossos argumentos, estudamos os padrões de registro de 394 grandes corporações de 12 países da Europa Ocidental e da América Latina para o Pacto Global das Nações Unidas. Os resultados indicam que os mecanismos normativos e miméticos de institucionalização (isto é, academia e influência de pares) são melhores indicadores de iniciativas de Desenvolvimento Sustentável do que coercitivas (isto é, regulação governamental). As implicações desses resultados são conseqüentes se as práticas de SD continuarem como uma escolha ética, e não uma obrigação obrigatória, para os tomadores de decisão corporativos. Palavras-chave Desenvolvimento sustentável Pacto Global das Nações Unidas Institucionalização Intervenientes Acadêmicos ONG Tabela 1. Fig. 2. A fig. 3. A fig. Capítulo 4: Sistemas de codificação adicionais para variáveis ​​categóricas em análise de regressão Capítulo Esboço 5.1 Codificação Simples 5.2 Codificação de Diferença de Avanço 5.3 Codificação de Diferenciação de Retorno 5.4 Codificação de Helmert 5.5 Codificação de Helmert Reversa 5.6 Codificação de Desvio 5.7 Codificação Polinomial Ortogonal 5.8 Codificação Definida pelo Usuário 5.9 Resumo As variáveis ​​categóricas requerem atenção especial na análise de regressão porque, ao contrário das variáveis ​​dicotômicas ou contínuas, elas não podem ser inseridas na equação de regressão tal como são. Por exemplo, se você tem uma variável chamada raça que é codificada 1 Hispânico, 2 Asiática 3 Preto 4 Branco, então entrar raça em sua regressão irá olhar para o efeito linear da raça, o que provavelmente não é o que você pretendia. Em vez disso, variáveis ​​categóricas como esta precisam ser recodificadas em uma série de variáveis ​​que podem ser inseridas no modelo de regressão. Há uma variedade de sistemas de codificação que podem ser usados ​​ao codificar variáveis ​​categóricas. Idealmente, você escolheria um sistema de codificação que refletisse as comparações que você quer fazer. No Capítulo 3 da Regressão com o SAS Web Book, cobrimos o uso de variáveis ​​categóricas na análise de regressão com foco no uso de variáveis ​​dummy, mas esse não é o único esquema de codificação que você pode usar. Por exemplo, você pode querer comparar cada nível para o próximo nível mais alto, caso em que você gostaria de usar o quotforward diferença de codificação, ou você pode querer comparar cada nível com a média dos níveis subsequentes da variável, caso em que Você gostaria de usar quotHelmertquot codificação. Ao escolher deliberadamente um sistema de codificação, você pode obter comparações que são mais significativas para testar suas hipóteses. Independentemente do sistema de codificação escolhido, o teste do efeito global da variável categórica (ou seja, o efeito global da raça) permanecerá o mesmo. Abaixo está uma tabela listando vários tipos de contrastes ea comparação que eles fazem. Nome do contraste Compara cada nível de uma variável com o nível de referência Níveis adjacentes de uma variável (cada nível menos o nível seguinte) Níveis adjacentes de uma variável (cada nível menos o nível anterior) Compare os níveis de uma variável com a média da variável Níveis da variável Compara os níveis de uma variável com a média dos níveis anteriores da variável Compara desvios da grande média Polinomial ortogonal contrastes Há um par de notas a serem feitas sobre os sistemas de codificação listados acima. A primeira é que representam comparações planejadas e não comparações post hoc. Em outras palavras, eles são comparações que você planeja fazer antes de começar a analisar seus dados, não comparações que você pensa uma vez que você viu os resultados das análises preliminares. Além disso, algumas formas de codificação fazem mais sentido com as variáveis ​​categóricas ordinais do que com as variáveis ​​categóricas nominais. Abaixo vamos mostrar exemplos usando raça como uma variável categórica, que é uma variável nominal. Como a codificação de efeito simples compara a média da variável dependente para cada nível da variável categórica com a média da variável dependente para o nível de referência, faz sentido com uma variável nominal. No entanto, pode não fazer muito sentido usar um esquema de codificação que testa o efeito linear da raça. À medida que descrevemos cada tipo de sistema de codificação, observamos aqueles sistemas de codificação com os quais não faz muito sentido usar uma variável nominal. Além disso, você pode observar que seguimos várias regras ao criar os esquemas de codificação de contraste. Para obter mais informações sobre essas regras, consulte a seção sobre codificação definida pelo usuário. Esta página irá ilustrar duas maneiras que você pode realizar análises usando estes esquemas de codificação: 1) usando proc glm com instruções de estimativa para definir quotcontrastquot coeficientes que especificam os níveis da variável categórica que devem ser comparados, e 2) usando proc reg. Ao usar proc reg para fazer contrastes, primeiro você precisa criar k-1 novas variáveis ​​(onde k é o número de níveis da variável categórica) e usar essas novas variáveis ​​como preditores no modelo de regressão. O método 1 usa um tipo de codificação que chamaremos de codificação quotcontrast, enquanto o método 2 usa um tipo de codificação que chamaremos codificação quotregressão. O exemplo de arquivo de dados Os exemplos nesta página usarão conjunto de dados chamado hsb2.sas7bdat e iremos nos concentrar na variável de variável categórica. Que tem quatro níveis (1 hispânico, 2 asiático, 3 afro-americano e 4 brancos) e vamos usar escrever como nossa variável dependente. Embora nosso exemplo use uma variável com quatro níveis, esses sistemas de codificação trabalham com variáveis ​​que têm mais ou menos categorias. Independentemente do sistema de codificação selecionado, você terá sempre menos variáveis ​​recodificadas que os níveis da variável original. No nosso exemplo, nossa variável categórica tem quatro níveis, então teremos três novas variáveis ​​(uma variável correspondente ao nível final das variáveis ​​categóricas seria redundante e, portanto, desnecessária). Antes de considerar qualquer análise, vamos olhar para a média da variável dependente, escreva. Para cada nível de raça. Isso ajudará na interpretação da saída de análises posteriores. Os resultados da codificação simples são muito semelhantes à codificação dummy em que cada nível é comparado com o nível de referência. No exemplo abaixo, o nível 4 é o nível de referência ea primeira comparação compara o nível 1 ao nível 4, a segunda compara o nível 2 ao nível 4 ea terceira compara o nível 3 ao nível 4. Método 1: PROC GLM A tabela Abaixo mostra a codificação simples fazendo as comparações descritas acima. O primeiro contraste compara o nível 1 ao nível 4 eo nível 1 é codificado como 1 eo nível 4 é codificado como -1. Da mesma forma, o segundo contraste compara o nível 2 ao nível 4, codificando o nível 2 como 1 eo nível 4 como -1. Como você pode ver com a codificação de contraste, você pode discernir o significado das comparações simplesmente inspecionando os coeficientes de contraste. Por exemplo, olhando para os coeficientes de contraste para c3, você pode ver que ele compara o nível 3 ao nível 4. SIMPLE contraste codificação Nova variável 1 (c1) Nova variável 2 (c2) Abaixo ilustramos como formar essas comparações usando proc glm. Como você vê, uma instrução de estimativa separada é usada para cada contraste. A estimativa de contraste para o primeiro contraste compara a média da variável dependente, write. Para os níveis 1 e 4, obtendo -7.597 e é estatisticamente significante (plt.000). O valor t associado a este teste é -3,82. Os resultados do segundo contraste, comparando a média de escrita para os níveis 2 e 4, não são estatisticamente significativos (t 1,40, p. 1638), enquanto que o terceiro contraste é estatisticamente significativo. Observe que, embora tenhamos incluído a saída SAS completa para este exemplo, mostraremos somente a saída relevante em exemplos posteriores para economizar espaço. Método 2: Regressão A codificação de regressão é um pouco mais complexa do que a codificação de contraste. No nosso exemplo abaixo, o nível 4 é o nível de referência e x1 compara o nível 1 ao nível 4, x2 compara o nível 2 ao nível 4 eo x3 compara o nível 3 ao nível 4. Para x1, a codificação é 3/4 para o nível 1 e -1/4 para todos os outros níveis. Da mesma forma, para x2 a codificação é 3/4 para o nível 2 e -1/4 para todos os outros níveis, e para x3 a codificação é 3/4 para o nível 3 e -1/4 para todos os outros níveis. Não é intuitivo que este esquema de codificação de regressão produz estas comparações no entanto, se você desejar comparações simples, você pode seguir esta regra geral para obter essas comparações. A regra mais geral para a criação deste tipo de esquema de codificação usando a codificação de regressão, onde k é o número de codificação de regressão simples. Níveis da variável categórica (neste caso, k 4). Codificação de regressão SIMPLES Nova variável 1 (x1) Nova variável 2 (x2) Abaixo ilustramos como criar x1. X2 e x3 e digite essas novas variáveis ​​no modelo de regressão usando proc reg. Você notará que os coeficientes de regressão na tabela abaixo são os mesmos que os coeficientes de contraste que vimos usando proc glm. Tanto o coeficiente de regressão para x1 como a estimativa de contraste para c1 são a média de escrita para o nível 1 de raça (hispânico) menos a média de escrita para o nível 4 (branco). Da mesma forma, o coeficiente de regressão para x2 e a estimativa de contraste para c2 são a média de escrita para o nível 2 (asiático) menos a média de escrita para o nível 4 (branco). Você também pode ver que os valores de t e os níveis de significância também são os mesmos que os da saída de proc glm. Observe que, embora tenhamos incluído a saída SAS completa para este exemplo, mostraremos somente a saída relevante em exemplos posteriores para economizar espaço. 5.2 Codificação Diferencial Forward Neste sistema de codificação, a média da variável dependente para um nível da variável categórica é comparada com a média da variável dependente para o próximo nível (adjacente). No nosso exemplo abaixo, a primeira comparação compara a média de escrita para o nível 1 com a média de escrita para o nível 2 de raça (hispânicos menos asiáticos). A segunda comparação compara a média de escrita para o nível 2 menos o nível 3 ea terceira comparação compara a média da escrita para o nível 3 menos o nível 4. Este tipo de codificação pode ser útil com uma variável nominal ou ordinária. Método 1: PROC GLM FORWARD DIFFERENCE codificação de contraste Nova variável 1 (c1) Nova variável 2 (c2) Nova variável 3 (c3) Nível 1 v. Nível 2 Nível 2 v. Nível 3 Nível 3 v. Nível 4 3 (Afro-americano) Com este sistema de codificação, os níveis adjacentes da variável categórica são comparados. Assim, a média da variável dependente no nível 1 é comparada com a média da variável dependente no nível 2: 46.4583 - 58 -11.542, o que é estatisticamente significativo. Para a comparação entre os níveis 2 e 3, o cálculo do coeficiente de contraste seria 58 - 48,2 9,8, o que também é estatisticamente significativo. Finalmente, comparando os níveis 3 e 4, 48,2 - 54,0552 -5,855, uma diferença estatisticamente significativa. Poder-se-ia concluir que cada nível adjacente de raça é estatisticamente significativamente diferente. Método 2: Regressão Para a primeira comparação, onde o primeiro eo segundo níveis são comparados, x1 é codificado 3/4 para o nível 1 e os outros níveis são codificados -1/4. Para a segunda comparação onde o nível 2 é comparado com o nível 3, x2 é codificado 1/2 1/2 -1/2 -1/2, e para a terceira comparação onde o nível 3 é comparado com o nível 4, x3 é codificado 1 / 4 1/4 1/4 -3/4. DIFERENÇA PROSPECTIVA codificação de regressão Nova variável 1 (x1) Nova variável 2 (x2) Nova variável 3 (x3) Nível 1 v. Nível 2 Nível 2 v. Nível 3 Nível 3 v. Nível 4 3 (Afro-americano) A regra geral para este Regressão é mostrado abaixo, onde k é o número de níveis da variável categórica (neste caso k 4). DIFERÊNCIA ATRASADA codificação de regressão Nova variável 1 (x1) Nova variável 2 (x2) Pode-se ver que o coeficiente de regressão para x1 é a média de escrita para o nível 1 (hispânico) menos a média de escrita para o nível 2 (asiático). Do mesmo modo, o coeficiente de regressão para x2 é a média de escrita para o nível 2 (asiático) menos a média de escrita para o nível 3 (afro-americano) eo coeficiente de regressão para x3 é a média de escrita para o nível 3 A média de escrita para o nível 4 (branco). 5.3 Codificação de Diferença de Retrocesso Neste sistema de codificação, a média da variável dependente para um nível da variável categórica é comparada com a média da variável dependente para o nível adjacente anterior. No nosso exemplo abaixo, a primeira comparação compara a média de escrita para o nível 2 com a média de escrita para o nível 1 de raça (hispânicos menos asiáticos). A segunda comparação compara a média de escrita para o nível 3 menos o nível 2 ea terceira comparação compara a média da escrita para o nível 4 menos o nível 3. Este tipo de codificação pode ser útil com uma variável nominal ou ordinária. Método 1: PROC GLM DIFERENÇA TRASERA codificação de contraste Nova variável 1 (c1) Nova variável 2 (c2) Nova variável 3 (c3) Nível 1 v. Nível 2 Nível 2 v. Nível 3 Nível 3 v. Nível 4 3 (Afro-americano) Com este sistema de codificação, os níveis adjacentes da variável categórica são comparados, com cada nível comparado ao nível anterior. Assim, a média da variável dependente no nível 2 é comparada com a média da variável dependente no nível 1: 58 - 46.4583 11.542, o que é estatisticamente significativo. Para a comparação entre os níveis 3 e 2, o cálculo do coeficiente de contraste é 48,2 - 58 -9,8, o que também é estatisticamente significativo. Finalmente, comparando os níveis 4 e 3, 54,0552 - 48,2 5,855, uma diferença estatisticamente significativa. Poder-se-ia concluir que cada nível adjacente de raça é estatisticamente significativamente diferente. Método 2: Regressão Para a primeira comparação, onde o primeiro e segundo níveis são comparados, x1 é codificado 3/4 para o nível 1 enquanto que os outros níveis são codificados -1/4. Para a segunda comparação onde o nível 2 é comparado com o nível 3, x2 é codificado 1/2 1/2 -1/2 -1/2, e para a terceira comparação onde o nível 3 é comparado com o nível 4, x3 é codificado 1 / 4 1/4 1/4 -3/4. DIFERENÇA TRASEIRA regressão codificação Nova variável 1 (x1) Nova variável 2 (x2) Nova variável 3 (x3) Nível 2 v. Nível 1 Nível 3 v. Nível 2 Nível 4 v. Nível 3 3 (Afro-americano) A regra geral para este Regressão é mostrado abaixo, onde k é o número de níveis da variável categórica (neste caso, k 4). No exemplo acima, o coeficiente de regressão para x1 é a média de escrita para o nível 2 menos a média de escrita para o nível 1 (58-46.4583 11.542). Do mesmo modo, o coeficiente de regressão para x2 é a média de escrita para o nível 3 menos a média de escrita para o nível 2 eo coeficiente de regressão para x3 é a média de escrita para o nível 4 menos a média de escrita para o nível 3. 5.4 Helmert Coding A codificação de Helmert compara cada nível de uma variável categórica com a média dos níveis subsequentes. Assim, o primeiro contraste compara a média da variável dependente para o nível 1 de raça com a média de todos os níveis subsequentes de raça (níveis 2, 3 e 4), o segundo contraste compara a média da variável dependente para o nível 2 de raça com a média de todos os níveis subseqüentes de raça (níveis 3 e 4) eo terceiro contraste compara a média da variável dependente para o nível 3 de raça com a média de todos os níveis subseqüentes de raça 4). Enquanto este tipo de sistema de codificação não faz muito sentido com uma variável nominal como a raça. É útil em situações onde os níveis da variável categórica são ordenados, digamos, do menor ao mais alto, ou do menor ao maior, etc. Para a codificação de Helmert, vemos que a primeira comparação que compara o nível 1 com os níveis 2, 3 e 4 é codificada 1, -1/3, -1/3 e -1/3, refletindo a comparação do nível 1 com todos os outros níveis. A segunda comparação é codificada 0, 1, -1/2 e -1/2, reflectindo que compara o nível 2 com os níveis 3 e 4. A terceira comparação é codificada 0, 0, 1 e -1, reflectindo que o nível 3 é Comparado com o nível 4. Método 1: PROC GLM HELMERT codificação de contraste Nova variável 1 (c1) Nova variável 2 (c2) Nova variável 3 (c3) Nível 1 v. Posterior Nível 2 v. Posterior Nível 3 v. ) Abaixo ilustramos como formar essas comparações usando proc glm com instruções de estimativa. Note que na primeira declaração de estimativa indicamos -333333 e não apenas -33. Precisamos usar essas muitas casas decimais para que a soma de todos os coeficientes de contraste (isto é, 1 -33333 -33333 -33333) esteja suficientemente próxima de zero, caso contrário, SAS dirá que o termo não pode ser estimado. A estimativa de contraste para a comparação entre o nível 1 e os níveis restantes é calculada tomando a média da variável dependente para o nível 1 e subtraindo a média da variável dependente para os níveis 2, 3 e 4: 46.4583 - (58 48.2 54.0552) / 3 -6.960, o que é estatisticamente significativo. Isto significa que a média de escrita para o nível 1 de raça é estatisticamente significativamente diferente da média de escrita para os níveis 2 a 4. Como observado acima, esta comparação provavelmente não é significativa porque a variável raça é nominal. Este tipo de comparação seria mais significativo se a variável categórica fosse ordinal. Para calcular o coeficiente de contraste para a comparação entre o nível 2 e os níveis posteriores, você subtrai a média da variável dependente para os níveis 3 e 4 da média da variável dependente para o nível 2: 58 - (48.2 54.0552) / 2 6.872, Que é estatisticamente significativa. A estimativa de contraste para a comparação entre o nível 3 eo nível 4 é a diferença entre a média da variável dependente para os dois níveis: 48.2 - 54.0552 -5.855, que também é estatisticamente significativa. Método 2: Regressão Abaixo vemos um exemplo de codificação de regressão de Helmert. Para a primeira comparação (comparando o nível 1 com os níveis 2, 3 e 4) os códigos são 3/4 e -1/4 -1/4 -1/4. A segunda comparação compara o nível 2 com os níveis 3 e 4 e é codificada 0 2/3 -1/3 -1/3. A terceira comparação compara o nível 3 ao nível 4 e é codificada 0 0 1/2 -1/2. HELMERT regressão codificação Nova variável 1 (x1) Nova variável 2 (x2) Nova variável 3 (x3) Abaixo ilustramos como criar x1. X2 e x3 e inserir essas novas variáveis ​​no modelo de regressão usando reg de porc. Como você pode ver abaixo, o coeficiente de regressão para x1 é a média de escrita para o nível 1 (hispânico) versus todos os níveis subseqüentes (níveis 2, 3 e 4). Da mesma forma, o coeficiente de regressão para x2 é a média de escrita para o nível 2 menos a média de escrita para os níveis 3 e 4. Finalmente, o coeficiente de regressão para x3 é a média de escrita para o nível 3 menos a média de escrita para o nível 4. 5.5 Codificação reversa de Helmert A codificação inversa de Helmert (também conhecida como codificação de diferença) é exatamente o oposto da codificação de Helmert: em vez de comparar cada nível da variável categórica com a média dos níveis subsequentes, cada um é comparado com a média da anterior Nível (s). No nosso exemplo, o primeiro contraste codifica a comparação da média da variável dependente para o nível 2 de raça com a média da variável dependente para o nível 1 de raça. A segunda comparação compara a média da variável dependente nível 3 de raça com ambos os níveis 1 e 2 de raça. E a terceira comparação compara a média da variável dependente para o nível 4 da raça com os níveis 1, 2 e 3. Claramente, este sistema de codificação não faz muito sentido com nosso exemplo de raça porque é uma variável nominal. No entanto, este sistema é útil quando os níveis da variável categórica são ordenados de forma significativa. Por exemplo, se tivéssemos uma variável categórica em que o estresse relacionado ao trabalho fosse codificado como baixo, médio ou alto, então comparando as médias dos níveis anteriores da variável faria mais sentido. Para a codificação reversa de Helmert, vemos que a primeira comparação comparando os níveis 1 e 2 é codificada -1 e 1 para comparar estes níveis, e 0 caso contrário. A segunda compara�o comparando os n�eis 1, 2 com o n�el 3 � codificada -1/2, -1/2, 1 e 0, e a �tima compara�o comparando os n�eis 1, 2 e 3 com o n�el 4 s� codificadas -1/3, -1 / 3, -1/3 e 1. Método 1: PROC GLM REVERSE HELMERT codificação de contraste Nova variável 1 (c1) Nova variável 2 (c2) Nova variável 3 (c3) Abaixo ilustramos como formar essas comparações usando proc glm com estimativa Declarações. Note que na terceira declaração de estimativa indicamos -333333 e não apenas -33. Precisamos usar esse número de decimais para que a soma de todos os coeficientes de contraste (isto é, -33333 - .333333 - .333333 1) esteja suficientemente próxima de zero, caso contrário, o SAS dirá que o termo não pode ser estimado. Uma maneira alternativa, que resolve o problema dos decimais repetidos, é mostrada abaixo. Somente uma saída é mostrada porque as duas saídas são idênticas. A estimativa de contraste para a primeira comparação mostrada nesta saída foi calculada subtraindo a média da variável dependente para o nível 2 da variável categórica da média da variável dependente para o nível 1: 58 - 46.4583 11.542. Este resultado é estatisticamente significativo. A estimativa de contraste para a segunda comparação (entre o nível 3 e os níveis anteriores) foi calculada subtraindo a média da variável dependente para os níveis 1 e 2 do nível 3: 48,2 - (46,4583 58) / 2 -4,029. Este resultado não é estatisticamente significante, significando que não há uma diferença confiável entre a média de escrita para o nível 3 de raça comparada à média de escrita para os níveis 1 e 2 (hispânicos e asiáticos). Como mencionado acima, este tipo de sistema de codificação não faz muito sentido para uma variável nominal como a raça. Para a comparação do nível 4 com os níveis anteriores, você toma a média da variável dependente para esses níveis e subtrai-a da média da variável dependente para o nível 4: 54.0552 - (46.4583 58 48.2) / 3 3.169. Este resultado é estatisticamente significativo. Método 2: Regressão A codificação de regressão para a codificação inversa de Helmert é mostrada abaixo. Para a primeira comparação, onde o primeiro eo segundo nível são comparados, x1 é codificado -1/2 e 1/2 e 0 caso contrário. Para a segunda comparação, os valores de x2 são codificados -1/3 -1/3 2/3 e 0. Finalmente, para a terceira comparação, os valores de x3 são codificados -1/4 -1/4 - / 14 e 3/4. REVERSE HELMERT regressão codificação Nova variável 1 (x1) Nova variável 2 (x2) Nova variável 3 (x3) Abaixo ilustramos como criar x1. X2 e x3 e digite essas novas variáveis ​​no modelo de regressão usando proc reg. Nos exemplos acima, tanto o coeficiente de regressão para x1 quanto a estimativa de contraste para c1 seriam a média de escrita para o nível 1 (hispânico) menos a média de escrita para o nível 2 (asiático). Da mesma forma, o coeficiente de regressão para x2 e a estimativa de contraste para c2 seriam a média de escrita para os níveis 1 e 2 combinados menos a média de escrita para o nível 3. Finalmente, o coeficiente de regressão para x3 e a estimativa de contraste para c3 seriam a 5.6 Codificação de Desvio Este sistema de codificação compara a média da variável dependente para um dado nível com a média geral da variável dependente. No nosso exemplo abaixo, a primeira comparação compara o nível 1 (hispânicos) com todos os níveis de raça. A segunda comparação compara o nível 2 (asiáticos) com todos os níveis de raça. E a terceira comparação compara o nível 3 (afro-americanos) a todos os níveis de raça. Como você pode ver, a lógica da codificação de contraste é bastante direta. A primeira comparação compara o nível 1 aos níveis 2, 3 e 4. Um valor de 3/4 é atribuído ao nível 1 e um valor de -1/4 é atribuído aos níveis 2, 3 e 4. Da mesma forma, a segunda comparação compara o nível 2 para os níveis 1, 3 e 4. Um valor de 3/4 é atribuído ao nível 2 e um valor de -1/4 é atribuído aos níveis 1, 3 e 4. Um padrão semelhante é seguido para atribuir valores para a terceira comparação . Note que você poderia substituir 3 por 3/4 e 1 por 1/4 e você obteria o mesmo teste de significância, mas o coeficiente de contraste seria diferente. Método 1: PROC GLM DEVIATION contraste coding Nova variável 1 (c1) Nova variável 2 (c2) Nova variável 3 (c3) Abaixo ilustramos como formar essas comparações usando proc glm. A estimativa de contraste é a média para o nível 1 menos a média geral. No entanto, essa média grande não é a média da variável dependente que está listada na saída do comando de meios acima. Em vez disso, é a média das médias da variável dependente em cada nível da variável categórica: (46.4583 58 48.2 54.0552) / 4 51.678375. Esta estimativa de contraste é então 46.4583 - 51.678375 -5.220. A diferença entre este valor e zero (a hipótese nula de que o coeficiente de contraste é zero) é estatisticamente significativa (p. 0016), eo valor t para este teste de -3,20. Os resultados para os dois próximos contrastes foram calculados de forma semelhante. Método 2: Regressão Como você vê no exemplo abaixo, a codificação de regressão é conseguida atribuindo-se 1 ao nível 1 para a primeira comparação (porque o nível 1 é o nível a ser comparado a todos os outros), um 1 ao nível 2 para o segundo Comparação (porque o nível 2 deve ser comparado com todos os outros) e 1 ao nível 3 para a terceira comparação (porque o nível 3 deve ser comparado com todos os outros). Observe que um -1 é atribuído ao nível 4 para todas as três comparações (porque é o nível que nunca é comparado com os outros níveis) e todos os outros valores são atribuídos a 0. Esse esquema de codificação de regressão produz as comparações descritas acima. DEVIATION codificação de regressão Nova variável 1 (x1) Nova variável 2 (x2) Nova variável 3 (x3) 3 (afro-americano) Abaixo ilustramos como criar x1. X2 e x3 e digite essas novas variáveis ​​no modelo de regressão usando proc reg. Neste exemplo, tanto o coeficiente de regressão para x1 é a média de escrita para o nível 1 (hispânico) menos a grande média de escrita. Da mesma forma, o coeficiente de regressão para x2 é a média de escrita para o nível 2 (asiático) menos a grande média de escrita. e assim por diante. Como vimos nas análises anteriores, os três contrastes são estatisticamente significativos. 5.7 Codificação polinomial ortogonal A codificação polinomial ortogonal é uma forma de análise de tendência, na medida em que procura as tendências lineares, quadráticas e cúbicas na variável categórica. Este tipo de sistema de codificação deve ser usado apenas com uma variável ordinal na qual os níveis estão igualmente espaçados. Exemplos dessa variável podem ser renda ou educação. A tabela abaixo mostra os coeficientes de contraste para as tendências linear, quadrática e cúbica para os quatro níveis. Estes poderiam ser obtidos na maioria dos livros estatísticos sobre modelos lineares. Para calcular as estimativas de contraste para essas comparações, você precisa multiplicar o código usado na nova variável pela média para a variável dependente para cada nível da variável categórica e, em seguida, somar os valores . Por exemplo, o código usado em x1 para o nível 1 de raça é -.671 ea média de escrita para o nível 1 é 46.4583. Assim, você iria multiplicar -671 e 46,4583 e adicioná-lo ao produto do código para o nível 2 de x1 e sua média, e assim por diante. Para obter a estimativa de contraste para o contraste linear, você faria o seguinte: -.67146.4583 -.22458 .22448.2 .67154.0552 2.905 (com erro de arredondamento). Este resultado não é estatisticamente significativo ao nível de 0,05 alfa, mas está próximo. O componente quadrático também não é estatisticamente significativo, mas o cúbico é. Isto sugere que, se a média da variável dependente fosse traçada contra a raça. A linha tenderia a ter duas curvas. As noted earlier, this type of coding system does not make much sense with a nominal variable such as race . Method 2: Regression The regression coding for orthogonal polynomial coding is the same as the contrast coding. Below you can see the SAS code for creating x1 . x2 and x3 that correspond to the linear, quadratic and cubic trends for race . The regression coefficients obtained from this analysis are the same as the contrast coefficients obtained using proc glm . 5.8 User Defined Coding You can use SAS for any general kind of coding scheme. For our example, we would like to make the following three comparisons: 1) level 1 to level 3 2) level 2 to levels 1 and 4 3) levels 1 and 2 to levels 3 and 4. In order to compare level 1 to level 3, we use the contrast coefficients 1 0 -1 0. To compare level 2 to levels 1 and 4 we use the contrast coefficients -1/2 1 0 -1/2. Finally, to compare levels 1 and 2 with levels 3 and 4 we use the coefficients 1/2 1/2 -1/2 -1/2. Before proceeding to the SAS code necessary to conduct these analyses, lets take a moment to more fully explain the logic behind the selection of these contrast coefficients. For the first contrast, we are comparing level 1 to level 3, and the contrast coefficients are 1 0 -1 0. This means that the levels associated with the contrast coefficients with opposite signs are being compared. In fact, the mean of the dependent variable is multiplied by the contrast coefficient. Hence, levels 2 and 4 are not involved in the comparison: they are multiplied by zero and quotdropped out. quot You will also notice that the contrast coefficients sum to zero. This is necessary. If the contrast coefficients do not sum to zero, the contrast is not estimable and SAS will issue an error message. Which level of the categorical variable is assigned a positive or negative value is not terribly important: 1 0 -1 0 is the same as -1 0 1 0 in that both of these codings compare the first and the third levels of the variable. However, the sign of the regression coefficient would change. Now lets look at the contrast coefficients for the second and third comparisons. You will notice that in both cases we use fractions that sum to one (or minus one). They do not have to sum to one (or minus one). You may wonder why we would use fractions like -1/2 1 0 -1/2 instead of whole numbers such as -1 2 0 -1. While -1/2 1 0 -1/2 and -1 2 0 -1 both compare level 2 with levels 1 and 4 and both will give you the same t-value and p-value for the regression coefficient, the contrast estimates/regression coefficients themselves would be different, as would their interpretation. The coefficient for the -1/2 1 0 -1/2 contrast is the mean of level 2 minus the mean of the means for levels 1 and 4: 58 - (46.4583 54.0552)/2 7.74325. (Alternatively, you can multiply the contrasts by the mean of the dependent variable for each level of the categorical variable: -1/246.4583 158.00 048.20 -1/254.0552 7.74325. Clearly these are equivalent ways of thinking about how the contrast coefficient is calculated.) By comparison, the coefficient for the -1 2 0 -1 contrast is two times the mean for level 2 minus the means of the dependent variable for levels 1 and 4: 258 - (46.4583 54.0552) 15.4865, which is the same as -146.4583 258 048.20 - 154.0552 15.4865. Note that the regression coefficient using the contrast coefficients -1 2 0 -1 is twice the regression coefficient obtained when -1/2 1 0 -1/2 is used. Method 1: PROC GLM In order to compare level 1 to level 3, we use the contrast coefficients 1 0 -1 0. To compare level 2 to levels 1 and 4 we use the contrast coefficients -1/2 1 0 -1/2. Finally, to compare levels 1 and 2 with levels 3 and 4, we use the coefficients 1/2 1/2 -1/2 -1/2. These coefficients are used in the estimate statements below. The contrast estimate for the first comparison is the mean of level 1 minus the mean for level 3, and the significance of this is .525, i. e. not significant. The second contrast estimate is 7.743, which is the mean of level 2 minus the mean of level 1 and level 4, and this difference is significant, p 0.008. The final contrast estimate is 1.1 which is the mean of levels 1 and 2 minus the mean of levels 3 and 4, and this contrast is not statistically significant, p .576. Method 2: Regression As in the prior example, we will make the following three comparisons: 1) level 1 to level 3, 2) level 2 to levels 1 and 4 and 3) levels 1 and 2 to levels 3 and 4. For methods 1 and 2 it was quite easy to translate the comparisons we wanted to make into contrast codings, but it is not as easy to translate the comparisons we want into a regression coding scheme. If we know the contrast coding system, then we can convert that into a regression coding system using the SAS program shown below. As you can see, we place the three contrast codings we want into the matrix c and then perform a set of matrix operations on c, yielding the matrix x . We then display x using the print command. Below we see the output from this program showing the regression coding scheme we would use. This converted the contrast coding into the regression coding that we need for running this analysis with proc reg . Below, we use if-then statements to create x1 . x2 and x3 according to the coding shown above and then enter them into the regression analysis. The first comparison of the mean of the dependent variable for level 1 to level 3 of the categorical variable was not statistically significant, while the comparison of the mean of the dependent variable for level 2 to that of levels 1 and 4 was. The comparison of the mean of the dependent variable for levels 1 and 2 to that of levels 3 and 4 also was not statistically significant. This page has described a number of different coding systems that you could use for categorical data, and two different strategies you could use for performing the analyses. You can choose a coding system that yields comparisons that make the most sense for testing your hypotheses. In general we would recommend using the easiest method that accomplishes your goals. 5.10 Additional Information Here are some additional resources. The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California.

No comments:

Post a Comment