Thursday 23 November 2017

How To Calculate Y Hat In Stata Forex


Stata: Análise de Dados e Software Estatístico Brian P. Poi, StataCorp Muitas pessoas escreveram para a equipe técnica perguntando sobre as diferenças entre prever e ajustar. Nesta FAQ, eu apresento um exemplo simples usando o auto dataset. Isso não é de forma alguma um substituto para as entradas do Manual de Referência para ajustar ou prever. Presumivelmente, você já leu aqueles. Se não, isso seria uma boa idéia. Para começar, letrsquos carregar o dataset auto. dta e regressar mpg contra peso. comprimento. E estrangeiros. Em seguida, calcular a predição linear da variável dependente e resumi-la por rep78. Compare isto com o que obtemos se usarmos o comando adjust: Os resultados são os mesmos Quando você usa o comando adjust sem especificar qualquer variável, simplesmente resume as previsões lineares da regressão por rep78. Suponha que em vez disso eu digitei A chave para entender o que aconteceu aqui são as duas linhas na parte superior da saída: Para duas das variáveis ​​independentes em nossa regressão, peso e comprimento. Ajustar fez nada que deixou como é. No entanto, ao calcular a previsão linear de mpg, o ajuste não usou os valores reais de estrangeiros que estão no conjunto de dados. Em vez disso, calculou a previsão, fingindo que o valor de foreign foi 0,30434781 para cada observação no conjunto de dados. Algumas pessoas argumentam que avaliar a equação com estrangeiros igual a 0,304 é absurdo porque estrangeiro é uma variável dummy que leva apenas os valores 0 ou 1 ou o carro é estrangeiro, ou é doméstico. Por outro lado, pode-se interpretar os resultados com estrangeiros igual a 0,304 como pertencentes a um carro que contém 70 peças nacionais e 30 peças estrangeiras. Se forçar uma variável dummy permanecer 0 ou 1 ao formar previsões depende inteiramente do contexto do modelo. O poder real do ajuste é o de ser capaz de criar previsões assumindo certos valores para algumas das variáveis ​​independentes. Suponha que eu quisesse saber a economia média prevista de combustível dos carros pelo rep78 sob a suposição que todos os carros são domésticos. Com ajuste. Isso é fácil de fazer: Claro, você pode especificar mais de uma variável com ajuste. E você pode ter algumas variáveis ​​definidas para valores que você especificar e outras variáveis ​​definidas em seus meios. Por exemplo, agora eu quero saber a economia de combustível média por rep78 sob os pressupostos de que todos os carros são domésticos e todos os carros são do mesmo comprimento (média). Eu não tenho idéia do que o comprimento médio dos carros é, então eu vou deixar ajustar figurar para fora: Como o topo da saída mostra, ajustar o comprimento do conjunto igual ao seu valor médio de 188.28986, e definir foreign igual a 0 como nós Requeridos. Porque pedimos que os resultados fossem tabulados com base no rep78. A média de comprimento foi calculada usando apenas as 69 observações para as quais rep78 não está ausente. As 5 observações com um rep78 em falta são completamente ignoradas por ajuste. Mesmo que tenham sido utilizados na regressão original. Na verdade, ajustar é realmente apenas um front end para prever. E é útil trabalhar através da mecânica de um exemplo para ilustrar isso. A tabela de resultados anterior poderia ter sido obtida da seguinte maneira: A vantagem do ajuste é que não temos que preservar nossos dados, resumi-los e substituí-los e, em seguida, chamar o tabstat nós mesmos. O código a seguir tentará replicar os resultados de A função lm () em R. Para este exercício, vamos usar um conjunto de dados de corte transversal fornecido por R chamado 8220women8221, que tem dados de altura e peso para 15 indivíduos. A equação de regressão OLS: onde um termo de erro de ruído branco. Para este exemplo, peso e altura. O impacto marginal uma mudança de uma unidade na altura tem sobre o peso. Lembre-se que a seguinte equação de matriz é usada para calcular o vetor de coeficientes estimados de uma regressão de OLS: onde a matriz de dados de regressor (a primeira coluna é toda 18217s para a interceptação) eo vetor de dados de variável dependente. Operadores de matriz em R as. matrix () coagindo um objeto na classe de matriz. T () transpõe uma matriz. É o operador para a multiplicação matricial. Solve () toma o inverso de uma matriz. Note, a matriz deve ser invertible. Para uma introdução mais completa às operações matriciais em R, confira esta página. Voltar para OLS O código a seguir calcula a matriz 2 x 1 de coeficientes: Calculando erros padrão Para calcular os erros padrão, primeiro você deve calcular a matriz de variância-covariância (VCV), da seguinte forma: A matriz VCV será uma matriz kxk quadrada . Os erros padrão para os coeficientes estimados são encontrados tomando a raiz quadrada dos elementos diagonais da matriz VCV. A Scatterplot com OLS linha Women039s altura vs peso usando plot () e abline () funções em R. Agora você pode verificar os resultados acima usando a função lm (): Regressão linear simples Criando a linha de regressão Cálculo b1 b0, criando o Linha e testando seu significado com um teste t. DEFINIÇÕES: b1 - Esta é a INCLINAÇÃO da linha de regressão. Assim, esta é a quantidade que a variável Y (dependente) mudará para cada mudança de 1 unidade na variável X. B0 - Esta é a intercepção da linha de regressão com o eixo y. Em outras palavras, é o valor de Y se o valor de X 0. Y-hat b0 b1 (x) - Esta é a linha de regressão da amostra. Você deve calcular b0 b1 para criar esta linha. Y-hat representa o valor predito de Y, e pode ser obtido conectando um valor individual de x na equação e calculando y-hat. EXEMPLO: Uma empresa quer ver se há vendas é explicado pelo número de horas extras que seus vendedores trabalham. Usando uma planilha contendo 25 meses de números de horas extras de vendas, os seguintes cálculos são feitos SSx 85, SSy 997 e SSxy 2,765, X-bar 13 e Y-bar 67,987, também s (b1) 21,87. Crie a linha de regressão. (1) find b1 - Um método de caluação b1 é b1 SSxy / SSx 2765/85 32,53. Esta é a inclinação da linha - para cada mudança de unidade em X, y aumentará em 32,53. É um número positivo, portanto, é uma relação direta - como X sobe, assim faz Y. No entanto, se b1 -32.53, então saberíamos que a relação entre XY é uma relação inversa - como X vai para cima, y ​​vai para baixo) (2) encontrar b0 - novamente a fórmula está na pg. 420 e é b0 Y-bar - b1 (x-bar) 67.987 - 32.53 (13) 67.987 - 422.89 67.564, esta é a intercepção da linha e do eixo Y, e pode ser interpretada como o valor de Y se zero horas De horas extras (x0) são trabalhadas. (3) Criar Linha - Y-hat b0 b1 (x) ou Y-hat 67,564 32,53 (x), Esta linha quantifica a relação entre X Y. Mas esta Relação é Significativa. Uma vez que se baseia em uma amostra e queremos generalizar para uma população, ela deve ser testada para ver se ela é significativa, ou seja, a relação que encontramos realmente existe na população ou é o resultado devido ao erro de amostragem Não representam a verdadeira população). O teste específico que usamos é um teste t para testar se b1 é diferente de 0. Como B1 seria a inclinação da linha de regressão na população, faz sentido testar se é diferente de zero. Se for zero, então nossa inclinação é 0, significando que se grafamos a relação entre XY, acabaríamos com uma linha horizontal (plana). E se esta linha é plana, então sabemos que não importa o valor da variável X assume, o valor Y variáveis ​​não vai mudar. Isso significa que não há relação linear entre as duas variáveis. Isso também significa que a linha de regressão que calculamos é inútil para explicar ou prever a variável dependente. TESTE B1 Utilizamos o nosso procedimento de teste de hipóteses de cinco passos. Hipóteses: H0: B1 0, H1: B1 não 0 Valor crítico: um valor t baseado em n-2 graus de liberdade. Também dividir alfa por 2 porque é um teste de 2 colas. Neste caso n 25 (dados de 25 meses usados) assim n-2 23. Com alfa .05 temos alfa / 2 .025 e depois t 2.069 (de t-tabela dentro da capa do livro). Valor calculado: A fórmula está na página 442 e é simplesmente t b1 / s (b1) 32,53 / 21,87 1,49. S (b1) é o erro padrão de b1 e é dado no problema) Comparação: t-calc Correlação A correlação é uma medida do grau de associação linear entre duas variáveis. O valor de uma correlação pode variar de -1, a 0, a 1. Uma correlação 0 significa que não há associação LINEAR entre as duas variáveis, um valor de -1 ou 1 significa que há uma associação linear perfeita entre as duas variáveis, Sendo a diferença que -1 indica uma relação inversa perfeita e 1 uma relação positiva perfeita. A notação de amostra para uma correlação é r enquanto que o coeficiente de correlação populacional é representado pela letra grega Rho (que se parece com um p pequeno). Muitas vezes queremos descobrir se uma correlação de amostra calculada seria significativa. Novamente, isso significaria que testaríamos para ver se Rho 0 ou não. Se Rho0 então não haveria relação linear entre as duas variáveis ​​na população. EXEMPLO: Com base em uma amostra de 42 dias, calcula-se a correlação entre as vendas eo número de horas ensolaradas no dia para a loja Sunglass Hut no Meridian Mall. O r .56. Esta é uma correlação significativa Este é um teste básico de hipóteses. O teste t para a significância de Rho tem n-2 graus de liberdade, e alfa terá de ser dividido por 2, assim, n-2 40 e alfa (0,05 / 2) 0,025. Da tabela encontramos: 2.021. Valor calculado: A fórmula na página 438 é t r / sqr raiz de (1-r-sqrd) / (n-2). Neste caso, que é igual a 0,56 / a raiz quadrada de (1-.56-quadrado) / (40) .56 / .131 4.27 Comparar: O t-calc é maior do que o t-crit assim REJEITAM Ho. Conclusão: Rho não é igual a zero e, portanto, há evidência de uma associação linear entre as duas variáveis ​​na população. O teste F em Regressão EXEMPLO Usando a informação fornecida, construa a tabela ANOVA e determine se há uma relação de regressão entre anos de posse de carro (Y) e salário (X). N 47, SSR 458 e SSE 1281. Tabela de ANOVA: A tabela de anova está na página 451, e é basicamente a mesma que uma tabela ANOVA unidirecional. A primeira coisa que precisamos é o df e, por definição, o df para a regressão 1, o df para o erro n-2 ou 45 eo total df n-1 ou 46. Em seguida, precisamos dos cálculos MS. MSR SSR / df para a regressão SSR / 1 SSR ou 458. MSE SSE / n-2 1281/45 28,47. Finalmente, o F-calc MSR / MSE ou 458 / 28,47 16,09. Hipóteses: H0: Não há relação de regressão, ie, B1 0. H1: Há uma relação de regressão, ou seja, B1 não é 0. Valor crítico: F (num. Df, den. Alfa .05 4.08 Valor calculado: de cima ANOVA tabela 16.09 Comparar: F-calc maior do que F-crit assim REJEITAR Conclusão: Existe uma regressão (linear) relação entre anos de propriedade de carro e salário. O Coeficiente de Determinação - r-sqrd Também podemos testar a significância do coeficiente de regressão usando um teste F. Como temos apenas um coeficiente na regressão linear simples, este teste é análogo ao teste t. No entanto, quando se procede à regressão múltipla, o teste F será um teste de TODOS os coeficientes de regressão conjuntamente sendo 0. (Nota: b0 não é um coeficiente e geralmente não testamos sua significância, embora pudéssemos fazer isso com um R-sqrd é sempre um número entre 0 e 1. Quanto mais próximo estiver de 1,0, melhor a relação XY prediz ou explica a variância em Y. Infelizmente não há valores definidos que permitem que você Para dizer que é um bom r-sqrd ou r-sqrd ruim. Uma determinação é subjetiva e é determinada pela pesquisa que você está conduzindo. Se ninguém nunca explicou mais que 15 da variância em alguma variável Y antes, e você projetar Um estudo que explica 25 de variância, então isso pode ser considerado bom r-sqrd, mesmo que o número real, 25, não é muito alto. Exemplo: O que é o r-sqrd se SSR 345 e SSE 123 r-sqrd SSR / SST. Nós não temos SST, mas sabemos que SSR SSE SST, portanto SST 345 123 468, portanto r-sq 345/468.737.Isso significa que a relação de regressão entre XY explica 73.7 da variância na variável Y. Na maioria das circunstâncias isso seria uma quantia alta, mas novamente teríamos que saber mais sobre nossos varaíveis de pesquisa.

No comments:

Post a Comment