AVISO: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisa e Educação Digital, ajudando o Grupo de Consultoria Stat, dando um presente. Dados da Stata Exemplos Tobit Analysis Versão info: O código para esta página foi testado em Stata 12. O modelo de cofragem, também chamado de modelo de regressão censurada, é projetado Para estimar relacionamentos lineares entre variáveis quando há censura esquerda ou direita na variável dependente (também conhecida como censura por baixo e acima, respectivamente). O Censar de cima ocorre em casos com um valor igual ou superior a um limite, assumindo o valor desse limite, de modo que o valor real possa ser igual ao limiar, mas também pode ser maior. No caso de censura de baixo, os valores que caem em ou abaixo de algum limite são censurados. Nota: O objetivo desta página é mostrar como usar vários comandos de análise de dados. Não abrange todos os aspectos do processo de pesquisa que os pesquisadores devem fazer. Em particular, não abrange a limpeza e verificação de dados, a verificação de premissas, o diagnóstico de modelo e as possíveis análises de acompanhamento. Exemplos de regressão do cofre Exemplo 1. Na década de 1980, havia uma lei federal que restringia as leituras do velocímetro a não mais de 85 mph. Então, se você quisesse tentar prever uma velocidade máxima de veículos de uma combinação de potência de cavalo e tamanho do motor, você obteria uma leitura não superior a 85, independentemente de quão rápido o veículo realmente viajasse. Este é um caso clássico de censura à direita (censura de cima) dos dados. A única coisa a que estamos certos é que esses veículos estavam viajando pelo menos 85 mph. Exemplo 2. Um projeto de pesquisa está estudando o nível de liderança em água potável doméstica em função da idade de uma renda familiar e familiar. O kit de teste de água não pode detectar concentrações de chumbo abaixo de 5 partes por bilhão (ppb). A EPA considera que os níveis acima de 15 ppb são perigosos. Esses dados são um exemplo de censura à esquerda (censura de baixo). Exemplo 3. Considere a situação em que temos uma medida de aptidão acadêmica (escalada 200-800) que queremos modelar usando pontuação de leitura e de teste de matemática, bem como, o tipo de programa em que o aluno está matriculado (acadêmico, geral , Ou vocacional). O problema aqui é que os alunos que respondem todas as perguntas no teste de aptidão acadêmica recebem corretamente uma pontuação de 800, embora seja provável que esses alunos não sejam verdadeiramente iguais em aptidão. O mesmo é verdade para os alunos que respondem incorretamente a todas as perguntas. Todos esses estudantes teriam uma pontuação de 200, embora eles não sejam todos de mesma aptidão. Descrição dos dados Leve o exemplo 3 acima. Temos um arquivo de dados hipotético, tob. dta com 200 observações. A variável de aptidão acadêmica é apt, os resultados dos testes de leitura e matemática são lidos e matemática, respectivamente. A variável prog é o tipo de programa no qual o aluno está, é uma variável categórica (nominal) que assume três valores, acadêmico (prog 1), geral (prog 2) e vocacional (prog 3). Vamos ver os dados. Note-se que neste conjunto de dados, o valor mais baixo do apt é 352. Nenhum aluno recebeu uma pontuação de 200 (ou seja, a pontuação mais baixa possível), o que significa que mesmo que a censura de baixo fosse possível, não ocorre no conjunto de dados. Olhando para o histograma acima, mostrando a distribuição do apt. Podemos ver a censura nos dados, ou seja, há muito mais casos com pontuações de 750 a 800 do que se esperaria olhar para o resto da distribuição. Abaixo está um histograma alternativo que destaca o excesso de casos em que 800 apt. No histograma abaixo, a opção discreta produz um histograma onde cada valor exclusivo de apt possui sua própria barra. A opção freq faz com que o eixo y seja marcado com a frequência para cada valor, em vez da densidade. Como o apt é contínuo, a maioria dos valores de apt são únicos no conjunto de dados, embora próximo ao centro da distribuição existam alguns valores de apt que tenham dois ou três casos. O pico na extrema direita do histograma é a barra para casos em que 800, a altura desta barra em relação a todos os outros mostra claramente o número excessivo de casos com esse valor. Em seguida, explore as relações bivariadas em nosso conjunto de dados. Na última linha da matriz de dispersão mostrada acima, vemos os diagramas de dispersão mostrando leitura e apt. Bem como matemática e apt. Observe a coleta de casos no topo de cada ponto de dispersão devido à censura na distribuição do apt. Os métodos de análise que você pode considerar abaixo são uma lista de alguns métodos de análise que você pode ter encontrado. Alguns dos métodos listados são bastante razoáveis, enquanto outros já caíram fora de favor ou têm limitações. Regressão de Tobit, o foco desta página. Regressão OLS - Você poderia analisar esses dados usando a regressão OLS. A regressão OLS tratará os 800 como os valores reais e não como o limite superior da aptidão acadêmica superior. Uma limitação desta abordagem é que quando a variável é censurada, o OLS fornece estimativas inconsistentes dos parâmetros, o que significa que os coeficientes da análise não abordarão necessariamente os parâmetros da população quottruequot à medida que o tamanho da amostra aumenta. Veja Long (1997, capítulo 7) para uma discussão mais detalhada dos problemas de utilização da regressão OLS com dados censurados. Regressão Truncada - Às vezes, há confusão sobre a diferença entre dados truncados e dados censurados. Com variáveis censuradas, todas as observações estão no conjunto de dados, mas não conhecemos os valores quottruequot de alguns deles. Com o truncamento, algumas das observações não estão incluídas na análise por causa do valor da variável. Quando uma variável é censurada, modelos de regressão para dados truncados fornecem estimativas inconsistentes dos parâmetros. Veja Long (1997, capítulo 7) para uma discussão mais detalhada dos problemas de usar modelos de regressão para dados truncados para analisar dados censurados. Regressão de Tobit Abaixo, executamos o modelo de bala, usando a leitura. Matemática. E prog para prever apt. A opção ul () no comando tobita indica o valor no qual a censura direita começa (ou seja, o limite superior). Há também uma opção ll () para indicar o valor da censura à esquerda (o limite inferior) que não era necessário neste exemplo. O eu. Antes de prog indicar que prog é uma variável de fatores (ou seja, variável categórica) e que deve ser incluída no modelo como uma série de variáveis falsas. Note que esta sintaxe foi introduzida no Stata 11. A probabilidade de log final (-1041.0629) é mostrada no topo da saída, ela pode ser usada em comparações de modelos aninhados, mas não vamos mostrar um exemplo disso aqui. Também no topo da saída, vemos que todas as 200 observações em nosso conjunto de dados foram usadas na análise (menos observações teriam sido usadas se qualquer uma de nossas variáveis tivesse valores faltantes). O coeficiente de verossimilhança do qui-quadrado de 188.97 (df4) com um valor p de 0.0001 nos diz que nosso modelo como um todo se encaixa significativamente melhor do que um modelo vazio (ou seja, um modelo sem preditores). Na tabela, vemos os coeficientes, seus erros padrão, a estatística t, os p-valores associados e o intervalo de confiança 95 dos coeficientes. Os coeficientes de leitura e matemática são estatisticamente significativos, assim como o coeficiente para o prog. 3. Os coeficientes de regressão de Tobit são interpretados de forma semelhante aos coeficientes de regressão OLS no entanto, o efeito linear é a variável latente não censurada e não o resultado observado. Veja McDonald e Moffitt (1980) para mais detalhes. Para um aumento de uma unidade na leitura. Há um aumento de 2,7 pontos no valor previsto do apt. Um aumento de uma unidade em matemática está associado a um aumento de unidade de 5,91 no valor previsto de apt. Os termos para prog têm uma interpretação ligeiramente diferente. O valor previsto de apt é 46.14 pontos menor para estudantes em um programa vocacional (prog 3) do que para estudantes em um programa acadêmico (prog 1). O sigma estatístico auxiliar é análogo à raiz quadrada da variância residual na regressão OLS. O valor de 65,67 pode ser comparado ao desvio padrão da aptidão acadêmica, que foi de 99,21, uma redução substancial. A saída também contém uma estimativa do erro padrão do sigma, bem como o intervalo de confiança 95. Finalmente, a saída fornece um resumo do número de valores censurados à esquerda, sem censura e censurados à direita. Podemos testar um efeito geral de prog usando o comando de teste. Abaixo, vemos que o efeito geral do prog é estatisticamente significativo. Também podemos testar hipóteses adicionais sobre as diferenças nos coeficientes para diferentes níveis de prog. Abaixo, nós testamos que o coeficiente para prog 2 é igual ao coeficiente para prog 3. Na saída abaixo, vemos que o coeficiente para prog 2 é significativamente diferente do coeficiente para prog 3. Podemos também querer ver medidas de quão bem Nosso modelo se encaixa. Isso pode ser particularmente útil ao comparar modelos concorrentes. Um método para fazer isso é comparar os valores previstos com base no modelo tobito para os valores observados no conjunto de dados. Abaixo, usamos prever para gerar valores preditos de apt com base no modelo. Em seguida, correlacionamos os valores observados de apt com os valores previstos (yhat). A correlação entre os valores preditos e observados de apt é 0.7825. Se dimensionarmos esse valor, obtemos a correlação quadrada múltipla, isso indica que valores preditos compartilham cerca de 61 (0.78252 0.6123) de sua variância com o apt. Além disso, podemos usar o comando de comando escrito pelo usuário para produzir uma variedade de estatísticas de ajuste. Você pode encontrar mais informações sobre fitstat digitando findit fitstat (consulte Como posso usar o comando findit para pesquisar programas e obter ajuda adicional para obter mais informações sobre como usar findit). O Manual de Stata Online toca os Comandos de Stata relacionados cnreg - censura normal censurada, na qual os valores de censura podem mudar de observação para observação. Regressão intra-intervalo, em que as observações podem ser dados pontuais, dados de intervalo, dados censurados à esquerda ou dados censurados à direita. Referências longas, J. S. (1997). Modelos de regressão para variáveis categóricas e dependentes limitadas. Thousand Oaks, CA: Sage Publications. McDonald, J. F. e Moffitt, R. A. 1980. Os usos da análise de Tobit. The Review of Economics and Statistics Vol. 62 (2): 318-321. Tobin, J. (1958). Estimativa de relacionamentos para variáveis dependentes limitadas. Econometrica 26: 24-36. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da University of California. Stata: Análise de dados e software estatístico Novos recursos para resultados censurados e modelos de tobas Muitas vezes, não podemos observar ou Medir um resultado em toda sua gama. Testes para detectar uma toxina muitas vezes requerem que a toxina exceda um limiar antes de poder ser detectada por censura à esquerda. Os pesos dos pacientes serão censurados no limite superior da escala usada para pesar a censura do direito. Relacionados à censura à esquerda e à direita são medidas de intervalo, ou censura de intervalo. Os rendimentos podem ser pesquisados em intervalos (0 a 10.000, 10.001 a 30.000, 30.001 a 60.000, 60.001 e mais), ou o peso do paciente pode ser registrado em intervalos (0ndash80 libras, 81ndash120 libras, 121ndash150 libras, 151ndash180 libras, 181ndash220 libras, 221ndash250 libras , Mais de 250 libras). A Stata tem sido capaz de estimar modelos de regressão com resultados censurados. A balança pode estimar modelos com censura esquerda ou direita em valores fixos. Intreg pode estimar modelos com medidas de intervalo ou censura que variam de acordo com as observações. Novas com a atualização Stata 13.1, agora você pode estimar modelos com resultados gaussianos censurados ou medidos em intervalos que também incluem seleção de estilo Heckman, tratamentos endógenos para obter efeitos médios de tratamento (ATEs), erro de medida covariável e componentes não observados. Você pode incluir regressores endógenos em qualquer parte dos modelos. Você também pode estimar esses modelos em um contexto de dados de painel ou multi-nível com efeitos aleatórios (interceptações) e coeficientes aleatórios em qualquer parte ou todas as partes do modelo. Todos esses modelos podem ser estimados como partes de sistemas multivariados maiores. Os resultados censurados ou medidos em intervalos podem até mesmo participar de modelos de comutação endógena. Imagine que temos dados sobre os rendimentos. Esses dados geralmente são codificados, ou censurados em um limite superior, para aumentar as taxas de relatórios. Se esse limite fosse de 150.000, poderíamos estimar um modelo de regressão de renda sobre educação e idade digitando (Podemos preferir registrar renda, mas por simplicidade, usaremos renda aqui.) Todas as novas características são obtidas usando a equação estrutural generalizada de Stata 13rsquos Modelando commandmdash gsem. O comando equivalente gsem é: podemos introduzir uma covariável endógena, digamos, semanas trabalhadas, adicionando uma equação por semanas com instrumentos (z1 e z2) e um componente comum não observado (UC) com as restrições identificadas especificadas. Se tivermos dados de painel com medidas repetidas em indivíduos (id), podemos introduzir um efeito aleatório (interceptar) no modelo de renda adicionando REID. Podemos até adicionar um coeficiente aleatório na idade ao interagir uma variável latente aleatória (RCid) com a idade. A manipulação da seleção de estilo Heckman na estrutura gsem requer um pouco de configuração. Um exemplo de resultado não censurado pode ser visto no Manual de Referência de Modelagem de Equações Estruturais. Para resultados censurados, você simplesmente precisa adicionar a opção subcapítulo lcensored () ou rcensored () à família (). Para dados medidos em intervalos, adicione a subopção ldepvar () ou udepvar () para especificar o limite inferior ou superior do intervalo. A variável dependente especifica o outro limite. Um exemplo de efeitos de tratamento endógeno com censura pode ser visto no Manual de Referência de Modelagem de Equações Estruturais. Mais uma vez, apenas adicione lcensored () ou rcensored () a family () se o resultado for censurado. Para dados medidos em intervalos, adicione a subopção ldepvar () ou udepvar () para especificar o limite inferior ou superior do intervalo. A variável dependente especifica o outro limite. Você pode usar os comandos mostrados acima ou o Statarsquos SEM Builder para criar e estimar esses modelos. A Stata 13.1 fornece tudo o que você poderia querer com resultados censurados. Leia sobre os outros novos recursos fornecidos pela SEM generalizada. Você encontrará uma visão geral de SEM e SEM generalizado, links para vídeos, links para exemplos trabalhados e até mesmo o PDF completo do Manual de Referência de Modelagem de Equações Estruturais Stata 13rsquos.
Comments
Post a Comment