RESUMO
RESUMEN En este artículo se introducen los ensayos clínicos aleatorizados y conceptos básicos de la inferencia estadística. Se presenta como calcular el tamaño de muestra por tipo de desenlace e hipótesis a probar, junto con el código en el lenguaje de programación R para realizar su aplicación. Se presentan cuatro métodos para realizar el ajuste del tamaño de muestra original, cuando se planean análisis interinos. De una manera sencilla y concreta se busca realizar una introducción a estos temas, considerando las expresiones matemáticas que soportan los resultados y su implementación en programas estadísticos disponibles. Con el fin de acercar a los estudiantes de áreas de la salud a la estadística y al uso de programas estadísticos, aspectos poco considerados en su formación.
ABSTRACT This article introduces randomized clinical trials and basic concepts of statistical inference. We present methods for calculating the sample size by outcome type and the hypothesis to be tested, together with the code in the R programming language. We describe four methods for adjusting the original sample size for interim analyses. We sought to introduce these topics in a simple and concrete way, considering the mathematical expressions that support the results and their implementation in available statistical programs; therefore, bringing health students closer to statistics and the use of statistical programs, which are aspects that are rarely considered during their training.
RESUMO
El factor de Bayes resulta una prueba recomendable para la comprobación de las hipótesis esta-dísticas atendiendo al estado de los p valores, empleando la escala de clasificación de Jeffreys preferiblemente
The Bayes factor is a recommended test for the verification of statistical hypotheses taking into account the state of the p values, preferably using the Jeffreys classification scale.
Assuntos
Humanos , Masculino , Feminino , Testes de Hipótese , Análise Fatorial , Pesquisa Operacional , Software , EstatísticaRESUMO
Las pruebas de asociación entre marcadores moleculares y variables fenotípicas son cruciales para la identificación de QTL (Quantitative Trait Loci). Los avances biotecnológicos incrementaron la disponibilidad de marcadores genéticos y consecuentemente el número de pruebas de la asociación fenotipo-genotipo. El incremento de pruebas de significancia estadística a realizar en simultaneo (multiplicidad) demanda correcciones de los valores-p obtenidos para cada prueba de hipótesis de manera de mantener acotada las tasas de error para la familia de pruebas de asociación. Las correcciones estadísticas clásicas para el problema de multiplicidad, como Bonferroni, el método de control de la tasa de falsos descubrimientos (FDR) y el número efectivo de pruebas (Meff), son ampliamente usadas, pero fueron desarrolladas para datos independientes. Sin embargo, cuando las poblaciones de mapeo están genéticamente estructuradas los datos dejan de ser independientes. En este trabajo, proponemos un método de corrección por multiplicidad basado en estimación del número efectivo de pruebas desde un modelo que ajusta por la estructura de correlación subyacente. Se evalúa el desempeño del procedimiento propuesto a través del análisis de los valores-p obtenidos para un conjunto de QTL simulados. Los resultados sugieren que el método propuesto provee control de la tasa de falsos positivos y presenta mayor potencia que otros métodos de corrección por multiplicidad usados en mapeo asociativo.
The association tests between molecular markers and phenotypic traits are crucial for the Quantitative Trait Loci (QTL) identification. Biotechnological advances increased the molecular marker information; consequently, the number of genotype-phenotype association tests required incremented too. The multiple statistical inferences (multiplicity) demand corrections of the p-values obtained for each comparison in order to keep limited the error rates for the family of association tests. However, classic statistical correction methods such as Bonferroni, False Discovery Rate (FDR) and the Effective Number of Independent Test (Meff) were developed in the context of independent data. Wherever, when the population genetic structure is present, the data are no longer independent. In this paper, we propose a method of correction for multiplicity based on estimation of the effective number of tests from a model that adjust for the underlying correlation structure. We evaluate the performance of the proposed procedure in the estimation of p-values for a set of simulated QTL. The results suggest that the proposed method provides control of FDR and has more power than other methods for multiplicity correction used in association mapping.
RESUMO
Objetivo: Comparar el desempeño de cuatro pruebas estadísticas para la evaluación de la confiabilidad prueba/re-prueba de variables continuas. Métodos: estudio de simulación estadística desarrollado dentro en el marco de un estudio de pruebas diagnósticas in vitro en 120 dientes que cumplieron con los criterios de selección. Para cada diente posicionado en un dispositivo de estandarización se tomaron dos radiografías digitales (T0 y T1) a las cuales se evaluó la longitud dental. Los datos se analizaron con estadística descriptiva y luego la comparación estadística a través de "t" de Student pareada, coeficiente de correlación intraclase, coeficiente de correlación de Pearson y coeficiente de correlación y concordancia de Lin en el paquete Stat v.13.2 para Windows (StataCorp., TX., USA). Resultados: La media de longitud dental para T0 fue 21,15 mm y para T1 21,07 mm. La prueba "t" de Student reveló una diferencia de medias de 0,089 (P=0,00). El coeficiente de correlación intraclase fue 0,877 (IC 95%: 0,43 - 0,98), coeficiente de correlación de Pearson 0,93 y el coeficiente de correlación y concordancia de Lin 0,93 (IC 95%: 0,908 - 0,956). Conclusiones: La selección de una prueba estadística para evaluación de concordancia prueba/re-prueba debe hacerse teniendo en cuenta los objetivos del estudio en cada contexto y la posibilidad de cada método estadístico de valorar la presencia de error en los datos. Así, un método que actualmente cumple con este requerimiento esencial es el coeficiente de correlación y concordancia de Lin por lo cual se recomienda su uso en futuros estudios.
Objective: To compare the performance of four statistical tests in continuous variables test/retest reliability assessment. Methods: Statistical simulation study developed in the framework of an in vitro diagnostic test study including 120 teeth which met the inclusion criteria. Each tooth was positioned in a standardization device and was taken two digital x-rays (T0 and T1) in which we assessed tooth-length. Data were analyzed with descriptive statistics and then a statistical comparison was done with paired Student's "t" test, intraclass correlation coefficient, Pearson correlation coefficient and Lin's concordance correlation coefficient in Stata v.13.2 for Windows (StataCorp., TX., USA). Results: The average dental length for T0 was 21.15 mm and for T1 21.07 mm. Student's "t" test revealed an average difference of 0.089 (P=0.00). The intraclass correlation coefficient 0.877 (95% CI: 0.43 - 0.98), Pearson's productmoment correlation coefficient 0.93, and Lin's concordance correlation coefficient 0.93 (95% CI: 0.908 - 0.956). Conclusions: Selection of a statistical test for test/re-test reliability assessment should be made having in mind the research objectives in any context and the possibility of each method for error assessment. Thus, a method that currently complies with this essential requirement is Lin's concordance correlation coefficient, which is recommended for future test re-test research studies.
RESUMO
Introducción: desde hace años, existe un debate sobre el uso de las pruebas estadísticas inferenciales en los reportes de resultados de investigación, se destaca la crítica al empleo de las pruebas de significación estadística y sus limitaciones. Objetivos: determinar la frecuencia de empleo de las pruebas de significación estadística (PSE) e intervalos de confianza (IC) por tipos de estudio publicado, cómo se reflejan los resultados de estas, la influencia del tamaño de la muestra, así comosu vinculación con las conclusiones. Resultados: en el periodo 2010 - 2015 de 150 artículos originales, 98 por ciento fueron descriptivos o explicativos y de ellos, el 95 por ciento emplea las PSE, solas o con IC. Predomina el uso de las PSE solas (69 por ciento de los trabajos). En el 25 por ciento se explica la selección del nivel de significación utilizado y el 53 por ciento de los estudios reflejan las cifras exactas de las pruebas realizadas. Solo el 15 por ciento menciona la influencia del tamaño de la muestra en relación con los resultados de las pruebas estadísticas. En las conclusiones, el 86 por ciento de los artículos se refieren adecuadamente a los objetivos del estudio. Conclusiones: predomina el uso de las PSE e IC, fundamentalmente de las PSE, más de la mitad de los trabajos mencionan los resultados precisos de las pruebas, la mayoría no argumenta la relación de estos resultados con el tamaño de la muestra y los autores elaboran las conclusiones de acuerdo con los objetivos planteados en el estudio(AU)
Introduction: For years there has been a debate about the use of inferential statistical tests in the reports of research results, highlighting the criticism to the use of tests of statistical significance and its limitations. Objectives: To determine the frequency of use of statistical significance tests (SST) and confidence intervals (CI) by published study types, how the results are reported, and the influence of sample size, as well as their relationship with the conclusions. Results: In the period 2010-2015 of 150 original articles, 98 percent were descriptive or explanatory and of them, 95 percent used SST alone or with CI. The use of SST alone (69 percent of the articles) predominates. In 25 percent the significance level selection is explained and 53 percent of the studies reflect the exact figures of the tests performed. Only 15 percent mentions the influence of sample size on the results of statistical tests. In the conclusions, 86 percent of the articles refer adequately to the objectives of the study. Conclusions: SST and CI use predominate, mainly SST, more than half of the studies mention the precise results of the tests, most do not argue the relation of these results to the sample size and the authors elaborate the conclusions in accordance with the objectives set out in the study(AU)
Assuntos
Humanos , Testes de Hipótese , Interpretação Estatística de Dados , Fator de Impacto de Revistas , Medicina Militar/estatística & dados numéricos , Intervalos de ConfiançaRESUMO
Las Pruebas de Hipótesis son el procedimiento de análisis más conocido por los investigadores y utilizado en las revistas científicaspero, a su vez, ellas han sido fuertemente criticadas, su uso ha sido cuestionado y restringido en algunos casos por las inconsistenciasobservadas en su aplicación. Este problema se analiza, en este artículo, tomando como punto de partida los Fundamentos de laMetodología Estadística y los diferentes enfoques que históricamente se han desarrollado para abordar el problema del análisis delas Hipótesis Estadísticas. Resaltándose un punto poco conocido por algunos: el carácter aleatorio de los valores P. Se presentanlos fundamentos de las soluciones de Fisher, Neyman-Pearson y Bayesiana y a partir de ellas se identifican las inconsistenciasdel procedimiento de conducta que indica identificar un valor P, compararlo con el valor del error de tipo I que usualmente esconsiderado como 0,05- y a partir de ahí decidir las conclusiones del análisis. Adicionalmente se identifican recomendaciones sobrecómo proceder en un problema, así como los retos a enfrentar, en lo docente y en lo metodológico, para analizar correctamente losdatos y determinar la validez de las hipótesis de interés...
Hypothesis testing is a well-known procedure for data analysiswidely used in scientific papers but, at the same time, strongly criticized and its use questioned and restricted in some cases due toinconsistencies observed from their application. This issue is analyzed in this paper on the basis of the fundamentals of the statisticalmethodology and the different approaches that have been historically developed to solve the problem of statistical hypothesis analysishighlighting a not well known point: the P value is a random variable. The fundamentals of Fisher´s, Neyman-Pearson´s and Bayesian´ssolutions are analyzed and based on them, the inconsistency of the commonly used procedure of determining a p value, compare it toa type I error value (usually 0.05) and get a conclusion is discussed and, on their basis, inconsistencies of the data analysis procedureare identified, procedure consisting in the identification of a P value, the comparison of the P-value with a type-I error value whichis usually considered to be 0.05 and upon this the decision on the conclusions of the analysis. Additionally, recommendations on thebest way to proceed when solving a problem are presented, as well as the methodological and teaching challenges to be faced whenanalyzing correctly the data and determining the validity of the hypotheses...
Os testes de hipóteses são o método de análisemelhor conhecido por pesquisadores e utilizado em revistas científicas; mas por sua vez, têm sido fortemente criticados, seu uso temsido questionado e, em alguns casos restritos pelas inconsistências observadas na sua aplicação. Esse problema é discutido neste artigo,tendo como ponto de partida os Fundamentos da Metodologia Estatística e as diferentes abordagens que historicamente têm sidodesenvolvidas para resolver o problema da analise das Hipóteses Estatísticas. Destacando-se um ponto pouco conhecido por alguns: ocaráter aleatório do p-valor. Apresentam-se os fundamentos das soluções de Fisher, Neyman-Pearson e Bayesiana e delas são identificadasas inconsistências do procedimento de conduta que orienta identificar um p-valor para compará-lo com o valor do erro de tipo I, queé geralmente considerado como 0,05 - e, posteriormente, decidir as conclusões da análise. Além disso, se identificam recomendaçõessobre como proceder num problema, e os desafios a serem enfrentados no ensino e no metodológico, para analisar corretamente osdados e determinar a validade das hipóteses de interesse...
Assuntos
Comportamento/fisiologia , Testes de HipóteseRESUMO
O artigo discute o impacto da plausibilidade (probabilidade a priori) no resultado de pesquisas científicas, conforme abordagem de Ioannidis, referente ao percentual de hipóteses nulas erroneamente classificadas como "positivas" (estatisticamente significante). A questão "qual fração de resultados positivos é verdadeiramente positiva?", equivalente ao valor preditivo positivo, depende da combinação de hipóteses falsas e positivas em determinada área. Por exemplo, sejam 90 por cento das hipóteses falsas e α = 0,05, poder = 0,8: para cada 1.000 hipóteses, 45 (900 x 0,05) serão falso-positivos e 80 (100 x 0,8) verdadeiro-positivos. Assim, a probabilidade de que um resultado positivo seja um falso-positivo é de 45/125. Adicionalmente, o relato de estudos negativos como se fossem positivos contribuiria para a inflação desses valores. Embora essa análise seja de difícil quantificação e provavelmente superestimada, ela tem duas implicações: i) a plausibilidade deve ser considerada na análise da conformidade ética de uma pesquisa e ii) mecanismos de registro de estudo e protocolo devem ser estimulados.
The paper discusses the impact of plausibility (the a priori probability) on the results of scientific research, according to the approach proposed by Ioannidis, concerning the percentage of null hypotheses erroneously classified as "positive" (statistically significant). The question "what fraction of positive results are true-positives?", which is equivalent to the positive predictive value, is dependent on the combination of true and false hypotheses within a given area. For example, consider an area in which 90 percent of hypotheses are false and α = 0.05 and power = 0.8: for every 1,000 hypotheses, 45 (900 x 0.05) are false-positives and 80 (100 x 0.8) are true-positives. Therefore, the probability of a positive result being a false-positive is 45/125. In addition, the reporting of negative results as if they were positive would contribute towards an increase in this fraction. Although this analysis is difficult to quantify, and these results are likely be overestimated, it has two implications: i) plausibility should be considered in the analysis of the ethical adequacy of a research proposal, and ii) mechanisms aimed at registering studies and protocols should be encouraged.
El artículo discute el impacto de la plausibilidad (probabilidad a priori) en el resultado de investigaciones científicas, conforme abordaje de Ioannidis, relacionado con el porcentaje de hipótesis nulas erróneamente clasificadas como "positivas" (estadísticamente significativas). La interrogante "cuál fracción de resultados positivos es verdaderamente positiva?", equivalente al valor predictivo positivo, depende de la combinación de hipótesis falsas y positivas en determinada área. Por ejemplo, sea el 90 por ciento de las hipótesis falsas y α= 0,05, poder= 0,8: para cada 1000 hipótesis, 45 (900 x 0,05) serán falsos positivos, y 80 (100 x 0,8) verdaderos positivos. Así, la probabilidad de que un resultado sea un falso positivo es de 45/125. Adicionalmente, el relato de estudios negativos como si fueran positivos contribuiría a la inflación de esos valores. A pesar de que el análisis sea de difícil cuantificación y probablemente super-estimado, el mismo tiene dos implicaciones: i) la plausibilidad debe ser considerada en el análisis de la conformidad ética de una investigación y ii) mecanismos de registro de estudio y protocolo deben ser estimulados.
Assuntos
Humanos , Pesquisa Biomédica , Interpretação Estatística de Dados , Probabilidade , Modelos Estatísticos , Reprodutibilidade dos Testes , Projetos de PesquisaRESUMO
Objetivo: Evaluar si un modelo de atención que se lleva a cabo en el nivel básico de la IPS COMFANDI y se fundamenta en una intervención temprana de factores de riesgo cardioavascular y aplicado a pacientes con distintos grados de enfermedad renal crónica, genera cambios significantes en parámetros clínicos y de laboratorio que se traduzcan en estabilización o regresión de la enfermedad. Materiales y métodos: Se seleccionaron al azar 362 pacientes con diversos grados de enfermedad renal del programa de riesgo cardiovascular (diabetes mellitus e hipertensión arterial, DM e HTA) con dos mediciones una antes y otra después de la intervención con intervalo de por lo menos 6 meses. Se realizaron pruebas de hipótesis de Wilcoxon para comparar medianas de las variables de interés clínico y de laboratorio así como la dinámica de cambio en la proporción de pacientes según estadío KDOQUI en ambos tiempos Resultados: En total se evaluaron 8 parámetros, 4 clínicos y 4 de laboratorio, así como la proporción de pacientes según estadío de nefropatía (KADOQUI) entre un tiempo y el otro. En las variables clínicas como tensión arterial sistólica, diastólica, media y proteinuria en 24 h, las diferencias encontradas entre antes y después de la intervención tuvieron significancia estadística. Pero, tanto en el índice de masa corporal (IMC) como en la glucemia y la microalbuminuria no hubo diferencias estadísticamente significantes entre las dos mediciones. Conclusión: La puesta en marcha de un modelo de atención en el nivel básico, que se centre en disminuir el riesgo de desarrollar enfermedad renal crónica, por medio de una terapia intensiva, en enfermedades como DM e HTA, produce resultados favorables en las segundas mediciones de variables clave de la enfermedad renal crónica y sugiere un impacto positivo en este problema de salud pública en Colombia.
Objective: To assess if a health care model implemented at the basic level of the IPS COMFANDI and based on an early intervention in cardiovascular risk factors and its application to patients with different levels of chronic renal disease, produces significant changes in lab and clinical parameters to be translated into stabilization or regression of the disease. Materials and methods: From the cardiovascular risk program 362 patients were randomly selected with different stages of renal disease, diabetes mellitus (DM), and arterial hypertension, (AHT). Two measurements were made: one before and another after the intervention, with an interval of six months. Wilcoxon hypotheses were tested to compare means of clinical interest and lab variables as well as dynamics of change in the number of patients according to KDOQUI stage, for both periods. Results: A total of 8 factors were evaluated: 4 clinical and 4 lab parameters, as well as patients proportion according to nephropathy stage (KADOQUI) found in the two periods. Clinical variables were measured for 24 hours such as systolic, diastolic and mean blood pressure and proteinuria which showed differences before and after the intervention that were statistically significant. BMI (body mass index), glycemia and microalbuminuria did not present statistically significant differences for the two measurements. Conclusion: Implementation of a basic level health care model focused on risk reduction for renal chronic disease, by means of an intensive therapy, has also an affirmative incidence on diseases such as diabetes and hypertension. Results are favorable when measuring key variables in renal chronic disease and suggest a positive impact regarding this important public health problem in Colombia.
Assuntos
Testes de Hipótese , História Natural das Doenças , Prevenção Primária , Análise de Regressão , Estabilização da Matéria OrgânicaRESUMO
OBJETIVOS: Caracterizar el empleo de las pruebas convencionales de significación estadística y las tendencias actuales que muestra su uso en tres revistas biomédicas del ámbito hispanohablante. MÉTODOS: Se examinaron todos los artículos originales descriptivos o explicativos que fueron publicados en el quinquenio de 19962000 en tres publicaciones: Revista Cubana de Medicina General Integral, Revista Panamericana de Salud Pública/Pan American Journal of Public Health y Medicina Clínica. RESULTADOS: En las tres revistas examinadas se detectaron diversos rasgos criticables en el empleo de las pruebas de hipótesis basadas en los "valores P" y la escasa presencia de las nuevas tendencias que se proponen en su lugar: intervalos de confianza (IC) e inferencia bayesiana. Los hallazgos fundamentales fueron los siguientes: mínima presencia de los IC, ya fuese como complemento de las pruebas de significación o como recurso estadístico único; mención del tamaño muestral como posible explicación de los resultados; predominio del empleo de valores rígidos de alfa; falta de uniformidad en la presentación de los resultados, y alusión indebida en las conclusiones de la investigación a los resultados de las pruebas de hipótesis. CONCLUSIONES: Los resultados reflejan la falta de acatamiento de autores y editores en relación con las normas aceptadas en torno al uso de las pruebas de significación estadística y apuntan a que el empleo adocenado de estas pruebas sigue ocupando un espacio importante en la literatura biomédica del ámbito hispanohablante.
Objective. To describe the use of conventional tests of statistical significance and the current trends shown by their use in three biomedical journals read in Spanishspeaking countries. Methods. All descriptive or explanatory original articles published in the five-year period of 1996 through 2000 were reviewed in three journals: Revista Cubana de Medicina General Integral [Cuban Journal of Comprehensive General Medicine], Revista Panamericana de Salud Pública/Pan American Journal of Public Health, and Medicina Clínica [Clinical Medicine] (which is published in Spain). Results. In the three journals that were reviewed various shortcomings were found in their use of hypothesis tests based on P values and in the limited use of new tools that have been suggested for use in their place: confidence intervals (CIs) and Bayesian inference. The basic findings of our research were: minimal use of CIs, as either a complement to significance tests or as the only statistical tool; mentions of a small sample size as a possible explanation for the lack of statistical significance; a predominant use of rigid alpha values; a lack of uniformity in the presentation of results; and improper reference in the research conclusions to the results of hypothesis tests. Conclusions. Our results indicate the lack of compliance by authors and editors with accepted standards for the use of tests of statistical significance. The findings also highlight that the stagnant use of these tests continues to be a common practice in the scientific literature