RESUMEN
ABSTRACT Objective: To evaluate the intra and inter observer agreement of the Sauvegrain, Greulich and Pyle methods. Material and methods: This is an observational, retrospective and cross-sectional study ethically approved by opinion 6,192,391. 100 radiographic images of the elbow and 100 of the left wrist and hand were collected from children whose images were selected by a researcher who did not carry out the evaluations. The Sauvegrain, Greulich and Pyle methods were used to determine bone age. We provided a detailed explanation of each method and the evaluators received a file with the study images. After three weeks, the exams were randomized and the radiograms were reevaluated. Of the 100 patients in group A, 61 (61%) were boys and 39 (39%) were girls. In group B, 67 (67%) were boys and 33 (33%) were girls. Four statistical analyzes were used: correlation; intraclass correlation; analysis using the Bland-Altman graph; differences between groups. Results: Intra and interobserver agreement between groups was considered excellent. Conclusions: Despite the excellent agreement, group A presented a significantly better value than B. Biological ages show a greater difference compared to chronological ages in group A. In group B, skeletal and chronological ages do not show statistical difference according to the accuracy test. Level of Evidence III, Cross-Sectional Observational Study.
RESUMO Objetivo: Avaliar a concordância intra e interobservadores dos métodos de Sauvegrain e Greulich e Pyle. Material e métodos: Trata-se de um estudo observacional, retrospectivo e transversal, aprovado eticamente pelo parecer 6.192.391. Foram coletadas cem imagens radiográficas do cotovelo e cem do punho e mão esquerdos de crianças, selecionadas por um pesquisador que não realizou as avaliações. Utilizou-se os métodos de Sauvegrain e Greulich e Pyle para determinar a idade óssea. Uma explicação detalhada de cada método foi realizada, e os avaliadores receberam um arquivo com as imagens do estudo. Após três semanas, os exames foram randomizados e os radiogramas reavaliados. Dos cem pacientes do grupo A, 61(61%) eram meninos e 39(39%) meninas. No grupo B, 67(67%) eram meninos e 33(33%) meninas. Quatro análises estatísticas foram utilizadas: correlação; correlação intraclasse; análise pelo gráfico de Bland-Altman; e diferenças entre grupos. Resultados: A concordância intra e interobservador entre os grupos foi considerada excelente. Conclusões: Apesar da concordância excelente, o grupo A apresentou valor significantemente melhor que o B. As idades biológicas apresentam maior diferença frente as idades cronológicas no grupo A. No grupo B, as idades esqueléticas e cronológicas não apresentam diferença estatística segundo o teste de acurácia. Level of Evidence III, Cross-Sectional Observational Study .
RESUMEN
Abstract Background: The training needed for doing obstetric ultrasounds is rarely reported. The aim of this study was to determine whether the training of the ultrasonographer influences the prenatal diagnostic certainty of some congenital malformations. Methods: We conducted a retrospective evaluation of antepartum sonographic findings of newborn infants found ultimately to have a congenital anomaly in a tertiary level pediatric reference center. Data were collected on admission for consecutive patients at a tertiary-level pediatric reference center. The mother´s pregnancy and birth demographic variables and those of the prenatal ultrasound (PUS) were analyzed and correlated with the final diagnosis. Results: Sixty-seven neonates were included. All cases underwent PUS with a mean of 4.6. Prenatal diagnosis was established in 24 cases (35.8%). Thirteen surgical anomalies were detected, particularly anorectal malformation and gastroschisis. The accuracy of PUS was associated with the training of the physician performing the PUS, whereby PUS with the greatest accuracy were performed by gynecologists and maternal-fetal specialists against radiologists and general practitioners (p = 0.005). Patients without an accurate prenatal diagnosis had a greater risk of presenting comorbidities (relative risk [RR]: 1.65, p = < 0.001, 95% confidence interval [CI]: 1.299-2.106). Conclusions: In our setting, prenatal diagnosis of these malformations is directly determined by the training of the person performing the ultrasound.
Resumen Introducción: Con poca frecuencia se ha reportado el entrenamiento necesario para realizar ultrasonido (US) obstétrico. El objetivo de este estudio fue determinar si el entrenamiento del ultrasonografista influye en la certeza del diagnóstico prenatal de algunas malformaciones congénitas. Métodos: Se llevó a cabo una evaluación retrospectiva de los hallazgos ultrasonográficos prenatales de neonatos que tuvieron malformaciones congénitas en un hospital de referencia pediátrico de tercer nivel. Se realizó al ingreso de neonatos consecutivos en un hospital de referencia de tercer nivel. Se recolectaron y analizaron datos del embarazo y alumbramiento, así como los de los ultrasonidos prenatales (USP) correlacionando con el diagnóstico final. Resultados: Se incluyeron 67 neonatos. Todos tuvieron USP con media de 4.6. Se realizó diagnóstico prenatal en 24 casos (35.8%). Se detectaron 13 malformaciones congénitas, predominando malformación anorectal gastrosquisis. La certeza del USP se asoció con el entrenamiento del individuo que realizó el US y la mayor certeza se encontró cuando lo realizaron ginecólogos y especialistas materno-fetales contra radiólogos y médicos generales (p = 0.005). Los pacientes sin diagnóstico prenatal certero tuvieron mayor riesgo de presentar comorbilidades (riesgo relativo [RR]: 1.65, p = < 0.001, 95% intervalo de confianza [CI]: 1.299-2.106). Conclusiones: En nuestro medio, el diagnóstico prenatal de estas malformaciones está determinado directamente por el entrenamiento de la persona que realiza el ultrasonido.
RESUMEN
Abstract Objective: To assess the reliability of phase-sensitive inversion recovery (PSIR) magnetic resonance imaging (MRI) and its accuracy for determining the topography of demyelinating cortical lesions in patients with multiple sclerosis (MS). Materials and Methods: This was a cross-sectional study conducted at a tertiary referral center for MS and other demyelinating disorders. We assessed the agreement among three raters for the detection and topographic classification of cortical lesions on fluid-attenuated inversion recovery (FLAIR) and PSIR sequences in patients with MS. Results: We recruited 71 patients with MS. The PSIR sequences detected 50% more lesions than did the FLAIR sequences. For detecting cortical lesions, the level of interrater agreement was satisfactory, with a mean free-response kappa (κFR) coefficient of 0.60, whereas the mean κFR for the topographic reclassification of the lesions was 0.57. On PSIR sequences, the raters reclassified 366 lesions (20% of the lesions detected on FLAIR sequences), with excellent interrater agreement. There was a significant correlation between the total number of lesions detected on PSIR sequences and the Expanded Disability Status Scale score (ρ = 0.35; p < 0.001). Conclusion: It seems that PSIR sequences perform better than do FLAIR sequences, with clinically satisfactory interrater agreement, for the detection and topographic classification of cortical lesions. In our sample of patients with MS, the PSIR MRI findings were significantly associated with the disability status, which could influence decisions regarding the treatment of such patients.
Resumo Objetivo: Avaliar a confiabilidade da sequência PSIR e sua precisão no diagnóstico topográfico de lesões corticais desmielinizantes em pacientes com esclerose múltipla (EM). Materiais e Métodos: Estudo transversal realizado em centro de referência terciário para EM e distúrbios desmielinizantes. Avaliamos a concordância entre três avaliadores na identificação e classificação topográfica de lesões corticais na ressonância magnética de pacientes com EM, utilizando as sequências FLAIR e PSIR. Resultados: Foram incluídos 71 pacientes com EM. Em PSIR detectou-se 1,5× mais lesões do que em FLAIR, com concordância satisfatória entre examinadores na identificação de lesões corticais, com coeficiente kappa de resposta livre (κFR) = 0,60, e na reclassificação topográfica das lesões, com κFR médio = 0,57. Os avaliadores reclassificaram 366 lesões em PSIR (20% das lesões detectadas em FLAIR), com excelente concordância. Houve correlação significativa do total de lesões detectadas em PSIR e o escore da escala de incapacidade EDSS (ρ = 0,35; p < 0,001). Conclusão: PSIR mostrou-se superior na detecção de lesões corticais e na classificação topográfica destas em comparação ao FLAIR, com concordâncias entre examinadores clinicamente satisfatórias. A associação significativa entre o número de lesões corticais em PSIR e o grau de incapacidade dos pacientes pode influenciar em decisões terapêuticas.
RESUMEN
Introducción: En 2013, desarrollamos una escala, para evaluar resúmenes de congresos de la Sociedad de Cirujanos de Chile (SOCICH). Objetivo: Determinar consistencia interna y confiabilidad interobservador de una escala para evaluar resúmenes de congresos. Material y Método: Estudio de confiabilidad. Doce cirujanos fueron capacitados de forma virtual durante 8 horas, para aplicar la escala. Una vez finalizado el entrenamiento, se les envió un cuestionario para evaluar contenidos de la capacitación, y varios resúmenescasos para ser evaluados con la escala antes señalada. Se aplicó estadística descriptiva, luego se estimó el grado de acuerdo entre observadores para cada ítem de la escala. Posteriormente, se evaluó el coeficiente de correlación (CCI), utilizando un modelo de dos factores mixtos en el que los efectos de los evaluadores son aleatorios y los ítems fijos; utilizando una definición de acuerdo absoluto. Además, se evaluó la consistencia interna de los ítems utilizando alfa de Cronbach, considerando intérvalos de confianza del 95% (IC 95%). Resultados: Luego de analizar las mediciones de los 9 ítems por los 12 observadores, se verificó que el CCI fue de 0,871; con un IC 95% de 0,700; 0,965. El valor de la consistencia interna fue de 0,7 considerando los 9 ítems, no se recomienda eliminar ningún ítem. Conclusión: La escala tiene buena confiabilidad interobservador y los ítems son consistentes entre sí; por lo que puede ser considerada como un instrumento confiable para la valoración de resúmenes de congresos.
Background: In 2013, we developed a scale to evaluate the abstracts of the congresses of the Society of Surgeons of Chile (SOCICH). Objective: To determine internal consistency and interobserver reliability of a scale to evaluate conference abstracts. Material and Methods: Reliability study. Twelve surgeons were trained virtually for 8 hours, to apply the scale. Once the training was finished, they were sent a questionnaire to evaluate the contents of the training, and several summaries-cases to be evaluated with the aforementioned scale. Descriptive statistics were applied, then the degree of agreement between observers was estimated for each item of the scale. Subsequently, intraclass correlation coefficient (ICC) was evaluated, using a mixed two-factor model where the effects of the evaluators are random and the items are fixed, using a definition of absolute agreement. In addition, the internal consistency of the items was evaluated using Cronbach's alpha, considering 95% confidence intervals (95% CI). Results: After analyzing the measurements of the 9 items by the 12 observers, it was verified that the ICC was 0.871; with a 95% CI of 0.700; 0.965. The internal consistency value was 0.7 considering the 9 items, it is not recommended to delete any item. Conclusions: The scale has good internal consistency and interobserver reliability. Therefore, it can be considered as reliable instrument to be used in the evaluation of abstracts for congresses.
Asunto(s)
Humanos , Masculino , Femenino , Reproducibilidad de los Resultados , Congresos como Asunto , Variaciones Dependientes del Observador , Distribución por SexoRESUMEN
Abstract Objective: To assess interobserver agreement among radiologists regarding the current Fleischner Society diagnostic criteria for usual interstitial pneumonia (UIP) patterns on computed tomography (CT). Materials and Methods: Using the Fleischner Society criteria for UIP CT patterns, five raters, working independently, categorized the high-resolution CT (HRCT) scans of 44 patients with interstitial lung disease who underwent lung biopsy. The raters also evaluated the presence, extent, and distribution of the most relevant imaging findings, as well as indicating their level of confidence in the most likely diagnosis and in up to three diagnostic hypotheses. Results: There was moderate to substantial interobserver agreement regarding the UIP patterns on HRCT—kappa statistic (κ) = 0.59-0.61. Interobserver agreement for the binary scores was substantial (κ = 0.77-0.79), whereas that for the presence of honeycombing was almost perfect (κ = 0.81-0.96). There was agreement regarding at least one of the three diagnostic hypotheses in only 36.4% of the cases. For the level of confidence in the most likely diagnosis, there was only slight to fair agreement (κ = 0.19-0.21). Conclusion: Interobserver agreement regarding the current Fleischner Society CT criteria for UIP was moderate to substantial among raters with varying levels of experience. There was only slight to fair agreement regarding the diagnostic hypotheses and for the level of confidence in the most likely diagnosis.
Resumo Objetivo: Avaliar a concordância interobservador entre radiologistas para os critérios atuais da Fleischner Society para categorias diagnósticas de pneumonia intersticial usual (PIU) em tomografia computadorizada (TC). Materiais e Métodos: Cinco observadores categorizaram independentemente as imagens de TC de 44 pacientes com doença pulmonar intersticial que foram submetidos a biópsia pulmonar empregando as últimas categorias de diagnóstico da Sociedade Fleischner para UIP. Também foram avaliadas presença, extensão e distribuição dos achados de imagem mais relevantes, bem como a confiança no diagnóstico mais provável e em até três hipóteses diagnósticas. Resultados: Houve concordância moderada a alta para as categorias diagnósticas entre os observadores (κ = 0,59-0,61). A concordância interobservador para a pontuação binária foi alta (κ = 0,77-0,79), enquanto para a presença de faveolamento foi considerada de alta a muito alta (κ = 0,81-0,96). Houve concordância em uma das três hipóteses diagnósticas em apenas 36,4% dos casos. Baixa concordância foi encontrada para o diagnóstico mais provável (κ = 0,19-0,21). Conclusão: A concordância entre observadores para os critérios atuais de TC da Fleischner Society para UIP foi moderada a alta entre observadores com diferentes níveis de experiência. Houve baixa concordância nas hipóteses diagnósticas e quanto ao grau de confiança no diagnóstico primário.
RESUMEN
Abstract Objective: To assess intra- and interobserver agreement among non-expert pathologists in identifying features of the eosinophilic esophagitis histologic scoring system (EoEHSS) in pediatric patients. Patients and methods: The authors used 50 slides from patients (aged 1-15 years; 72% male) with EoE. EoEHSS evaluates eosinophilic inflammation and other features including epithelial basal zone hyperplasia, eosinophilic abscesses, eosinophil surface layering, dilated intercellular spaces, surface epithelial alteration, dyskeratotic epithelial cells, and lamina propria fibrosis. Grade and stage of abnormalities are scored using a 4-point scale (0 normal; 3 maximum change). Four pathologists determined EoEHSS findings on two occasions. Intra- and interobserver agreement was assessed using Kappa (κ) statistics and intra-class correlation coefficients. Results: Intra- and interobserver agreement for the identification of eosinophil counts ≥ 15/high power field (HPF) was excellent, however varied when assessing additional features of the EoEHSS. For the more experienced pathologist, agreement for most EoEHSS items and the composite scores was substantial to excellent. For the less experienced pathologists, intraobserver agreement ranged from absent to substantial for individual features and ranged from moderate to substantial for the composite scores. Conclusion: Most items of the EoEHSS had substantial to excellent reliability when assessed by a pathologist experienced in the diagnosis of EoE but presented lower repeatability among less experienced pathologists. These findings suggest that specific training of pathologists is required for the identification of EoEHSS characteristics beyond eosinophil count, as these features are considered useful in the evaluation of response to treatment and correlation with clinical manifestations and endoscopic findings.
Asunto(s)
Humanos , Masculino , Femenino , Lactante , Preescolar , Niño , Adolescente , Adulto , Esofagitis Eosinofílica/diagnóstico , Esofagitis Eosinofílica/tratamiento farmacológico , Variaciones Dependientes del Observador , Reproducibilidad de los Resultados , Eosinófilos/patologíaRESUMEN
ABSTRACT Objective: Evaluating intra- and inter-observer agreement of the Neer, AO, and AO/OTA proximal humerus fractures classification systems in adults. Methods: In total, 100 X-rays of patients with proximal humerus fractures were selected according to the inclusion and exclusion criteria established in this study. They were evaluated by four evaluators with different levels of expertise. The evaluation was performed at two distinct moments, with an interval of 21 days between each analysis. Images were randomized for the second evaluation by a researcher who did not participate in the image selection process. A Fleiss Kappa test was performed to evaluate intra- and inter-observer agreement. Results: We observed a substantial agreement with k = 0.669, k = 0.715, and k = 0.780 for the Neer, AO, and AO/OTA classification systems, respectively. Conclusion: In the second evaluation, intra-observer agreement improved. In the first evaluation, we obtained values of k = 0.724, k = 0.490, and k = 0.599 for the evaluation of the Neer, AO, and AO/OTA classifications. In the second evaluation, the values k = 0.759, k = 0.772, and k = 0.858. Therefore, the evaluations went from moderate to substantial for the AO classification and from moderate to practically perfect for the AO/OTA classification. The level of inter-observer agreement was substantial (0.61-0.80), with k = 0.669, k = 0.715, and k = 0.780 for the Neer, AO, and AO/OTA classifications, respectively. Level of Evidence III, Cross-Sectional Observational Study.
RESUMO Objetivo: Avaliar a concordância intra e interobservadores entre os sistemas de classificação Neer, AO e AO/OTA nas fraturas do úmero proximal de indivíduos adultos. Métodos: Após a aplicação dos critérios de inclusão e exclusão determinados para a realização deste trabalho, foram selecionadas 100 radiografias de pacientes com fratura do úmero proximal. Estas foram submetidas à avaliação de quatro examinadores com níveis diferentes de expertise. A avaliação foi realizada em dois momentos distintos, com intervalo de 21 dias entre cada análise. As imagens foram randomizadas para a segunda avaliação por um pesquisador que não participou da seleção de imagens. Foi aplicado o teste kappa de Fleiss para verificar a concordância intra e interobservador. Resultados: Na primeira avaliação obtivemos valores de k = 0,724, k = 0,490 e k = 0,599, enquanto na segunda avaliação, os valores k = 0,759, k = 0,772 e k = 0,858 para as avaliações de Neer, AO e AO/OTA, respectivamente. Isso indica que a concordância intraobservador melhorou na segunda avaliação. Conclusões: As avaliações passaram de moderada para substancial para a classificação AO e de moderada para praticamente perfeita para o sistema AO/OTA. O nível de concordância interobservadores foram considerados substanciais (0,61-0,80) com k = 0,669, k = 0,715 e k = 0,780 para as classificações de Neer, AO e AO/OTA, respectivamente. Nível de Evidência III, Estudo Transversal Observacional.
RESUMEN
ABSTRACT Purpose: To compare the use of visual field and/or optical coherence tomography (OCT) combined with color retinography by non-glaucoma specialists for differentiating glaucoma from physiological cupping. Methods: Eighty patients with glaucoma or physiological cupping (40 of each) were randomized according to the examination used (GI: color retinography, GII: color retinography + visual field, GIII: color retinography + optical coherence tomography, GIV: color retinography + visual field + optical coherence tomography). Twenty non-specialist ophthalmologists diagnosed glaucoma from PowerPoint slide images, without direct patient examination. Results: Inter-examiner agreement was good for GII (ĸ: 0.63; 95%CI, 0.53-0.72), moderate for GIII (ĸ: 0.58; 95%CI, 0.48-0.68) and GIV (ĸ: 0.41; 95%CI, 0.31-0.51), and low for GI (ĸ: 0.30; 95%CI, 0.20-0.39) (p<0.001). Diagnostic accuracy was higher in GIII (15.8 ± 1.82) than GI (12.95 ± 1.46, p<0.001) and higher in GII (16.25 ± 2.02) than GI and GIV (14.10 ± 2.24) (both p<0.001). For glaucoma patients only, diagnostic accuracy in GII and GIII was superior to that in GI and GIV (both p<0.001). Sensitivity and specificity were 59% and 70.5% in GI; 86.5% and 76% in GII, 86.5% and 71.5% in GIII; and 68.5% and 72.5% in GIV, respectively. Accuracy was highest in GII (81.3% [95%CI, 77.1-84.8]), followed by GIII (79% [95%CI, 74.7-82.7]), GIV (70,5% [95%CI, 65.9-74.8]), and GI (64.8% [95%CI, 60.0-69.3]). Conclusions: Non-glaucoma specialists could not differentiate glaucoma from increased physiological cupping when using color retinography assessment alone. Diagnostic accuracy and inter-rater agreement improved significantly with the addition of visual field or optical coherence tomography. However, the use of both modalities did not improve sensitivity/specificity.(AU)
RESUMO Objetivos: Verificar a influência do campo visual e/ou tomografia de coerência óptica, quando analisados em associação à retinografia colorida, na diferenciação entre indivíduos com glaucoma daqueles com aumento fisiológico de escavação. Métodos: Oitenta pacientes com glaucoma ou aumento fisiológico de escavação (40 cada) foram randomizados de acordo com o exame testado (GI: retinografia colorida, GII: retinografia colorida + campo visual, GIII: retinografia colorida + tomografia de coerência óptica, GIV: retinografia colorida + campo visual + tomografia de coerência óptica). Vinte oftalmologistas não especialistas em glaucoma diagnosticaram glaucoma através de slides do PowerPoint, sem o exame direto do paciente. Resultados: A concordância interexaminador foi boa para o GII (ĸ: 0,63; 95%CI, 0,53-0,72), moderada para GIII (ĸ: 0,58; 95%CI, 0,48-0,68) e GIV (ĸ: 0,41; 95%CI, 0,31-0,51), e baixa para o GI (ĸ: 0,30; 95%CI, 0,20-0,39) (p<0,001). Acurácia diagnostica foi maior no GIII (15,8 ± 1,82) em comparação ao GI (12,95 ± 1,46, p<0,001) e o GII (16,25 ± 2,02) maior em comparação ao GI e GIV (14,10 ± 2,24) (para ambos, p<0,001). Para os pacientes com glaucoma, a acurácia diagnostica nos grupos GII e GIII foi superior do que em GI e GIV (ambos p<0,001). Sensibilidade e especificidade foram 59% e 70,5% no GI; 86,5% e 76% no GII, 86,5% e 71,5% no GIII; 68,5% e 72,5% no GIV, respectivamente. A acurácia foi maior no GII (81,3% [95%CI, 77,1-84,8]), seguido pelo GIII (79% [95%CI, 74,7-82,7]), GIV (70,5% [95%CI, 65,9-74,8]), e GI (64,8% [95%CI, 60,0-69,3]). Conclusões: A avaliação isolada da retinografia colorida por oftalmologistas não especialistas em glaucoma não pode diferenciar pacientes com glaucoma daqueles com aumento fisiológico de escavação. Houve aumento da acurácia diagnóstica e da concordância interobservador com o acréscimo do campo visual ou da tomografia de coerência óptica. Entretanto, o uso de ambas as modalidades não melhorou a sensibilidade/especificadade.(AU)
Asunto(s)
Humanos , Glaucoma/diagnóstico por imagen , Tomografía de Coherencia Óptica , Especialización , Campos Visuales , Pruebas del Campo VisualRESUMEN
Although tuberculosis preventive therapy is one of the cornerstones for eliminating the disease, many barriers exist in the cascade of care for latent tuberculosis infection, including the need to certify healthcare professionals for reading tuberculin skin tests (TST). This paper proposes and evaluates a simple protocol for TST reading training. Primary care workers from different backgrounds received a 2-hour theoretical course, followed by a practical course on bleb reading. Blebs were obtained by injecting saline into sausages and then in volunteers. A certified trainer then evaluated the effectiveness of this protocol by analyzing the trainees' ability to read TST induration in clinical routine, blinded to each other's readings. Interobserver agreement was analyzed using the Bland-Altman test. The trainees' reading accuracy was calculated using two cut-off points - 5 and 10mm - and the effect of the number of readings was analyzed using a linear mixed model. Eleven healthcare workers read 53 saline blebs and 88 TST indurations, with high agreement for TST reading (0.07mm average bias). Sensitivity was 100% (94.6; 100.0) at 5mm cut-off and 87.3% (75.5; 94.7) at 10mm cut-off. The regression model found no effect of the number of readings [coefficient: -0.007 (-0.055; 0.040)]. A simple training protocol for reading TST with saline blebs simulations in sausages and volunteers was sufficient to achieve accurate TST induration readings, with no effect observed for the number of readings. Training with saline blebs injected into voluntary individuals is safer and easier than the traditional method.
A terapia preventiva da tuberculose é uma das bases para a eliminação da tuberculose. Entretanto, existem muitas barreiras na cascata de cuidados da infecção latente de tuberculose, incluindo a necessidade de certificação dos profissionais de saúde para a leitura da prova tuberculínica (PPD). Aqui, propomos e avaliamos um protocolo simples para capacitação na leitura do PPD. Profissionais na atenção primária com diferentes formações receberam um curso teórico de duas horas, seguido por um curso prático sobre a leitura da enduração. Nas sessões práticas, as pápulas foram obtidas pela injeção de solução salina em salsichas, e depois em voluntários. Depois, a eficácia do protocolo foi avaliada por um instrutor credenciado, com base na capacidade do aluno de ler a enduração do PPD na rotina clínica (em formato duplo-cego em relação às respectivas leituras). A concordância inter-observador foi analisada com o teste de Bland-Altman. A acurácia das leituras dos alunos foi calculada com dois pontos de corte: 5 e 10mm. O efeito do número de leituras foi analisado com um modelo linear misto. Onze profissionais de saúde leram 53 pápulas de solução salina e 88 endurações de PPD. A concordância na leitura dos PPDs foi alta (média de 0,07mm de viés). A sensibilidade foi 100% (94,6; 100,0) com o ponto de corte de 5mm e 87,3% (75,5; 94,7) com o ponto de corte de 10mm. No modelo de regressão, não houve efeito do número de leituras [coeficiente: -0,007 (-0,055; 0,040)]. Um protocolo simples de treinamento em leitura da prova tuberculínica com simulações usando pápulas criadas com solução salina em salsichas e em voluntários foi suficiente para alcançar leituras acuradas da enduração da prova, sem efeito observado pelo número de leituras. O treinamento com pápulas criadas com solução salina em voluntários é mais seguro e mais fácil, comparado com o treinamento tradicional.
La terapia preventiva de la tuberculosis es una de las piedras angulares para la erradicación de la tuberculosis. No obstante, existen muchas barreras en la cascada de cuidado de una infección latente de tuberculosis, incluyendo la necesidad de certificación, en el caso de los profesionales de atención en salud, para la lectura de la prueba cutánea de tuberculina (TST). Aquí proponemos y evaluamos un protocolo simple para el entrenamiento en la lectura de TST. Trabajadores de salud de atención primaria de diferentes contextos recibieron un curso de 2 horas teórico, seguido de una práctica en la lectura de la ampolla. Las ampollas se obtienen inyectado una solución salina en salchichas y luego en voluntarios. Posteriormente, la eficacia de este protocolo fue evaluada mediante un formador certificado a través de la habilidad del personal en formación para la lectura de induración del TST en la rutina clínica, con lecturas cegadas entre ellos. Se analizó la concordancia entre los observadores usando el test Bland-Altman. La precisión de la lectura por parte del personal en formación se calculó usando dos puntos de corte: 5 y 10mm. El efecto del número de lecturas fue analizado usando un modelo lineal mixto. Once trabajadores de salud leyeron 53 soluciones salinas en ampollas y 88 induraciones TST. La concordancia en la lectura del TST fue alta (0,07mm promedio de sesgo). La sensibilidad fue de un 100% (94,6; 100,0) usando los 5mm de corte y 87,3% (75,5; 94,7) usando los 10mm de corte. En el modelo de regresión, no hubo efecto del número de lecturas [coeficiente: -0,007 (-0,055; 0,040)]. Un simple protocolo de entrenamiento para la lectura TST con simulaciones, usando solución salina en ampollas en salchichas y voluntarios fue suficiente para alcanzar lecturas precisas de induración TST, sin efectos observados por el número de lecturas. El entrenamiento con ampollas salinas en personas voluntarias es más seguro y más fácil que el entrenamiento tradicional.
Asunto(s)
Humanos , Prueba de Tuberculina , Tuberculosis Latente , Atención Primaria de Salud , Brasil , CertificaciónRESUMEN
ABSTRACT BACKGROUND AND OBJECTIVES: Difficulty in neonatal assessment is a challenge for the development of pain prevention and treatment strategies. The objective of this study was to analyze the agreement among health professionals in the identification of facial pain movements in images of neonates submitted or not to a painful procedure and to evaluate the discriminatory capacity of these facial movements regarding the presence of pain. METHODS: Cross-sectional study. Six health professionals trained in neonatal pain assessment evaluated 30 images of newborns undergoing a painful procedure and 30 images of the same newborns at rest, without pain. Each professional evaluated five facial movements that are part of the Neonatal Facial Coding System. Sensitivity, specificity, and positive and negative predictive values were determined. Agreement among professionals was assessed using the kappa coefficient. RESULTS: The six observers correctly assessed 94±9% of the images obtained at rest as absence of pain and 88±28% of the images obtained during the painful procedure as presence of pain. Protruding forehead, narrowed eyelid cleft, deepened nasolabial furrow, and open mouth showed high sensitivity, specificity, and positive and negative predictive values in the diagnosis of pain, with values between 78-90%. The inter-observer agreement for all 60 images showed a kappa coefficient of 0.60 (95%CI 0.55-0.66). CONCLUSION: The evaluation of the forehead, eyelid, nasolabial furrow and mouth of newborns showed high sensitivity and specificity to discriminate the presence and absence of pain in static images. The agreement between the evaluators in identifying facial movements related to the expression of pain in newborns was moderate.
RESUMO JUSTIFICATIVA E OBJETIVOS: A dificuldade na avaliação da dor do recém-nascido é um desafio para o desenvolvimento de estratégias de prevenção e tratamento da dor. O objetivo deste estudo foi analisar a concordância entre profissionais de saúde na identificação de movimentos faciais de dor em imagens de recém-nascidos submetidos ou não a um procedimento doloroso e a capacidade discriminatória quanto à presença de dor desses movimentos faciais. MÉTODOS: Estudo transversal. Seis profissionais de saúde treinados na avaliação da dor neonatal avaliaram 30 imagens de recém-nascidos submetidos a um procedimento doloroso e 30 imagens em repouso dos mesmos recém-nascidos, sem dor. Cada profissional avaliou cinco movimentos faciais que fazem parte do Sistema de Codificação Facial Neonatal. Sensibilidade, especificidade e valores preditivos positivos e negativos foram determinados. A concordância interavaliadores foi avaliada pelo coeficiente kappa. RESULTADOS: Os seis observadores avaliaram corretamente 94±9% das imagens obtidas em repouso como ausência de dor e 88±28% das imagens obtidas durante o procedimento doloroso como presença de dor. Fronte saliente, fenda palpebral estreitada, sulco nasolabial aprofundado e boca aberta mostraram alta sensibilidade, especificidade e valores preditivos positivo e negativo no diagnóstico de dor, com valores entre 78 e 90%. A concordância interavaliadores para todas as 60 imagens mostrou um kappa 0,60 (IC95%0,55-0,66). CONCLUSÃO: A avaliação da fronte, pálpebra, sulco nasolabial e boca de recém-nascidos mostrou alta sensibilidade e especificidade para discriminar a presença e ausência de dor em imagens estáticas. A concordância interavaliadores na identificação de movimentos faciais relacionados à expressão da dor em recém- -nascidos foi moderada.
RESUMEN
ABSTRACT Objective The objective of this study was to analyze the intraobserver and interobserver reliability of the Lenke classification among spine surgeons from the city of Salvador, Bahia. Methods Preoperative imaging (front, profile and lateral inclinations) examinations of 20 patients at the Outpatient Clinic of the of Santa Izabel Hospital Orthopedic Department, Salvador, Bahia, who had been diagnosed with adolescent idiopathic scoliosis, were selected to be evaluated by 15 spine surgeons two times at an interval of 30 days, for analysis of the intraobserver and interobserver reliability of the Lenke classification. The project was first submitted for ethical analysis to the Institutional Review Board of the Santa Izabel Hospital - Santa Casa de Misericórdia da Bahia / Prof. Dr. Celso Figueirôa and approved with voucher number 002650/2019. All the participants signed the Informed Consent Form (ICF). Results Analyzing the concordance using the Kappa index, interobserver reproducibilities of 0.755, 0.525 and 0.840 were obtained for the type of curve and the lumbar and sagittal modifiers, respectively, while the intraobserver reliabilities for the same parameters were 0.921, 0.370 and 0.929. Conclusion For the study population, the reliability of Lenke's classification was moderate to almost perfect. Level of evidence III; Interobserver and intraobserver reliability.
RESUMO Objetivo O objetivo do presente trabalho consiste em analisar a confiabilidade intraobservador e interobservador da classificação de Lenke entre cirurgiões de coluna da cidade de Salvador, Bahia. Métodos Foram selecionados exames de imagem pré-operatórios (frente, perfil e inclinações laterais) de 20 pacientes acompanhados no Ambulatório de Coluna do Departamento de Ortopedia do Hospital Santa Izabel, Salvador, Bahia, com diagnóstico de escoliose idiopática do adolescente, para serem avaliados por 15 cirurgiões de coluna, em dois momentos, com intervalo de 30 dias, para análise da confiabilidade intraobservador e interobservador da Classificação de Lenke. O projeto foi, antes de tudo, submetido a análise de ética no CEP Hospital Santa Izabel - Santa Casa de Misericórdia da Bahia/Prof. Dr. Celso Figueirôa e aprovado com número de comprovante 002650/2019. Todos os participantes assinaram o Termo de Livre Consentimento Esclarecido (TCLE). Resultados Analisando-se a concordância por meio do índice Kappa, obteve-se uma reprodutibilidade interobservador de 0,755, 0,525 e 0,840, respectivamente, para o tipo de curva, modificador lombar e sagital, já a confiabilidade intraobservador é de 0,921, 0,370 e 0,929, respectivamente para o tipo de curva, modificador lombar e modificador sagital. Conclusão Para a população em estudo, a confiabilidade da classificação de Lenke é de moderada a quase perfeita. Nível de evidência III; Reprodutibilidade interobservador e intraobservador.
RESUMEN Objetivo El objetivo del presente trabajo consiste en analizar la confiabilidad intraobservador e interobservador de la clasificación de Lenke entre cirujanos de columna de la ciudad de Salvador, Bahia. Métodos Fueron seleccionados exámenes de imagen preoperatorios (frente, perfil e inclinaciones laterales) de 20 pacientes acompañados en el Ambulatorio de Columna del Departamento de Ortopedia del Hospital Santa Izabel, Salvador, Bahia, con diagnóstico de escoliosis idiopática del adolescente, para ser evaluados por 15 cirujanos de columna, en dos momentos, con intervalo de 30 días, para análisis de la confiabilidad intraobservador e interobservador de la Clasificación de Lenke. El proyecto fue, antes que nada, sometido a análisis de ética en el CEP Hospital Santa Izabel - Santa Casa de Misericordia de Bahia/Prof. Dr. Celso Figueirôa y aprobado con número de comprobante 002650/2019. Todos los participantes firmaron el Término de Libre Consentimiento Esclarecido (TCLE). Resultados Analizándose la concordancia por medio del índice Kappa, se obtuvo una reproductibilidad interobservador de 0,755, 0,525 e 0,840, respectivamente, para el tipo de curva, modificador lumbar y sagital, ya la confiabilidad intraobservador es de 0,921, 0,370 e 0,929, respectivamente para el tipo de curva, modificador lumbar y modificador sagital. Conclusión Para la población en estudio, la confiabilidad de la clasificación de Lenke es de moderada a casi perfecta. Nivel de evidencia III; Reproductibilidad interobservador e intraobservador.
Asunto(s)
Humanos , Escoliosis , Variaciones Dependientes del Observador , Reproducibilidad de los Resultados , ClasificaciónRESUMEN
Abstract Objective: To determine the best cutoff value for classifying breast masses by ultrasound elastography, using dedicated software for strain elastography, and to determine the level of interobserver agreement. Materials and Methods: We enrolled 83 patients with 83 breast masses identified on ultrasound and referred for biopsy. After B-mode ultrasound examination, the lesions were manually segmented by three radiologists with varying degrees of experience in breast imaging, designated reader 1 (R1, with 15 years), reader 2 (R2, with 2 years), and reader 3 (R3, with 8 years). Elastography was performed automatically on the best image with computer-aided diagnosis (CAD) software. Cutoff values of 70%, 75%, 80%, and 90% of hard areas were applied for determining the performance of the CAD software. The best cutoff value for the most experienced radiologists was then compared with the visual assessment. Interobserver agreement for the best cutoff value was determined, as were the interclass correlation coefficient and concordance among the radiologists for the areas segmented. Results: The best cutoff value of the proportion of hard area within a breast mass, for experienced radiologists, was found to be 75%. At a cutoff value of 75%, the interobserver agreement was excellent between R1 and R2, as well as between R1 and R3, and good between R2 and R3. The interclass concordance coefficient among the three radiologists was 0.950. When assessing the segmented areas by size, we found that the level of agreement was higher among the more experienced radiologists. Conclusion: The best cutoff value for a quantitative CAD system to classify breast masses was 75%.
Resumo Objetivo: Determinar o melhor valor de corte para classificar os nódulos mamários pela elastografia por ultrassom, usando um software dedicado para elastografia por deformação, e determinar o nível de concordância interobservadores. Materiais e Métodos: Foram incluídos no estudo 83 pacientes com 83 massas mamárias identificadas no ultrassom e encaminhados para biópsia. Após o exame ultrassonográfico no modo B, as lesões foram manualmente segmentadas por três radiologistas com diferentes graus de experiência em imagem da mama: leitor 1 (R1, com 15 anos de experiência), leitor 2 (R2, com 2 anos de experiência) e leitor 3 (R3, com 8 anos de experiência). A classificação pela elastografia foi realizada automaticamente com base na melhor imagem com o software diagnóstico auxiliado por computador (DAC). Valores de corte de 70%, 75%, 80% e 90% das áreas duras foram aplicados para determinar o desempenho do software DAC. O melhor valor de corte para os radiologistas foi comparado com a avaliação visual. A concordância interobservadores para o melhor valor de corte foi determinada, assim como o coeficiente de correlação interclasses e a concordância entre os radiologistas para as áreas segmentadas. Resultados: O melhor valor de corte da proporção de área dura dentro de um nódulo mamário foi de 75% para os radiologistas mais experientes. Com um valor de corte de 75%, a concordância interobservadores foi excelente entre R1 e R2 e entre R1 e R3, e boa entre R2 e R3. O coeficiente de concordância interclasses entre os três radiologistas foi de 0,950. Ao avaliar as áreas segmentadas por tamanho, constatamos que o nível de concordância foi maior entre os radiologistas mais experientes. Conclusão: O melhor valor de corte para um sistema quantitativo de DAC para classificar as massas mamárias foi de 75%.
RESUMEN
Introduction. Currently surgical findings dictate the post-operative treatment of patients with acute appendicitis; however, this relies only on the judgement of the surgeon during the appendectomy. This study aimed to determine the inter-rater reliability between surgeons and pathologists at a tertiary hospital.Methods. This was a cross-sectional retrospective study conducted between October 2015 and October 2016 at the Central Military Hospital in Bogotá. Patients who underwent appendectomy due to suspected acute appendicitis and had histopathological with their respective surgical findings were included. Our aim was to determine the agreement between surgical and pathology reports. Results. During the study period, we identified 418 patients who underwent appendectomy. Surgeons assessed 32 (7.77%) appendix as negative, 78 (18.93%) as inflamed, 110 (26.7%) as suppurative, 137 (33.25%) gangrenous and 55 (13.35%) as perforated. Highest agreement was observed in patients with suppurative appendicitis (82/110; 74.5%). Overall Kappa indicated a poor-fair agreement between the pathologist and surgeons (Kappa = 0.2950, 95% CI 0.2384-035.17, p < 0.0001).Conclusion. There is a poor concordance between surgical and pathologic findings in our study, which is similar to previous articles. As a take home message, surgeons and pathologist should revise the definition of the clinical and the histopathological criteria to better describe the findings and reach a better agreement
Introducción. Los hallazgos quirúrgicos actuales dictan el tratamiento postoperatorio de los pacientes con apendicitis aguda; sin embargo, esto se basa únicamente en el juicio del cirujano durante la apendicectomía. Este estudio tuvo como objetivo determinar la correlación de la evaluación entre cirujanos y patólogos en un hospital de tercer nivel. Métodos. Estudio transversal retrospectivo realizado entre octubre de 2015 y octubre de 2016 en el Hospital Militar Central de Bogotá. Se incluyeron pacientes que se sometieron a apendicectomía debido a sospecha de apendicitis aguda y tenían histopatología con sus respectivos hallazgos quirúrgicos. Nuestro objetivo fue determinar la concordancia entre el informe quirúrgico y el de patología.Resultados. Durante el período de estudio, identificamos a 418 pacientes que se sometieron a apendicectomía. Los cirujanos evaluaron 32 (7,77%) apéndices como negativos, 78 (18,93%) como inflamados, 110 (26,7%) como supurativos, 137 (33,25%) gangrenosos y 55 (13,35%) como perforados. La mayor concordancia se observó en pacientes con apendicitis supurativa (82/110; 74.5%). En general, Kappa indicó un acuerdo poco equitativo entre el patólogo y los cirujanos (Kappa = 0.2950, IC 95% 0.2384-035.17, p <0.0001).Conclusión. Hay una pobre concordancia entre los hallazgos quirúrgicos y patológicos en nuestro estudio, similar a los documentos médicos anteriores. Como mensaje, los cirujanos y el patólogo deben revisar la definición de los criterios clínicos e histopatológicos para describir mejor los hallazgos y llegar a un mejor acuerdo
Asunto(s)
Humanos , Apendicitis , Patología Quirúrgica , Procedimientos Quirúrgicos Operativos , Variaciones Dependientes del ObservadorRESUMEN
OBJECTIVE: To evaluate the interpretive performance and inter-observer agreement on digital mammographs among radiologists and to investigate whether radiologist characteristics affect performance and agreement. MATERIALS AND METHODS: The test sets consisted of full-field digital mammograms and contained 12 cancer cases among 1000 total cases. Twelve radiologists independently interpreted all mammograms. Performance indicators included the recall rate, cancer detection rate (CDR), positive predictive value (PPV), sensitivity, specificity, false positive rate (FPR), and area under the receiver operating characteristic curve (AUC). Inter-radiologist agreement was measured. The reporting radiologist characteristics included number of years of experience interpreting mammography, fellowship training in breast imaging, and annual volume of mammography interpretation. RESULTS: The mean and range of interpretive performance were as follows: recall rate, 7.5% (3.3–10.2%); CDR, 10.6 (8.0–12.0 per 1000 examinations); PPV, 15.9% (8.8–33.3%); sensitivity, 88.2% (66.7–100%); specificity, 93.5% (90.6–97.8%); FPR, 6.5% (2.2–9.4%); and AUC, 0.93 (0.82–0.99). Radiologists who annually interpreted more than 3000 screening mammograms tended to exhibit higher CDRs and sensitivities than those who interpreted fewer than 3000 mammograms (p = 0.064). The inter-radiologist agreement showed a percent agreement of 77.2–88.8% and a kappa value of 0.27–0.34. Radiologist characteristics did not affect agreement. CONCLUSION: The interpretative performance of the radiologists fulfilled the mammography screening goal of the American College of Radiology, although there was inter-observer variability. Radiologists who interpreted more than 3000 screening mammograms annually tended to perform better than radiologists who did not.
Asunto(s)
Área Bajo la Curva , Mama , Becas , Mamografía , Tamizaje Masivo , Auditoría Médica , Variaciones Dependientes del Observador , Curva ROC , Sensibilidad y EspecificidadRESUMEN
Although papillary thyroid carcinoma (PTC)–type nuclear changes are the most reliable morphological feature in the diagnosis of PTC, the nuclear assessment used to identify these changes is highly subjective. Here, we report a noninvasive encapsulated thyroid tumor with a papillary growth pattern measuring 23 mm at its largest diameter with a nuclear score of 2 in a 26-year-old man. After undergoing left lobectomy, the patient was diagnosed with an encapsulated PTC. However, a second opinion consultation suggested an alternative diagnosis of follicular adenoma with papillary hyperplasia. When providing a third opinion, we identified a low MIB-1 labeling index and a heterozygous point mutation in the KRAS gene but not the BRAF gene. We speculated that this case is an example of a novel borderline tumor with a papillary structure. Introduction of the new terminology “noninvasive encapsulated papillary RAS-like thyroid tumor (NEPRAS)” without the word “cancer” might relieve the psychological burden of patients in a way similar to the phrase “noninvasive follicular thyroid neoplasm with papillary-like nuclear features (NIFTP).”
Asunto(s)
Adulto , Humanos , Adenoma , Diagnóstico , Hiperplasia , Variaciones Dependientes del Observador , Mutación Puntual , Derivación y Consulta , Glándula Tiroides , Neoplasias de la TiroidesRESUMEN
BACKGROUND: Assessment of programmed cell death-ligand 1 (PD-L1) immunohistochemical staining is used for treatment decisions in non-small cell lung cancer (NSCLC) regarding use of PD-L1/programmed cell death protein 1 (PD-1) immunotherapy. The reliability of the PD-L1 22C3 pharmDx assay is critical in guiding clinical practice. The Cardiopulmonary Pathology Study Group of the Korean Society of Pathologists investigated the interobserver reproducibility of PD-L1 staining with 22C3 pharmDx in NSCLC samples.METHODS: Twenty-seven pathologists individually assessed the tumor proportion score (TPS) for 107 NSCLC samples. Each case was divided into three levels based on TPS: <1%, 1%–49%, and ≥50%.RESULTS: The intraclass correlation coefficient for TPS was 0.902±0.058. Weighted κ coefficient for 3-step assessment was 0.748±0.093. The κ coefficients for 1% and 50% cut-offs were 0.633 and 0.834, respectively. There was a significant association between interobserver reproducibility and experience (formal PD-L1 training, more experience for PD-L1 assessment, and longer practice duration on surgical pathology), histologic subtype, and specimen type.CONCLUSIONS: Our results indicate that PD-L1 immunohistochemical staining provides a reproducible basis for decisions on anti–PD-1 therapy in NSCLC.
Asunto(s)
Carcinoma de Pulmón de Células no Pequeñas , Muerte Celular , Inmunohistoquímica , Inmunoterapia , Variaciones Dependientes del Observador , PatologíaRESUMEN
RESUMO: Introdução: O estudo avaliou a confiabilidade interobservadores na classificação de pares de registros formados durante o processo de relacionamento probabilístico, sendo uma das etapas de validação da metodologia a ser utilizada em pesquisa sobre desigualdades de acesso às ações de controle dos cânceres de mama e do colo do útero no Brasil (DAAC-SIS). Metodologia: O programa RecLink foi usado para relacionar as bases de dados do Sistema de Informação do Controle do Câncer de Mama (SISMAMA) do estado de Minas Gerais, tendo como referência 301 mamografias de rastreamento com resultado provavelmente benigno (categoria BI-RADS 3), registradas em outubro de 2010 e, como comparação, 158.517 mamografias registradas em 2011. Posteriormente, 215 pares de registros, que não obtiveram o escore máximo atribuído pelo RecLink, foram classificados independentemente por dez avaliadores, de quatro centros participantes da pesquisa, como pares verdadeiros ou falsos. Resultados: O coeficiente Kappa variou de 0,87 a 1,00. Seis avaliadores obtiveram concordância perfeita com um ou mais avaliadores de outros centros. O Kappa global foi 0,96 (intervalo de confiança de 95% - IC95% 0,94 - 0,99). Discussão: A avaliação interobservadores foi fundamental para garantir a qualidade do processo de relacionamento, e a sua prática deve ser rotina em estudos dessa natureza. A divulgação desses resultados contribui para a transparência na condução e no relato do estudo em curso. Conclusão: A confiabilidade interobservadores foi excelente, sinalizando homogeneidade satisfatória da equipe na classificação dos pares de registros.
ABSTRACT: Introduction: The study assessed interobserver reliability in the classification of record pairs formed during probabilistic linkage of health-related databases, a key step in the methodology validation to be used in a larger on-going study on inequalities in the access to breast and cervical cancer control activities in Brazil (DAAC-SIS). Methodology: The RecLink software was used to link two databases of the Breast Cancer Control Information System (SISMAMA) in the state of Minas Gerais, Brazil: a reference database, which included 301 screening mammograms with probable benign diagnosis (BI-RADS 3 category) recorded in October 2010, and a database comprising 158,517 mammograms registered in 2011. Subsequently, the 215 pairs of records that were not assigned the maximum RecLink score were independently classified as being true or false by ten independent evaluators from four participating centers. Results: The Kappa coefficient ranged from 0.87 to 1.00. Six evaluators were in perfect agreement with one or more evaluators from the other centers. The global Kappa was 0.96 (95% confidence interval - 95%CI 0.94 - 0.99). Discussion: Assessment of interobserver reliability is key to ensuring the quality of the record linkage, and it should be routine practice in studies of this nature. The disclosure of such results contributes to transparency in the conduct of such studies and in the reporting of their findings. Conclusion: Interobserver reliability in this study was excellent, indicating satisfactory team consistency in the classification of record pairs.
Asunto(s)
Humanos , Femenino , Neoplasias de la Mama/prevención & control , Registro Médico Coordinado , Sistemas de Información en Salud , Brasil , Mamografía , Variaciones Dependientes del Observador , Reproducibilidad de los Resultados , Bases de Datos Factuales , Integración de SistemasRESUMEN
Objetivo: Estimar a confiabilidade e a validade da codificação de motivos de consulta e problemas por estudantes utilizando a Classificação Internacional da Atenção Primária, 2ª edição (CIAP-2). Métodos: Para cada encontro supervisionado durante todo um semestre, três professores médicos de família e comunidade registraram os motivos de consulta e problemas em um questionário usando texto livre. Dois de quatro estudantes de medicina e um professor codificaram cada motivo de consulta ou problema usando a CIAP-2. No começo do estudo, houve duas seções de padronização com três horas de duração, até os professores julgarem que os estudantes estavam prontos para a codificação. Após todos os motivos de consulta e problemas terem sido codificados independentemente, os sete codificadores resolveram os códigos definitivos por consenso. Definiu-se confiabilidade como concordância entre estudantes, e validade como a concordância destes com os códigos definitivos; essa concordância foi estimada com o AC1 de Gwet. Resultados: Após a exclusão dos encontros codificados antes da última sessão de padronização, a amostra consistiu em 149 encontros consecutivos, somando 262 motivos de consulta e 226 problemas. A codificação teve confiabilidade moderada a substancial (AC1 0,805; IC 95% 0,7670,843) e validade substancial (AC1 0,864; IC 95% 0,8330,891). C
Objective: To estimate how reliably and validly can medical students encode reasons for encounter and diagnoses using the International Classification of Primary Care, revised 2nd edition (ICPC-2-R). Methods: For every encounter they supervised during an entire semester, three family and community physician teachers entered the reasons for encounter and diagnoses in free text into a form. Two of four medical students and one teacher encoded each reason for encounter or diagnosis using the ICPC-2-R. In the beginning of the study, two three-hour workshops were held, until the teachers were confident the students were ready for the encoding. After all the reasons for encounter and the diagnoses had been independently encoded, the seven encoders resolved the definitive codes by consensus. We defined reliability as agreement between students and validity as their agreement with the definitive codes, and used Gwet's AC1 to estimate this agreement. Results: After exclusion of encounters encoded before the last workshop, the sample consisted of 149 consecutive encounters, comprising 262 reasons for encounter and 226 diagnoses. The encoding had moderate to substantial reliability (AC1 , 0.805; 95% CI, 0.7670.843) and substantial validity (AC1 , 0.864; 95% CI, 0.8330.891). Conclusion: Medical students can encode reasons for encounter and diagnoses with the ICPC-2-R if they are adequately trained.
Objetivo: Estimar la confiabilidad y la validez de la codificación de motivos de consulta y problemas de salud por estudiantes utilizando la Clasificación Internacional de Atención Primaria, 2ª edición (CIAP-2). Métodos: Para cada encuentro supervisado durante todo un semestre, tres profesores médicos de familia y comunidad registraron los motivos de consulta y los problemas de salud en un formulario usando texto libre. Dos de cuatro estudiantes de medicina y un profesor codificaron cada motivo de consulta o problema de salud utilizando la CIAP-2. En el comienzo del estudio, se llevaron a cabo dos sesiones de estandarización de tres horas, hasta que los profesores estuvieron seguros de que los estudiantes estaban listos para la codificación. Después de que todos los motivos de consulta y problemas de salud fueran codificados independientemente, los siete codificadores resolvieron los códigos definitivos por consenso. Se definió confiabilidad como concordancia entre los estudiantes y validez como la concordancia de éstos con los códigos definitivos; se estimó esta concordancia con el AC1 de Gwet. Resultados: Después de la exclusión de los encuentros codificados antes de la última sesión de estandarización, la muestra consistió en 149 encuentros consecutivos, que comprendían 262 motivos de consulta y 226 problemas de salud. La codificación tuvo una confiabilidad moderada a sustancial (AC1 0,805; IC 95% 0,7670,843) y validez sustancial (AC1 0,864; IC 95% 0,8330,891). Conclusión: Los estudiantes de medicina pueden codificar los motivos de consulta y los problemas de salud con la CIAP-2 si fueran adecuadamente capacitados.
Asunto(s)
Humanos , Masculino , Femenino , Atención Primaria de Salud/clasificación , Variaciones Dependientes del Observador , Reproducibilidad de los Resultados , Prácticas Clínicas , Educación de Pregrado en MedicinaRESUMEN
ABSTRACT Objective: The aim of this study is to estimate the inter- and intra-observer agreement of the Weiss and Milch classification systems in radiological studies of fractures of the lateral humeral condyle in pediatric patients. Methods: An agreement study was performed with non-probability sampling of consecutive cases with a sample size of a hundred radiological studies, which were evaluated by three experienced orthopedic surgeons and three resident physicians; following a thorough comparison of both inter- and intra-observer agreements over a six-week period based on the Fleiss' kappa, which was used to determine the inter- and intra-observer agreement rates of both classifications. Results: The overall reliability of the entire group of evaluators for the Milch classification in the inter-observer evaluation was κ = 0.13, 95% CI, 0.08-0.18, and the intra-observer evaluation was κ = 0.08, 95% CI, 0.06-0.11. For the Weiss classification, the overall evaluation had an inter-observer agreement of κ = 0.53, 95% CI, 0.50-0.57, and an intra-observer agreement of κ = 0.22, 95% CI, 0.20 −0.24. Conclusion: In the present study, the Weiss classification system demonstrated greater agreement than the Milch classification; however, the latter may require complementary studies, such as an arthrography to enhance classification accuracy. Level of Evidence II, Diagnostic Studies - Investigating Diagnostic Examination.
RESUMO Objetivo: Este estudo visa estimar a concordância intra e interobservador da classificação de Weiss e Milch, em estudos radiológicos de pacientes pediátricos com fratura da parte lateral do côndilo do úmero. Métodos: Estudo de concordância realizado com amostragem não probabilística de casos consecutivos com amostra de cem estudos radiológicos que foram avaliados por três observadores especialistas e por três médicos residentes; depois de uma comparação completa da concordância inter e intraobservador durante seis semanas, com base no kappa de Fleiss, que foi usado para determinar a concordância inter e intraobservador das duas classificações. Resultados: A confiabilidade global de todo o grupo de avaliadores da classificação de Milch na avaliação interobservador foi κ = 0,13, IC 95% 0,08-0,18 e intraobservador foi κ = 0,08, IC 95% 0,06-0,11. A avaliação geral da classificação de Weiss obteve concordância interobservador de κ = 0,53, IC 95% 0,50-0,57 e intraobservador de κ = 0,22, IC 95% 0,20-0,24. Conclusão: No presente estudo, o sistema de classificação de Weiss mostrou concordância maior do que a classificação Milch; contudo, esta última pode exigir estudos complementares, como artrografia, para ampliar a acurácia da classificação. Nível de Evidência II, Estudos Diagnósticos - Investigação de um Exame para Diagnóstico.