Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis

Holsbach, Nicole; Fogliatto, Flávio Sanson; Anzanello, Michel Jose

Método de mineração de dados para identificação de câncer de mama baseado na seleção de variáveis / A data mining method for breast cancer identification based on a selection of variables

Holsbach, Nicole; Fogliatto, Flávio Sanson; Anzanello, Michel Jose.

Holsbach, Nicole; Universidade Federal do Rio Grande do Sul. Escola de Engenharia. Porto Alegre. BR
Fogliatto, Flávio Sanson; Universidade Federal do Rio Grande do Sul. Escola de Engenharia. Porto Alegre. BR
Anzanello, Michel Jose; Universidade Federal do Rio Grande do Sul. Escola de Engenharia. Porto Alegre. BR

Ciênc. Saúde Colet. (Impr.) ; 19(4): 1295-1304, abr. 2014. graf

Artículo en Portugués | LILACS | ID: lil-710506

RESUMO
ABSTRACT

RESUMO

Na maioria dos países, o câncer de mama entre as mulheres é predominante. Se diagnosticado precocemente, apresenta alta probabilidade de cura. Diversas abordagens baseadas em Estatística foram desenvolvidas para auxiliar na sua detecção precoce. Este artigo apresenta um método para a seleção de variáveis para classificação dos casos em duas classes de resultado, benigno ou maligno, baseado na análise citopatológica de amostras de célula da mama de pacientes. As variáveis são ordenadas de acordo com um novo índice de importância de variáveis que combina os pesos de importância da Análise de Componentes Principais e a variância explicada a partir de cada componente retido. Observações da amostra de treino são categorizadas em duas classes através das ferramentas k-vizinhos mais próximos e Análise Discriminante, seguida pela eliminação da variável com o menor índice de importância. Usa-se o subconjunto com a máxima acurácia para classificar as observações na amostra de teste. Aplicando ao Wisconsin Breast Cancer Database, o método proposto apresentou uma média de 97,77% de acurácia de classificação, retendo uma média de 5,8 variáveis.

ABSTRACT

In the majority of countries, breast cancer among women is highly prevalent. If diagnosed in the early stages, there is a high probability of a cure. Several statistical-based approaches have been developed to assist in early breast cancer detection. This paper presents a method for selection of variables for the classification of cases into two classes, benign or malignant, based on cytopathological analysis of breast cell samples of patients. The variables are ranked according to a new index of importance of variables that combines the weighting importance of Principal Component Analysis and the explained variance based on each retained component. Observations from the test sample are categorized into two classes using the k-Nearest Neighbor algorithm and Discriminant Analysis, followed by elimination of the variable with the index of lowest importance. The subset with the highest accuracy is used to classify observations in the test sample. When applied to the Wisconsin Breast Cancer Database, the proposed method led to average of 97.77% in classification accuracy while retaining an average of 5.8 variables.

Asunto(s)

Femenino; Humanos; Neoplasias de la Mama/diagnóstico; Minería de Datos/métodos; Minería de Datos/estadística & datos numéricos; Detección Precoz del Cáncer/métodos; Detección Precoz del Cáncer/estadística & datos numéricos

Análise Discriminante; Breast cancer identification; Discriminant analysis; Identificação de câncer de mama; K-nearest neighbor algorithm (KNN); K-vizinhos mais próximos; Selection of variables; Seleção de variáveis

Texto completo

Imprimir

XML

Buscar en Google

Texto completo: Disponible Índice: LILACS (Américas) Asunto principal: Neoplasias de la Mama / Detección Precoz del Cáncer / Minería de Datos Tipo de estudio: Estudio diagnóstico / Estudio pronóstico / Estudio de tamizaje Límite: Femenino / Humanos Idioma: Portugués Revista: Ciênc. Saúde Colet. (Impr.) Asunto de la revista: Salud Pública Año: 2014 Tipo del documento: Artículo País de afiliación: Brasil Institución/País de afiliación: Universidade Federal do Rio Grande do Sul/BR

Similares

MEDLINE

LILACS

LIS

Texto completo

Imprimir

XML

Buscar en Google