Printer Friendly

A data mining method for breast cancer identification based on a selection of variables/Metodo de mineracao de dados para identificacao de cancer de mama baseado na selecao de variaveis.

Introducao

Mesmo com os avancos na deteccao e tratamento precoce, o cancer esta evoluindo para uma condicao cronica em muitos paises. Nota-se a predominancia de tres tipos de cancer: o de mama (CM) na grande maioria dos paises; o de colo do utero na Africa e no Sul da Asia; e o de prostata na America do Norte, Oceania, Norte da Europa e Europa Ocidental (1). O CM e o segundo tipo mais frequente no mundo e e o mais comum entre as mulheres, respondendo por 22% dos casos novos a cada ano. Se diagnosticado precocemente, apresenta uma alta percentagem de cura (2,3). A doenca consiste no crescimento desordenado de celulas do tecido da mama, formando nodulos que podem ser malignos (tumores) ou benignos. No Brasil, as taxas de mortalidade por cancer de mama continuam elevadas, muito possivelmente porque a doenca ainda e diagnosticada em estados avancados. O Brasil gastou R$117.849.636,17 em 2008, R$ 129.301.592,94 em 2009 e R$ 148.992.855,26 em 2010 somente com mamografia, representando um crescimento de 15% em 2009 e 16% em 2010 (4). Na populacao mundial, a sobrevida media apos cinco anos e de 61%. O CM nao e comum antes dos 35 anos, e acima desta faixa etaria sua incidencia cresce rapida e progressivamente. Estatisticas indicam aumento de sua incidencia tanto nos paises desenvolvidos quanto nos em desenvolvimento. Segundo a Organizacao Mundial da Saude (OMS), nas decadas de 60 e 70 registrou-se um aumento de 10 vezes nas taxas de incidencia ajustadas por idade nos Registros de Cancer de Base Populacional de diversos continentes (5). A identificacao precoce aumenta as taxas de sobrevivencia em pacientes com CM, o que tem sido provado ao longo dos anos atraves de investigacao clinica, como nos estudos de Shapiro et al. (6) e Humphrey et al. (7).

A identificacao do CM depende da interpretacao do medico a partir das informacoes obtidas dos pacientes atraves de exames, os quais incluem exame clinico da mama, mamografia e analise de tecido da mama. O exame clinico da mama, apesar de simples, e pouco eficiente na deteccao de pequenos tumores (menores que 1 cm) quando comparado a exames de imagem ou laboratoriais (citopatologicos). Em seu trabalho, Baker (8) demonstrou que, em um grupo de 280.000 mulheres americanas rastreadas clinicamente quanto ao CM, 6% dos pequenos canceres no grupo de pacientes foram detectados atraves do exame clinico da mama e 57% atraves da mamografia. Em termos de analise, o exame clinico da mama fornece dados univariados para interpretacao (mais simples), enquanto que exames laboratoriais (citopatologicos) e de imagem produzem dados multivariados, os quais demandam maior processamento de informacoes.

Abordagens baseadas em metodos de classificacao tem sido propostas para auxiliar profissionais de saude no processamento das informacoes geradas pelos exames laboratoriais (citopatologico) de CM, como em Street et al. (9) e Fogel et al. (10). Tais abordagens usualmente apoiam-se em dados de exames (geralmente imagens) para chegar a uma conclusao a respeito da observacao analisada, seja maligno ou benigno, no caso de nodulos mamarios. Dentre os metodos de classificacao mais difundidos na literatura, destacam-se redes neurais artificiais e abordagens baseadas em teoria fuzzy (11). As abordagens geradas com base nesses metodos permitem a insercao de observacoes em classes com base em dados de entrada, levando a avaliacoes/categorizacoes mais acuradas.

Neste artigo e apresentado um metodo para selecao de variaveis oriundas de exames clinicos com vistas a classificacao de observacoes em categorias distintas. A tecnica multivariada Analise de Componentes Principais (ACP) e inicialmente aplicada no banco de dados, onde as observacoes referem-se a pacientes e as variaveis a dados extraidos de exames clinicos. As variaveis sao entao ordenadas de acordo com um novo indice que combina os pesos gerados pelos componentes principais retidos na ACP com a variancia explicada por estes componentes. Na sequencia, as observacoes da porcao de treino sao categorizadas em duas classes (benigno ou maligno) utilizando dois metodos de classificacao: (i) a ferramenta de mineracao de dados Cc-vizinhos mais proximos (KVP), e (ii) analise discriminante (AD). Por fim, calcula-se a acuracia de classificacao. Em seguida, a variavel com o menor indice de importancia e removida e uma nova classificacao e realizada utilizando as variaveis remanescentes. Esse processo iterativo de eliminacao e classificacao e repetido ate que reste somente uma variavel. Finalmente, o subconjunto de variaveis que leva a maxima acuracia e escolhido e utilizado para classificar as observacoes do conjunto de teste.

Uma contribuicao importante deste trabalho e a integracao de uma tecnica multivariada (ACP) com dois metodos de classificacao: KVP e AD. A ACP e um metodo conhecido para a reducao da dimensionalidade de dados a partir da obtencao de combinacoes lineares de variaveis altamente correlacionadas (12). Outra contribuicao do artigo consiste na proposicao de um novo indice de importancia baseado em parametros da ACP, o qual guia a eliminacao recursiva de variaveis.

Varios estudos propondo metodos de classificacao testam seu desempenho no Wisconsin Breast Cancer Database (WBCD), obtido da universidade de Wisconsin e disponibilizado online. Neste banco, nove variaveis foram analisadas em imagens de amostra de celulas da mama de 699 individuos, para os quais o diagnostico foi elaborado. Estudos relevantes utilizando o WBCD sao apresentados na segunda secao.

O restante deste trabalho esta organizado como segue. Na segunda secao e apresentado o referencial teorico sobre sistematicas de classificacao aplicadas no WBCD. O metodo proposto e detalhado na terceira secao. Os resultados obtidos pelo metodo proposto sao apresentados na quarta secao. A conclusao e apresentada na ultima secao.

Referencial teorico

Nesta secao e apresentada uma revisao das metodologias propostas para classificacao das observacoes do WBCD. Algumas abordagens incluem sistematicas de selecao de variaveis, visando aumentar a acuracia dos classificadores. Propostas de sistemas especialistas para a identificacao de cancer de mama que nao utilizam o WBCD foram revisadas por Eltoukhy et al. (13); abordagens para selecao de variaveis em problemas de classificacao foram revisadas por Dash e Liu (14).

Os classificadores apresentados nesta secao podem ser categorizados conforme o fundamento teorico em que estao baseados: estatistica/maquinas de suporte vetorial (E/MSV), arvores de decisao/programacao linear (ADD/PL), redes neurais (RN) ou teoria fuzzy (TF). As abordagens sao apresentadas em ordem cronologica de publicacao; os principais resultados de cada abordagem sao resumidos no Quadro 1, apresentado no final da secao. No quadro sao listados os trabalhos que utilizaram o WBCD para fins similares ao do presente artigo, a acuracia percentual obtida e o desvio-padrao da acuracia reportada.

No seu trabalho, Street et al. (9) relatam analises preliminares realizadas no WBCD com o objetivo de organizar o banco de dados. Os autores classificam com uma amostra de 569 casos do WBCD utilizando o metodo Multi-surface, um modelo de programacao linear que encontra o melhor grupo em planos separados no espaco das variaveis. A acuracia obtida foi de 97,30% em um procedimento de validacao cruzada do tipo ten-fold, no qual a amostra e dividida em 10 porcoes iguais, cada uma delas usada como porcao de teste enquanto as 9 restantes sao usadas como porcoes de treino. Os autores nao informam se o valor de acuracia diz respeito a media ou ao valor maximo obtidos nas classificacoes; o desvio-padrao da acuracia tambem nao e informado. Por usarem uma fracao do WBCD no procedimento de classificacao, o resultado em Street et al. (9) nao e diretamente comparavel aos demais apresentados nesta secao, nao sendo incluido no Quadro 1.

Ja Fogel et al. (10) propoem um classificador baseado em redes neurais. A selecao das variaveis e realizada nos experimentos de redes, porem nenhum resultado e explicitado. A acuracia media em uma divisao de 60% das observacoes em porcao de treino e 40% em porcao de teste e de 98,05%. O valor reportado de acuracia, entretanto, e tendencioso, ja que a porcao de treino utilizada nos experimentos com redes sempre consistiu das primeiras 400 observacoes do WBCD. Com propositos semelhantes, Quinlan (15,16) sugere um classificador baseado em arvore de decisao, que melhora o desempenho do classificador C4.5 de duas maneiras: o novo classificador elimina o vies que favorecia variaveis continuas e que podia levar a testes de decisao baseados em variaveis irrelevantes; na sequencia, os testes de decisao sao avaliados utilizando o criterio de razao de ganho (ganho de informacao/ informacao da divisao). A selecao de variaveis e realizada atraves da analise das arvores de decisao. A acuracia de classificacao aplicando o metodo proposto no WBCD e de 94,74%, utilizando 90% das observacoes na porcao de treino.

Tambem baseado em RN, Setiono (17) apresenta uma abordagem cujo foco esta na geracao de regras de classificacao no treinamento da rede. Para isso, as saidas da rede sao avaliadas utilizando a funcao de entropia, sendo definido um termo de penalizacao para medir a perda de acuracia devida a eliminacao de variaveis. O erro maximo da classificacao e definido pelo usuario, e a melhor rede e encontrada minimizando o termo de penalizacao. Testes no WBCD apresentaram uma acuracia media maxima de classificacao, na porcao de teste, de 93,87% sobre todas as redes testadas. O mesmo algoritmo foi expandido para incluir um estagio de pre-processamento do classificador da rede (18). O estagio adicional e realizado em dois passos. No primeiro, os casos com valores desconhecidos sao removidos do banco de dados. No segundo, a rede neural com apenas uma unidade oculta e treinada para uma melhor acuracia na porcao de treino, indicando o menor grupo de variaveis a ser usado no classificador. A maior acuracia media (96,71%) e obtida quando a rede e treinada para 98% de acuracia na porcao de treino, utilizando 50% das observacoes na porcao de treino.

Em sua pesquisa, Pena-Reyes e Sipper (19) combinaram sistemas fuzzy e algoritmos evolucionarios em uma ferramenta de identificacao. O metodo e dividido em dois passos. Primeiramente, um sistema fuzzy pontua casos no WBCD conforme a sua malignidade, baseado nos valores das variaveis. Em seguida, um sistema limitrofe interpreta as saidas do sistema fuzzy para a classificacao dos casos em benignos e malignos. O metodo proposto obteve uma acuracia de classificacao de 97,8%, utilizando uma divisao de 75%/ 25% no banco de dados. Em seu trabalho, Nauck e Kruse (20) propoem um classificador neurofuzzy utilizando tecnicas de aprendizado da teoria de redes neurais. Cinco tecnicas de treino sao propostas para aumentar o grupo de regras fuzzy utilizadas na classificacao. Uma delas e baseada na determinacao da correlacao das variaveis de uma observacao com a classe em que esta inserida e exclusao das variaveis com valores menores do que valores limitrofes especificados. Tal sistematica obteve uma acuracia de 95,06% em bancos com 90% de observacoes na porcao de treino, alem de excluir as variaveis 1 e 9 do WBCD. Da mesma forma, Lee et al. (21) tambem propoem um classificador fuzzy com selecao de variaveis: o classificador gera regioes de decisao fuzzy que nao se sobrepoem, reduzindo o esforco computacional e a complexidade da classificacao. Para a selecao de variaveis, eles propoem uma medida de entropia fuzzy baseada na de Shannon (22). O classificador alcanca uma acuracia de 94,67% quando todas as variaveis sao incluidas, e 95,14% quando apenas 6 variaveis sao retidas, valendose de uma divisao 50%/50%.

E proposto por Albrecht et al. (23) uma sistematica de classificacao baseada no algoritmo Perceptron. A fim de encontrar uma funcao linear limitrofe que garanta um bom desempenho de classificacao, o metodo Simulated Annealing e utilizado na otimizacao. Um procedimento de selecao de variaveis baseado no ordenamento destas de acordo com o valor do coeficiente gerado pelo algoritmo Perceptron tambem e proposto, apesar de nao ser testado no WBCD. A acuracia de classificacao no WBCD e de 98,80%.

E apresentado por Abbass (24) um classificador baseado na rede neural artificial Memetic Pareto com vistas a reducao do esforco computacional imposto pelo treinamento das redes neurais. A proposta foi testada no WBCD utilizando 400 individuos como porcao de treino: os autores obtiveram acuracia media de 98,1% em 120 rodadas.

Em seu trabalho, Verikas e Bacauskiene (25) propoem um classificador baseado em redes neurais no qual uma funcao de custo do erro de entropia cruzada e adicionada de um termo que restringe as derivadas das funcoes de transferencia das saidas da rede e dos nodos ocultos. A selecao de variaveis e realizada monitorando o erro de classificacao em bases de dados de validacao cruzada, a medida que elas sao removidas; o objetivo e encontrar a melhor solucao de compromisso entre erro e numero das retidas. Os melhores resultados na classificacao sao obtidos usando uma divisao 50%/50% do WBCD: 95,77% de acuracia usando duas variaveis. Retendo as 9 variaveis, a acuracia aumenta para 96,44%.

Ja em Abonyi e Szeifert (11) e apresentado um classificador baseado na regra fuzzy com as seguintes caracteristicas: a regra pode representar mais de uma classe, ao contrario dos classificadores tradicionais fuzzy, e um novo prototipo de cluster (e algoritmo de clusterizacao associado) e apresentado, permitindo a identificacao direta supervisionada dos classificadores fuzzy. Para a selecao de variaveis, uma modificacao da funcao de separacao de Fisher e apresentada, na qual a importancia delas e estimada com base em sua matriz de covariancias. A acuracia media encontrada foi de 95,57%, em uma divisao 50%/50% do WBCD.

Em sua pesquisa, Polat e Gunes (26) apresentam um classificador de maquina de suporte vetorial no qual um grupo de equacoes lineares e utilizado para treino. Nenhuma selecao de variaveis e realizada. A maior acuracia de classificacao encontrada foi de 98,53% em uma divisao 50%/50% do WBCD. Tambem em Akay (27) e proposto um classificador baseado em maquina de suporte vetorial. A selecao de variaveis e o primeiro passo na metodologia proposta, realizada atraves do F-score de Chen e Lin (28), um indice que mede a discriminacao entre dois grupos de numeros. Todos os indices derivados da classificacao da matriz de confusao (confusion matrix) sao utilizados para avaliar o desempenho do classificador, alem das curvas ROC. Os melhores resultados sao obtidos utilizando uma divisao 80%/20% do WBCD, com uma acuracia de 99,51%, utilizando 5 das 9 variaveis do banco de dados.

Por fim, Marcano-Cedeno et al. (29) propoem um classificador baseado em redes neurais, que simula a propriedade biologica de metaplasticidade em um algoritmo perceptron de multiplas camadas com propagacao reversa. A metaplasticidade pode ser definida como a inducao de mudancas sinapticas tambem dependentes de atividade sinaptica previa. Das observacoes do WBCD, 60% foram usadas na porcao de treino e 100 experimentos, com diferentes parametros de rede, foram rodados, com 100 repeticoes cada. A melhor acuracia de classificacao foi de 99,26%.

Metodo

O metodo de selecao de variaveis para categorizacao das observacoes do WBCD em duas classes baseia-se em 4 passos operacionais: (i) dividir o banco de dados original em porcoes de treino e de teste, e aplicar a ACP na porcao de treino; (ii) gerar indices de importancia das variaveis baseados nos pesos da ACP e na percentagem da variancia explicada pelos componentes retidos; (iii) classificar o banco dos dados utilizando KVP e AD separadamente. Em seguida, eliminar a variavel com o menor indice de importancia, classificar o banco de dados novamente, e calcular a acuracia de classificacao. Continuar tal processo iterativo ate restar uma variavel; e (iv) selecionar o subgrupo de variaveis que apresenta a maxima acuracia de classificacao e classificar a porcao de treino baseado nessas variaveis. Esses passos operacionais estao detalhados na sequencia.

Passo 1: Dividir o banco de dados original em porcoes de treino e teste, e aplicar a ACP na porcao de treino

Dividir aleatoriamente o banco de dados em uma porcao de treino com [N.sup.tr] observacoes e uma porcao de teste com [N.sup.ts] observacoes, tal que [N.sup.tr] + [N.sup.ts] = N. A porcao de treino e utilizada para selecionar as variaveis mais importantes e a porcao de teste representa as novas observacoes a serem classificadas. Diferentes proporcoes de [N.sup.tr] e [N.sup.ts] serao testadas no metodo apresentado, conforme descrito no Passo 4.

Em seguida, caracterizar a relacao entre variaveis na porcao de treino utilizando a tecnica multivariada ACP. Os parametros gerados pela ACP fornecem informacoes relevantes sobre como as variaveis e componentes principais (combinacoes lineares das variaveis) explicam a variancia nos dados. Tais informacoes sao utilizadas para avaliar a importancia das variaveis no metodo proposto. Os parametros de interesse incluem os pesos (ou cargas) dos componentes ([p.sub.jr]) e o percentual da variancia explicado pelo componente retido r (r = 1, ..., R), [[lambda].sup.r]. O numero de componentes a serem retidos pode ser definido com base na variancia acumulada, conforme sugerido em Montgomery et al. (30).

Passo 2: Gerar indices de importancia das variaveis utilizando os parametros da ACP

O indice de importancia das variaveis permite guiar a remocao daquelas menos relevantes. O indice associado a variavel j e denotado por [v.sub.p] j = I, ..., J. Quanto maior o valor de [v.sub.f], mais importante e a variavel j na categorizacao das observacoes em classes.

O indice e gerado baseado nos pesos da ACP ([p.sub.jr]) e no percentual de variancia explicado por cada componente retido ([[lambda].sup.r]); ver equacao (1). As variaveis com o maior [p.sub.jr] nos componentes com maior valor de [[lambda].sup.r] serao as preferidas, uma vez que apresentam elevada variabilidade e permitem uma melhor discriminacao das observacoes em classes (31). Um indice similar e proposto por Anzanello et al. (32), mas nao leva em consideracao o percentual da variancia explicada por cada componente retido.

[MATHEMATICAL EXPRESSION NOT REPRODUCIBLE IN ASCII] (1)

Passo 3: Classificar a porcao de treino utilizando os metodos de classificacao KVP e AD, e eliminar as variaveis menos relevantes

Classificar as observacoes de treino em duas classes considerando todas as J variaveis utilizando KVP e AD, separadamente. O metodo de classificacao KVP insere observacoes em categorias binarias, 0 ou 1, baseada na distancia euclidiana da observacao aos k vizinhos mais proximos. Cada um dos k vizinhos tem sua classe conhecida a priori; a nova observacao e alocada na classe 0 se a maioria dos k vizinhos mais proximos estiver em 0. O valor de k e selecionado de forma a maximizar a acuracia de classificacao na porcao de treino, onde a classe de cada observacao e previamente conhecida.

Por sua vez, a AD e um metodo de classificacao e discriminacao de amostras (classifica as observacoes em classes distintas), que permite alocar novas observacoes a grupos pre-determinados. A AD permite a classificacao de novas observacoes nos grupos ja existentes sem a necessidade de rearranjar os grupos. Um grupo de observacoes onde os membros ja estao identificados e utilizado para estimar pesos (ou cargas) de uma funcao discriminante conforme alguns criterios. O proposito do metodo e, basicamente, estimar a relacao entre uma variavel dependente e um conjunto de variaveis independentes. Essa relacao e expressa atraves de uma funcao discriminante consistindo em uma combinacao linear das variaveis independentes (32).

Concluida a primeira das classificacoes, calcular a acuracia delas, definidas como a proporcao das corretas relativamente ao total das realizadas. Em seguida, identificar e remover a variavel com o menor valor de [v.sub.f]. Realizar uma nova classificacao considerando as J - 1 variaveis remanescentes e recalcular a acuracia. Esse procedimento e repetido removendo a proxima variavel com menor valor de [v.sub.j] e aplicando KVP e AD nas remanescentes, ate restar uma unica.

Passo 4: Selecionar o melhor subgrupo de variaveis e classificar a porcao de teste utilizando as variaveis selecionadas

Selecionar o subgrupo de variaveis que apresenta a maxima acuracia gerada pelos classificadores KVP e AD. No caso de haver subgrupos alternativos com valores de acuracia identicos, escolher aquele com o menor numero de variaveis retidas. Na sequencia, classificar a porcao de teste utilizando as variaveis selecionadas e calcular a acuracia.

A fim de avaliar a consistencia do metodo proposto, repetir os passos 1 a 4 em diferentes proporcoes de [N.sup.tr] e [N.sup.ts], de forma a garantir a consistencia do metodo frente a diferentes particoes do banco de dados original. Para cada proporcao [N.sup.tr]/[N.sup.ts] repetir o metodo proposto em amostras contendo um numero elevado de dados, gerados misturando e dividindo as observacoes do WBCD aleatoriamente, certificandose de que todas as observacoes aparecam pelo menos uma vez na porcao de teste. Em seguida calcular a media da acuracia de classificacao e o numero de variaveis retidas para cada proporcao, e identificar as variaveis que aparecem com mais frequencia nos subgrupos selecionados.

Medidas alternativas de desempenho de classificacao podem ser calculadas para a porcao de teste, incluindo sensibilidade e especificidade. Tais medidas sao definidas a seguir. Considere duas classes: positivo, representando um caso de nodulo mamario maligno (tumor/cancer), e negativo, representando um caso de nodulo mamario benigno. Em seguida, considere quatro subgrupos possiveis de classificacoes: 1) positivos verdadeiros (PV), representando classificacoes corretas de casos positivos; 2) negativos verdadeiros (NV), representando classificacoes corretas de casos negativos; 3) positivos falsos (PF), representando classificacoes erradas de casos negativos; e 4) negativos falsos (NF), representando classificacoes erradas de casos positivos. A sensibilidade, dada pela equacao (2), corresponde a fracao de casos positivos corretamente classificados; a especificidade, dada pela equacao (3), corresponde a fracao de casos negativos corretamente classificados.

Sensibilidade = PV/PV + NF (2)

Especificidade = NV/NV + PF (3)

Resultados

O WBCD e composto por 699 observacoes (16 delas incompletas) obtidas a partir da aspiracao com agulha fina de celulas da mama. A aspiracao com agulha fina permite a investigacao da malignidade em nodulos mamarios (23). Nove variaveis foram analisadas em cada amostra de celulas da mama, utilizando uma escala de valores inteiros de 10 pontos (Quadro 2). A classe (benigna ou maligna) a que cada observacao pertence e conhecida. Na amostra de 683 valores completos utilizada nesta analise, ha 239 casos malignos e 444 casos benignos (33).

Para cada proporcao, 1000 repeticoes foram executadas em grupos de treino e teste obtidos amostrando aleatoriamente as observacoes do WBCD. O Quadro 3 apresenta a media e o desvio-padrao medio da acuracia, sensibilidade e especificidade de classificacao para diferentes proporcoes Ntr/Nts utilizando as variaveis selecionadas em cada repeticao e valendo-se das tecnicas de classificacao KVP e AD. O metodo proposto utilizando KVP atinge a maior acuracia media de classificacao, 97,77%, ao reter 5,87 variaveis, em media, e o melhor desempenho para a sensibilidade, com uma media de 97,90%. Utilizando a AD, o metodo proposto atinge a maior acuracia media de classificacao de 97,07% ao reter 5,95 variaveis, em media, e o melhor desempenho para especificidade, com uma media de 98,56%. O metodo KVP apresenta maior acuracia retendo um menor numero de variaveis em comparacao ao metodo AD para todas as proporcoes testadas. Alem disso, o metodo KVP apresentou o melhor desempenho para sensibilidade e o pior para especificidade em relacao ao metodo AD para todas as proporcoes testadas. Essas medidas de classificacao parecem aumentar conforme a proporcao [N.sup.tr]/[N.sup.ts] aumenta, sugerindo que quanto maior a porcao de treino, mais informacao e oferecida para a construcao do modelo de classificacao. Percebe-se um aumento na variabilidade das medidas de precisao com a reducao do numero de observacoes na porcao de teste. A acuracia media, extraida de diversas repeticoes com distintas formacoes nas porcoes de treino e teste, e uma medida de desempenho de classificacao mais confiavel que a acuracia estimada sobre uma unica particao treino/teste. Executando uma unica repeticao do metodo classificatorio em uma porcao favoravel do banco de dados pode levar a resultados nao confiaveis.

No Quadro 4 e apresentada a frequencia de inclusao das variaveis nas repeticoes das amostragens realizadas nas diferentes proporcoes [N.sup.tr]/ [N.sup.ts] do banco de dados. Ha uma pequena variacao no numero de variaveis responsavel pela maxima acuracia (esta foi obtida retendo 5 ou 6 variaveis). As variaveis 9, 7 e 6 foram retidas com maior frequencia, independente da proporcao [N.sup.tr] /[N.sup.ts]. As variaveis 5, 3 e 1, retidas em mais de 59,7% dos subgrupos selecionados, sao omitidas em alguns subgrupos selecionados em virtude da variabilidade nas observacoes da porcao de treino. Essa variabilidade gera diferentes pesos da ACP e pequenas mudancas na ordem da eliminacao recursiva das variaveis.

Para uma melhor visualizacao dos resultados de classificacao, uma matriz de confusao e apresentada no Quadro 5. O pequeno numero de erros de classificacao, particularmente na pro porcao de 615 observacoes na porcao de treino e 68 na de teste, corrobora o desempenho satisfatorio do metodo.

Conclusao

Neste artigo, propoe-se um metodo para selecao de variaveis oriundas de exames clinicos com vistas a classificacao de observacoes em categorias distintas. O metodo congrega tres tecnicas de analise estatistica multivariada: a Analise de Componentes Principais (ACP), aplicada na obtencao de um indice de importancia para as variaveis, e as analises de clusters e discriminante, usadas na classificacao das observacoes contidas nos bancos de dados abordados pelo metodo.

O metodo proposto seleciona as variaveis mais relevantes para fins de classificacao de forma a maximizar a sua acuracia, alem de propor o teste dos dois metodos de classificacao citados anteriormente na analise de um banco de dados. As proposicoes sao testadas no banco de dados WBCD. Primeiramente as variaveis sao ordenadas utilizando um novo indice de importancia baseado nos pesos da ACP e na variancia explicada por cada componente retido. Em seguida, o metodo proposto classifica iterativamente os registros dos pacientes em duas classes, benigno e maligno, atraves de duas tecnicas de mineracao de dados, KVP e AD; a variavel menos importante e removida e a classificacao realizada nas variaveis restantes ate restar uma unica variavel.

O metodo proposto, para uma proporcao de 90%/10%, classificou corretamente os dados do WBCD em 97,77% dos casos, em media, utilizando uma media de 5,8 variaveis na classificacao utilizando o metodo KVP. O melhor desempenho para a sensibilidade foi de 0,9790 utilizando o metodo KVP, e o melhor desempenho para especificidade foi de 0,9856 utilizando o metodo AD. E importante ressaltar que, para o rastreamento de cancer de mama, o metodo deve ser o mais sensivel possivel para que se consiga detectar o maior numero possivel de casos da doenca.

Desenvolvimentos futuros incluem testes com tecnicas multivariadas mais robustas para identificar as variaveis mais relevantes, e sua integracao com metodos alternativos de mineracao de dados para fins de classificacao. Tambem pretende-se transformar os dados originais utilizando tecnicas de Kernel, com o objetivo melhorar o desempenho de classificacao dos metodos de mineracao de dados.

Colaboradores

N Holsbach, FS Fogliatto e MJ Anzanello participaram igualmente de todas as etapas de elaboracao do artigo.

DOI: 10.1590/1413-81232014194.01722013

Referencias

(1.) Bray F, Ren JS, Masuyer E, Ferlay J. Global estimates of cancer prevalence for 27 sites in the adult population in 2008. Int J Cancer 2013; 132(5):1133-1145. International Agency for Research on Cancer (IARC).

(2.) IARC Handbooks of Cancer Prevention. Vol. 7. Breast Cancer Screening. Lyon: IARC; 2002.

(3.) World Health Organization (WHO). Cancer control: knowledge into action: WHO guide for effective programmes: early detection. WHO 2007 [Internet] 2007 [acessado 2012 Ago 9]; [cerca de 50 p.]. Disponivel em: http://www.who.int/cancer/publications/cancer_ control_detection/en/

(4.) Brasil. Ministerio da Saude (MS). Departamento de Informatica do SUS (Datasus). Informacoes de saude. Indicadores de saude. [site da Internet]. [acessado 2011 maio 3]. Disponivel em: http://tabnet.datasus.gov.br/ cgi/dh.exe?pacto/2010/cnv/pactbr.def

(5.) Brasil. Ministerio da Saude (MS). Instituto Nacional de Cancer (INCA). Controle do Cancer de Mama. Documento de Consenso. INCA [site na Internet]. 2004 Abr [acessado 2012 jul 23]; [cerca de 39 p.]. Disponivel em: http://www1.inca.gov.br/publicacoes/ Consensointegra.pdf

(6.) Shapiro S, Venet W, Strax P, Venet L, Roeser R. Tento fourteen-year effect of screening on breast cancer mortality. J Natl Cancer Inst 1982; 69(2):349-355.

(7.) Humphrey LL, Helfand M, Chan BKS, Woolf SH. Breast cancer screening: A summary of the evidence for the U.S. Preventive Services Task Force. Ann Intern Med 2002; 137(5 Part 1):347-360.

(8.) Baker LH. Breast cancer detection demonstration Project: five-year summary report. CA Cancer J Clin 1982; 32(4):194-225.

(9.) Street WN, Wolberg WH, Mangasarian OL. Nuclear feature extraction for breast tumor diagnosis. In: ISandT/SPIE 1993 International Symposium on Electronic Imaging: Science and Technology 1993; 1905:861-870, San Jose, California.

(10.) Fogel DB, Wasson III EC, Boughton EM. Evolving neural networks for detecting breast cancer. Cancer Letters 1995; 96:49-53.

(11.) Abonyi J, Szeifert F. Supervised fuzzy clustering for the identification of fuzzy classifiers. Pattern Recognition Letters 2003; 14:2195-2207.

(12.) Rencher R. Methods of multivariate Analysis. 1 ed. New York: Wiley; 1995.

(13.) Eltoukhy MM, Faye I, Samir BB. A statistical based feature extraction method for breast cancer diagnosis in digital mammogram using multiresolution representation. Computers in Biology and Medicine 2012; 42:123-128.

(14.) Dash M, Liu H. Feature selection for classification. Intelligent Data Analysis 1997; 1:131-156.

(15.) Quinlan JR. Improved use of continuous attributes in C4.5. Journal of Artificial Intelligence Research 1996; 4:77-90.

(16.) Quinlan JR. C4.5: Programs for machine learning. 5[degrees] ed. San Mateo: Morgan Kaufmann; 1993.

(17.) Setiono R. Extracting rules from pruned neural networks for breast cancer diagnosis. Artificial Intelligence in Medicine 1996; 8:37-51.

(18.) Setiono R. Generating concise and accurate classification rules for breast cancer diagnosis. Artificial Intelligence in Medicine 2000; 18:205-217.

(19.) Pena-Reyes CA, Sipper M. A fuzzy-genetic approach to breast cancer diagnosis. Artificial Intelligence in Medicine 1999; 17:131-155.

(20.) Nauck D, Kruse R. Obtaining interpretable fuzzy classification rules from medical data. Artificial Intelligence in Medicine 1999; 16:149-169.

(21.) Lee H-M, Chen C-M, Chen J-M, Jou Y-L. An efficient fuzzy classifier with feature selection based on fuzzy entropy. IEEE Transactions on Systems, Man, and Cybernetics--Part B: Cybernetics 2001; 31(3):426-432.

(22.) Shannon CE. A mathematical theory of communication. The Bell System Technical Journal 1948; 27:379-423.

(23.) Albrecht AA, Lappas G, Vinterbo SA, Wong CK, Ohno-Machado L. Two applications of the LSA macrine. In: Proceedings of the 9th International Conference on Neural Information Processing; 2002 Nov 18-22; Singapore. p. 184-189.

(24.) Abbass HA. An evolutionary artificial neural networks approach for breast cancer diagnosis. Artificial Intelligence in Medicine 2002; 25:265-281.

(25.) Verikas A, Bacauskiene M. Feature selection with neural networks. Pattern Recognition Letters 2002; 23:1323-1335.

(26.) Polat K, Gunes S. Breast cancer diagnosis using a least square support vector machine. Digital Signal Processing 2007; 17:694-701.

(27.) Akay MF. Support vector machines combined with feature selection for breast cancer diagnosis. Expert Systems with Applications 2009; 36:3240-3247.

(28.) Chen YW, Lin CJ. Combining SVMs with various feature selection strategies. Studies in Fuzziness and Soft Computing [serie da Internet] 2006 [acessado 27 Jan 2012]; 207: [cerca de 9 p.]. Disponivel em: http:/ /www.csie.ntu.edu.tw/~cjlin/papers/"features.pdf

(29.) Marcano-Cedeno A, Quintanilla-Dominguez J, Andina A. WBCD breast cancer database classification applying artificial metaplasticity neural network. Expert Systems with Applications 2011; 38:9573-9579.

(30.) Montgomery D, Peck E, Vining G. Introduction to Linear Regression Analysis. 3rd Edition. New York: Willey; 2001

(31.) Duda R, Hart P, Stork D. Pattern Recognition. 2nd Edition. New York: Willey; 2001.

(32.) Anzanello MJ, Fogliatto FS, Rossini K. Data mining-based method for identifying discriminant attributes in sensory profiling. Food Quality and Preference 2011; 22(1):139-148.

(33.) UC Irvine Machine Learning Repository. Center for Machine Learning and Intelligent Systems. [banco de dados na Internet]. [acessado 2014 mar 10]. Disponivel em: http://www.ics.uci.edu/~mlearn/ MLRepository

Artigo apresentado em 21/03/2013

Aprovado em 29/04/2013

Versao final apresentada em 15/05/2013

Nicole Holsbach [1]

Flavio Sanson Fogliatto [1]

Michel Jose Anzanello [1]

[1] Escola de Engenharia, Universidade Federal do Rio Grande do Sul. Av. Osvaldo Aranha 99/5[degrees], Centro. 90.035-190 Porto Alegre RS Brasil. nicole.holsbach@bol.com.br
Quadro 1. Informacoes de acuracia de classificacao obtida no WBCD
em diferentes metodos disponiveis na literatura.

Fonte                        Metodo    Acuracia (%)   Desvio-padrao

Fogel et al. (10)            RN           98,05           0,465
Quinlan (15)                 ADD/PL       94,74           0,285
Setiono (17)                 RN           93,87           1,160
Setiono (18)                 RN           96,71           0,570
Pena-Reyes e Sipper (19)     TF           97,80              NI
Nauck e Kruse (20)           RN e TF      95,06           2,535
Lee et al. (21)              TF           95,14              NI
Albrecht et al. (23)         ADD/PL       98,80              NI
Abbass (24)                  RN           98,10           0,005
Verikas e Bacauskiene (25)   RN           96,44           0,310
Abonyi e Szeifert (11)       TF           95,57           2,143
Polat e Gunes (26)           E/MSV        98,53              NI
Akay (27)                    E/MSV        99,51              NI
Marcano-Cedeno et al. (29)   RN           99,26              NI

NI = Nao informado

Quadro 2. Codigo e descricao das variaveis no
banco de dados WBCD.

Codigo      Descricao

[F.sub.1]   Aglomeracao de celulas
[F.sub.2]   Uniformidade do tamanho celular
[F.sub.3]   Forma celular uniforme
[F.sub.4]   Adesao marginal
[F.sub.5]   Tamanho da celula epitelial sozinha
              (ou de uma celula)
[F.sub.6]   Nucleo desencapado
[F.sub.7]   Cromatina frouxa (ou nao condensada)
[F.sub.8]   Nucleolo normal
[F.sub.9]   Mitose

Quadro 3. Medidas de desempenho e desvio-padrao das medidas de
desempenho de classificacao e variaveis retidas medias para porcao de
teste utilizando os metodos KVP e AD.

Medidas                   Numero de observacoes na porcao de treino/
                          numero de observacoes porcao de teste
                          (%porcao de treino/%porcao de teste)

                          342/341           478/205
                                            (70%/30%)

                           KVP       AD      KVP       AD

Media da Acuracia         0,9702   0,9642   0,9702   0,9642
Desvio-padrao             0,0069   0,0096   0,0069   0,0096
Media do No. variaveis     7,15     7,18     7,15     7,18
  retidas
Desvio-padrao              1,41     1,73     1,41     1,73
Media da Sensibilidade    0,9593   0,9317   0,9593   0,9317
Desvio-padrao             0,0182   0,0233   0,0182   0,0233
Media da Especificidade   0,9766   0,9821   0,9766   0,9821
Desvio-padrao             0,0094   0,0062   0,0094   0,0062

Medidas                   Numero de observacoes na porcao de treino/
                          numero de observacoes porcao de teste
                          (%porcao de treino/%porcao de teste)

                          546/137              615/68
                          (80%/20%)

                             KVP        AD      KVP        AD

Media da Acuracia          0,9702     0,9642   0,9702    0,9642
Desvio-padrao              0,0069     0,0096   0,0069    0,0096
Media do No. variaveis      7,15       7,18     7,15      7,18
  retidas
Desvio-padrao               1,41       1,73     1,41      1,73
Media da Sensibilidade     0,9593     0,9317   0,9593    0,9317
Desvio-padrao              0,0182     0,0233   0,0182    0,0233
Media da Especificidade    0,9766     0,9821   0,9766    0,9821
Desvio-padrao              0,0094     0,0062   0,0094    0,0062

Quadro 4. Inclusao das variaveis nos subgrupos retidos para
as proporcoes testadas.

Numero de observacoes (treino/teste)

342/341                  478/205                  546/137

variavel   inclusao no   variavel   inclusao no   variavel
            subgrupo                 subgrupo
           retido (%)               retido (%)

9              100          9           100          9
6              100          6           100          7
7             97,0          7           100          6
1             86,0          3          88,5          5
3             84,5          5          88,5          3
5             82,0          1          84,0          1
2             64,0          2          59,5          2
4             52,5          4          41,0          4
8             49,0          8          35,0          8

342/341    546/137       615/68

Numero de observacoes (treino/teste)

variavel   inclusao no   variavel   inclusao no
            subgrupo                 subgrupo
           retido (%)               retido (%)

9              100          9           100
6              100          7           100
7             99,5          6          99,0
1             89,0          5          83,3
3             81,0          3          69,7
5             76,5          1          59,7
2             56,0          2          40,3
4             34,0          4          23,0
8             25,5          8          14,0

porcao de 615 observacoes na porcao de treino e 68 na de teste,
corrobora o desempenho satisfatorio do metodo.

Quadro 5. Matriz de confusao para as proporcoes testadas.

Predito          Real         Numero de observacoes
                                do banco de dados
                                 (treino/teste)

          Benigno   Maligno

Benigno    212,1      4,7            342/341
Maligno     9,2      115,1

Benigno    130,4      2,4            478/205
Maligno     3,4      68,7

Benigno    86,9       1,3            546/137
Maligno     2,2      46,6

Benigno    43,6      0,51            615/68
Maligno    0,95      23,9
COPYRIGHT 2014 Associacao Brasileira de Pos-Graduacao em Saude Coletiva - ABRASCO
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2014 Gale, Cengage Learning. All rights reserved.

 
Article Details
Printer friendly Cite/link Email Feedback
Title Annotation:articulo en portugues
Author:Holsbach, Nicole; Fogliatto, Flavio Sanson; Anzanello, Michel Jose
Publication:Ciencia & Saude Coletiva
Date:Apr 1, 2014
Words:6047
Previous Article:From normative aspects to the reality of the Unified Health System: revealing barriers that curtail access to the health care network/Do normativo a...
Next Article:Yoga and the promotion of health/Yoga e promocao da saude.
Topics:

Terms of use | Privacy policy | Copyright © 2018 Farlex, Inc. | Feedback | For webmasters