Printer Friendly

APLICACAO DE TECNICAS DE MINERACAO DE DADOS NA BASE DE DADOS DO ENADE COM ENFOQUE NOS CURSOS DE MEDICINA.

1 Introducao

E essencial que existam indicadores para o controle qualidade das instituicoes de ensino. As avaliacoes, desenvolvidas por entidades publicas, quando aplicadas em grande escala, podem contribuir na analise de qualidade das instituicoes. Tais avaliacoes tem como um de seus objetivos produzirem informacoes sobre a eficiencia e qualidade das instituicoes analisadas. Informacoes estas que podem ser utilizadas na gestao, a fim de melhorar a qualidade do ensino (PRIMI, 2011).

No Brasil, o Sistema Nacional de Avaliacao do Ensino Superior (SINAES), instituido pela Lei no 10.861, e responsavel por avaliar as Instituicoes de Ensino Superior (IES). O sistema tem seus processos avaliativos coordenados e supervisionados pela Comissao Nacional de Avaliacao Superior (CONAES) e a operacionalizacao e de responsabilidade do Instituto Nacional de Estudos e Pesquisas Educacionais Anisio Teixeira (INEP) (Brasil, 2004).

O SINAES e constituido por tres partes principais: avaliacao das instituicoes, avaliacao dos cursos e a avaliacao de desempenho dos estudantes, que e feita atraves do Exame Nacional de Avaliacao do Estudante (ENADE).

Este exame busca avaliar o desempenho dos estudantes, baseado nos conteudos programaticos previstos nas diretrizes curriculares de seus respectivos cursos de graduacao, bem como suas competencias e habilidades oriundas de sua formacao.

O ENADE e subdividido em tres anos, onde cada ano e composto por um conjunto de areas de ensino. O ano I abrange as areas da saude, ciencias agrarias e afins. O ano II e formado pelas areas de ciencias exatas, licenciaturas e afins. O ano III e composto pelas areas ciencias sociais aplicadas, ciencias humanas e areas afins. Apos todos os anos serem avaliados, o exame volta novamente a avaliar as areas relacionadas ao ano I, seguindo posteriormente para os demais anos, formando assim um ciclo, onde cada conjunto de areas e avaliado em um intervalo de tres anos (MEC, 2010).

Na area da saude, mais especificamente no curso de medicina, e essencial que este tipo de avaliacao seja aplicado, para que possa existir um controle de qualidade das instituicoes que os possuem, uma vez que este e considerado um curso caro e concorrido.

Neves (2012) diz que, as IES privadas dependem principalmente da cobranca de mensalidades para se sustentar, onde o valor destas mensalidades pode variar drasticamente de acordo com o curso, tipo de instituicao (faculdades, universidades e centros universitarios) e regiao. Segundo MEC (2013), o curso de medicina e considerado um dos mais caros do pais e tambem o mais concorrido tanto nas instituicoes publicas como nas particulares, tendo em media, nas IES publicas duas vagas para cada cem candidatos e, nas IES privadas quatro vagas para cada cem candidatos.

Porem, levando em consideracao o nivel de concorrencia do curso de medicina, os gastos, por parte dos estudantes, comecam bem antes da entrada destes no curso. Com o objetivo de se tornarem mais competitivos, os alunos buscam recursos adicionais, como cursos de pre- vestibular, que, da mesma forma que as mensalidades dos cursos superiores, possuem valores bem variados, de acordo com a regiao, categoria da instituicao (Federal, Estadual, Municipal ou privada) e curso pretendido. Tal gasto acaba sendo muito necessario uma vez que, em cursos mais concorridos, mais de 80% dos estudantes que sao aprovados, fizeram cursos de pre-vestibular. Vale ressaltar tambem que, com o baixo numero de vagas, muitos destes alunos acabam nao sendo aprovados no primeiro ano, o que normalmente leva estes a fazer o preparatorio novamente (BORGES, 2005 e ZAGO, 2006).

A motivacao desse trabalho considerou o alto valor de investimento dos estudantes para entrar e se manter no curso de medicina, buscando se tornar profissionais devidamente capacitados e com nivel de conhecimento paralelo ao valor aplicado. Para isto, e importante que esta pesquisa aborde nao so o desempenho do aluno, mas tambem seu perfil e opiniao sobre o nivel de dificuldade do componente especifico, uma vez que, quando sua opiniao nao condiz com seu rendimento, sugere uma possivel falta de conhecimento ou confianca por parte do estudante, ambos fatores imprescindiveis para um medico.

Para descobrir o conhecimento necessario para realizar este trabalho, foram utilizadas tecnicas de Mineracao de Dados, onde esta e uma das etapas mais importantes no processo de busca de conhecimento em bases de dados. Segundo Cardoso (2008), a Mineracao De Dados ou Data Mining, engloba um conjunto de tecnicas de bancos de dados, inteligencia artificial e estatistica utilizada para explorar grandes volumes de dados, com o intuito de descobrir novos padroes que sejam proveitosos para alguem.

O objetivo deste trabalho e aplicar tecnicas de Mineracao de Dados na base de dados do Instituto Nacional de Estudos e Pesquisas Educacionais Anisio Teixeira (INEP), mais especificamente na base do ENADE 2013, utilizando com os dados relativos aos estudantes de medicina, de modo que seja possivel ser tracado o perfil destes. Os resultados apresentados neste trabalho, gerados atraves da mineracao, podem ser utilizados na tomada de decisao por parte das instituicoes, com o objetivo de aprimorar seus cursos e projetos de ensino, alem de auxiliar tambem os futuros estudantes de medicina na hora de escolher sua instituicao.

2 Materiais e Metodos

O software utilizado para a realizacao das tarefas de mineracao de dados deste trabalho foi o WEKA 3.7 (Waikato Environment for Knowledge Analysis), que foi desenvolvido na Nova Zelandia, na Universidade de Waikato.

Para Silva (2004), o WEKA e um software intuitivo e com uma interface grafica amigavel que, alem de ser gratuito e desenvolvido em Java, o que permite que ele seja utilizado em varias plataformas, tambem conta com uma grande quantidade de algoritmos, fatores que influenciam no seu alto indice de utilizacao.

Para que uma base possa ser minerada e ter conhecimentos devidamente extraidos, e necessario que seja feito um tratamento desta base. A base utilizada pode ser encontrada no portal do INEP, onde foi selecionada a base de dados do ENADE 2013, que busca avaliar o desempenho dos estudantes em relacao com os conteudos programaticos previstos nas diretrizes curriculares de seus respectivos cursos de graduacao. Nesta base tambem podem ser encontrados os dados do questionario de percepcao da prova e do questionario do estudante.

Com o intuito de extrair conhecimento desta base, foi utilizado o processo de Knowledge Discovery in Databases (KDD), que e constituido por um conjunto de etapas capazes de tratar e gerar informacoes confiaveis oriundas de uma ou mais bases.

2.1 Etapas do Processo de KDD

Para que a base tivesse seus dados tratados e transformados para serem minerados, foi empregado o processo KDD, que, segundo Fayyad (1996), tem como objetivo encontrar padroes relevantes e desconhecidos a partir de uma base de dados. Este processo possui um conjunto de quatro etapas: selecao, pre-processamento, transformacao e mineracao de dados, conforme ilustra a Figura 1.

Com base na figura apresentada, e possivel observar o fluxo das etapas do processo KDD que foram aplicadas no desenvolvimento deste trabalho. Tais etapas sao explicadas em detalhe nos itens abaixo.

2.1.1 Selecao

Com a finalidade de tracar um perfil do nivel dos estudantes de medicina do pais, foi utilizada uma base de dados do INEP, mais especificamente do ENADE 2013, que conta com dados sobre o perfil dos alunos que prestaram o exame e suas respostas, tanto no questionario de percepcao da prova, quanto no questionario do estudante. A Figura 2 demonstra estes dados.

Nesta base, foi possivel obter dados relacionados aos estudantes que prestaram o exame em 2013, ano responsavel por avaliar os cursos das areas de saude, ciencias agrarias e afins, como: medicina, enfermagem, agronomia, farmacia, dentre outros. A base escolhida possui no total de 131 variaveis distintas, tendo dentre elas, idade, sexo, nota no componente especifico, categoria da instituicao de ensino superior (federal, estadual, municipal, privada sem fins lucrativos e privada com fins lucrativos), etc. A partir destas variaveis, a base contem um total de 196.856 registros. Porem, foram utilizados neste estudo somente 14.142 destes registros, pertencentes ao curso de medicina.

A retirada dos demais cursos foi devido ao objetivo deste trabalho, que e analisar o perfil dos estudantes de medicina que prestaram o exame. Tal separacao auxiliou na busca por melhores resultado, alem de aprimorar o foco das informacoes encontradas, uma vez que eliminou dados desnecessarios para a pesquisa.

Apos selecao da base, os atributos pertencentes a esta precisavam ser filtrados e trabalhados, para que a extracao do conhecimento seja feita da melhor forma possivel. Tais processos estao descritos no pre-processamento.

2.1.2 Pre-processamento

Segundo Neves (2003), a etapa de pre-processamento e responsavel pela analise dos dados, para que estes se tornem consistentes e confiaveis, o que inclui a estrutura das tabelas, valores dos atributos, tipos e formatos dos dados. Outras operacoes tambem pertencentes a esta fase sao a escolha dos dados pertinentes aos objetivos do usuario, juntamente com o trabalho derivado desta escolha. Alem da limpeza e transformacao destes dados, para que se torne viavel a Mineracao de Dados.

Uma vez que os dados presentes na base podem estar em formatos diferentes, a aplicacao da segunda etapa do processo de KDD, o pre-processamento e de suma importancia, visto que esta e responsavel por limpar e formatar os dados da base selecionada, deixando-os de forma padronizada, o que permite que sejam aplicadas, as tecnicas de mineracao, realizadas por ferramentas especializadas.

Com a base de dados ja selecionada, os dados relativos aos estudantes de medicina foram separados dos demais. Tais dados foram removidos a partir do atributo "co_grupo", variavel na qual se encontra o codigo relativo a cada curso, deixando apenas o referente a medicina. Tal trabalho tornou possivel a eliminacao desta coluna, uma vez que ela so continha um valor.

Apos a separacao dos demais cursos, ainda era necessaria a diminuicao dos dados, uma vez que ainda sobravam 130 atributos distintos e, com isso, 2.005.842 milhoes de dados, onde, muitos deles nao demonstravam relevancia para o estudo em questao.

Visando aprimorar o desempenho do algoritmo de analise, outras colunas foram removidas. Estas colunas foram descartadas principalmente por nao possuirem importancia para o estudo, ou seja, nao acrescentavam nenhuma informacao que impactasse nos resultados, ou ate mesmo, poderiam influenciar negativamente.

Para finalizar esta etapa, foi realizada uma analise dos valores encontrados em cada um dos atributos selecionados, que somavam 16.264 registros ate entao. Apos a realizacao de tal analise, foram detectados valores vazios e ate incorretos, o que tonava inviavel a utilizacao do registro em questao. Com todos os valores inutilizaveis removidos, vazios e incorretos, a base passou a ter um total de 14141 registros.

As alteracoes realizadas na base de dados primarias tiveram como objetivo, alem de tornar a base devidamente estruturada para a aplicacao de tecnicas de mineracao de dados, buscar atributos relevantes para a analise do perfil dos estudantes de medicina que prestaram o exame. A tabela resultante apos a etapa de pre-processamento pode ser observada na Figura 3.

Ao final da etapa de pre-processamento, a base estava completamente reestruturada, contendo somente os atributos considerados relevantes para o estudo. Os atributos resultantes foram: cd_catad, cd_orgac, co_uf_curso, nu_idade, tp_sexo, nt_ce e co_rs_i2. Vale ressaltar que os nomes dos atributos sao os mesmos encontrados na base original do INEP. O Quadro 1 apresenta os atributos selecionados com suas respectivas descricoes.

Os atributos descritos no Quadro 1 representam as colunas de maior relevancia, encontradas na base de dados do ENADE 2013, para o estudo em questao. Os atributos cd_catad, cd_orgac, co_uf_curso e co_rs_i2 estao com seus valores codificados e a relacao entre estes atributos e a descricao de seus valores esta representada no Quadro 2.

A descricao tanto dos atributos, quanto de seus valores, pertinentes a base primaria, podem ser encontrados junto com a base, dentro do portal do INEP. Este dicionario de variaveis e obtido junto com a base.

2.1.3 Transformacao

A etapa de transformacao antecede a fase de mineracao, nela os dados devem ser devidamente formatados, com a finalidade de melhorar e aprimorar os resultados da mineracao.

Como visto na etapa de pre-processamento, muitos atributos possuiam valores codificados. Tal codificacao, quando nao necessaria, pode prejudicar a analise das informacoes geradas atraves da mineracao. Estas variaveis entao passaram por uma transformacao, tendo seus valores em codigo substituidos pelos valores reais, demostrados no Quadro2. Os atributos que passaram por esta transformacao sao: cd_catad, cd_orgac e co_uf_curso.

Na base, alguns atributos apresentavam uma grande quantidade de valores, o que afeta diretamente, de forma negativa, os resultados das mineracoes, por isso estes atributos tiveram seus valores transformados. Estes atributos passaram possuir intervalos de valores, no lugar de um valor especifico, conforme representado no Quadro 3 e Quadro 4.

Os intervalos, demonstrados no Quadro 3, foram estruturados de forma que o atributo nu_idade, da qual pertencem, tivessem seus valores distribuidos relativamente iguais. O atributo nt_ce, que representa a nota do coeficiente especifico do exame, tambem teve seus valores transformados, conforme apresentado no Quadro 4. O desenvolvimento dos intervalos desta variavel se deu com o intuito de analisar o desempenho do estudante, onde quando, com nota menor que sessenta este e considerado com um desempenho ruim, com nota maior ou igual a sessenta e menor que oitenta, e um desempenho regular e com nota maior ou igual a oitenta, o desempenho e bom.

2.1.4 Mineracao de Dados

A etapa de mineracao de dados tem como finalidade a aplicacao de tecnicas e algoritmos de mineracao, em grandes bancos de dados, onde estes serao intensamente analisados e explorados, buscando encontrar padroes e assim extraindo informacoes uteis.

Segundo Steiner e Bothorel (apud CRETTON, 2015), para a extracao de conhecimento em grandes bases de dados, a utilizacao de tecnicas inteligentes, que auxiliem na analise e interpretacao, sao imprescindiveis, pois, quanto maior o volume de dados, mais dificil e complexa se torna a interpretacao humana. A mineracao de dados busca justamente isso, extrair conhecimentos e padroes oriundos de grandes bases de dados. Entretanto, nao se pode dizer que todo grande volume de dados gera conhecimento, ja que, muitas vezes, isto nao acontece.

Para Cardoso (2008), a mineracao de dados, engloba um conjunto de tecnicas de bancos de dados, inteligencia artificial e estatistica utilizada para explorar grandes volumes de dados, com o intuito de descobrir novos padroes que sejam proveitosos para alguem.

Nesta etapa, a extracao de conhecimento pode ser realizada de varias maneiras, como: regressao, clusterizacao, classificacao e regras de associacao.

2.1.4.1 Tarefa de Classificacao

Na etapa de mineracao de dados, a base de dados, trabalhada ao longo dos processos anteriores do KDD, foi analisada e trabalhada atraves de tecnica de classificacao e utilizou a tecnica de arvore de decisoes. Para Goldshmidt (2005), a tarefa mais importante e mais utilizada, e a de classificacao.

Segundo Tan, Steinbach e Kumar (2009), dentre as tecnicas de classificacao, tecnica de arvore de decisao e a mais intuitiva, uma vez que sua representacao do modelo em formato de arvore facilita o entendimento dos padroes encontrados. Esta tecnica e muito utilizada para analisar problemas de classificacao que envolve um certo grupo, pois podem gerar, os modelos em arvore, onde ambos podem ser utilizados para descoberta de conhecimento uteis derivados de uma base de dados. A utilizacao desta tecnica de classificacao apresentou-se mais propicia a obter melhores resultados e para que a meta desta pesquisa fosse alcancada.

A classificacao pode ser utilizada com varios objetivos, como, analise de clientes, tendencias do mercado financeiro, analise dos produtos mais vendidos, deteccao de fraudes, dentre outros (SANTOS, AZEVEDO, 2005).

Neste trabalho, a tecnica de classificacao utilizada, arvore de decisao, foi aplicada atraves do algoritmo J48. O algoritmo em questao e apresentado no item a seguir.

2.1.4.2 Algoritmo de Arvore de Decisao J48

Neste algoritmo, a arvore de decisao e modelada baseada no atributo de maior significancia, que aparece como a raiz da arvore. A partir desta raiz, sao geradas ramificacoes, que representam a relevancia desta ligacao. Estas ramificacoes podem tambem gerar outras ramificacoes que funcionariam da mesma forma. Tal estrutura teria entao a capacidade de representar, de forma intuitiva, padroes simples e complexos, de onde as informacoes poderiam ser extraidas.

Goldshmidt (2005), diz que as arvores de decisao tambem sao conhecidas pelos nomes de arvores de regressao ou ate arvores de classificacao e que elas sao representacoes graficas de um conjunto de regras, constituidas por raizes, galhos e nos, semelhante a uma arvore, onde a analise destas representacoes devem ser realizadas do topo para as folhas. Essas arvores de decisao tem como os nos nao folha como os valores dos atributos da base e os nos folha como as instancias destes, ou seja, cada uma das decisoes tomadas para a realizacao desta classificacao sao pertinentes a um unico no.

O algoritmo J48 gera modelos de arvores de decisao partindo do topo para base, de forma que, em cada um dos nos, outros atributos sejam avaliados, individualmente, para determinar sua significancia na ligacao ou ate existencia nela.

3 Resultados e Discussoes

As arvores apresentadas sao derivadas da base de dados do INEP, puramente do ENADE 2013, que possui uma grande quantidade de dados pertinentes aos estudantes que prestaram a prova. Esta base foi trabalhada atraves dos processos do KDD, onde os dados foram selecionados, preprocessados, transformados e por fim minerados.

A partir da base tratada, foi feita uma mineracao de classificacao por meio do algoritmo J48, que apresentou como resultados as regras e a arvore de decisao. Estes resultados tiveram um nivel de confianca de 84%, o que demonstra o potencial dos padroes e informacoes gerados.

As informacoes geradas atraves da tecnica de classificacao foram ainda analisadas e refinadas, buscando obter resultados diretos e intuitivos. Visando ainda esta meta, a arvore foi separada em tres partes, IES sem fins lucrativos, IES com fins lucrativos e IES municipais. E possivel observar que dois outros tipos de IES nao foram apresentados, IES estaduais e IES federais. Isto ocorreu, pois ambas nao geraram informacoes interessantes para o estudo em questao.

Em destaque, e possivel observar nestas arvores a influencia do atributo cd_catad, que representa o tipo das IES, nos resultados gerados, uma vez que este foi utilizado como primeira instancia, tornando ele o atributo do qual os ramos seriam formados. Como segunda instancia, foi empregado, principalmente, o atributo nt_ce, que possui os intervalos de notas dos estudantes relativas ao componente especifico do exame, mostrando a relevancia deste na mineracao.

A Figura 4 apresenta os principais resultados da arvore relativa as Instituicoes de Ensino Superior privadas sem fins lucrativos.

Observando a Figura 4, e possivel analisar os principais padroes referentes as IES privadas sem fins lucrativos, como tambem, obter conhecimentos importantes relativos a estes padroes.

Nesta categoria, foi descoberto que, no estado de Sao Paulo, os estudantes pertencentes a universidades tiveram, em sua maioria, nota menor que sessenta no componente especifico do exame, independentemente de qualquer outro atributo. Neste mesmo estado, foi observado que estudantes de universidades com idade menor ou igual a vinte e tres anos e com idade maior ou igual a trinta anos, assim como os alunos de faculdade com idade entre vinte e quatro anos e vinte e nove anos, obtiveram nota maior ou igual a sessenta e menor que oitenta.

Os estudantes nota maior ou igual a oitenta, quando de universidades, responderam, no questionario de percepcao da prova, como facil o conteudo do componente especifico, ja os alunos de faculdade, como de media dificuldade.

Nas instituicoes privadas sem fins lucrativos do estado do Rio de Janeiro, assim como em Sao Paulo, a maior parte dos estudantes oriundos de universidades teve um rendimento menor que sessenta, independente dos outros atributos. Os estudantes com nota, no componente especifico da prova, maior ou igual a sessenta e menor que oitenta, quando vindos de uma faculdade, optaram por responder, no questionario de percepcao da prova, como muito dificil, o grau de dificuldade deste componente. Os alunos com deste mesmo estado e com a mesma nota, quando oriundos de um centro universitario, marcaram como dificil sobre o grau de dificuldade do componente especifico. Foi observado ainda que estudantes com este mesmo rendimento, quando responderam como mediano, sobre o nivel de dificuldade da parte especifica do exame, e com idade maior que vinte e tres anos e menor que trinta anos, foram divididos em dois grupos, sendo os da universidade de sexo masculino e os da faculdade de sexo feminino.

Na Figura 5, sao demonstrados os resultados mais significativos pertinentes as IES privadas com fins lucrativos.

A Figura 5 apresenta a arvore de decisao gerada a partir das principais regras derivadas das IES privadas com fins lucrativos. Tal arvore possibilita uma visualizacao mais intuitiva dos padroes encontrados, facilitando assim, a obtencao de conhecimento.

Nas IES privadas com fins lucrativos, dois estados se destacaram nos resultados encontrados, o estado do Piaui e o estado do Ceara. No Piaui, os estudantes, quando oriundos de centros universitarios e com idade maior que vinte e tres anos e menor que trinta anos, obtiveram nota menor do que sessenta no componente especifico da prova e marcaram como medio o grau de dificuldade da parte especifica. Quando vindos de uma faculdade, os alunos com esta mesma idade tiveram um rendimento maior ou igual a sessenta e menor que oitenta no componente especifico do exame e tambem optaram por marcar como medio o nivel de dificuldade deste componente.

No Ceara, os estudantes tiveram, em sua maioria, um rendimento menor que sessenta no componente especifico, independente do tipo de instituicao. Este resultado, ainda se desmembra de acordo com a resposta dos estudantes no questionario de percepcao do exame, onde alunos de faculdade com esta nota, responderam como facil o grau de dificuldade do componente especifico. Enquanto que os estudantes que marcaram como medio o nivel de dificuldade desta parte da prova, estes sao oriundos de um centro universitario sejam do sexo feminino ou tambem do masculino, com idade maior ou igual a trinta.

Por fim, a Figura 6 representa as regras de maior relevancia, para as IES municipais, por meio de uma arvore de decisao.

Na Figura 6, os estudantes das IES municipais pertencentes ao estado de Sao Paulo, obtiveram notas menores que sessenta no componente especifico do exame, sendo os mesmos oriundos de faculdades e responderam como facil este componente. Os das universidades obtiveram a mesma nota e marcaram como medio o grau de dificuldade da parte especifica.

Como resultado final, podem ser observados os perfis dos estudantes que prestaram o exame, com relacao a sua nota no componente especifico e a sua resposta no questionario de percepcao da prova, mais especificamente sobre o grau de dificuldade deste componente. O perfil contou com o tipo de instituicao que o estudante frequenta, o estilo desta organizacao (universidade, faculdade ou centro universitario), o estado desta instituicao, o sexo e idade do aluno, sua nota no componente especifico e sua resposta sobre o nivel de dificuldade desta parte do exame.

Com base nos perfis gerados, e possivel observar que a maior parte possui notas inferiores a sessenta e que, quando envolvendo a resposta sobre o grau de dificuldade do componente especifico, alguns padroes mostraram que parte destes estudantes nao demonstra coerencia, o que sugere um dominio ainda menor sobre o conteudo.

Com a aplicacao das metodologias previamente citadas, foram encontrados padroes uteis, que podem ser utilizados pelas instituicoes nas suas tomadas de decisoes. Apesar de todos os estados e tipos de instituicao terem sido utilizados neste estudo, nao foi possivel encontrar padroes relevantes para todos estes elementos.

A mineracao de dados nao e comumente aplicada nas bases do ENADE, porem, pode-se citar o trabalho de Nogueira e Tsunoda (2015), que analisa a base de dados do ENADE 2012 juntamente com os dados socioeconomicos, buscando descobrir se estes afetam o desempenho dos estudantes.

4 Conclusao

Atraves da utilizacao dos processos do KDD, juntamente com as tecnicas de mineracao de dados empregadas, foi possivel gerar resultados relevantes que demonstram a importancia das analises de bases de dados. Os padroes e conhecimentos derivados desta analise podem auxiliar de forma positiva, tanto para os estudantes de medicina ou candidatos a vestibulares desta area, quanto para as proprias instituicoes, facilitando nas tomadas de decisoes e aprimoramento do curso.

Para este trabalho, foi utilizado o software WEKA para a realizacao de tecnicas de mineracao de dados, onde foram feitas classificacoes atraves do algoritmo J48, a fim de identificar o perfil dos estudantes de medicina que prestaram o ENADE em 2013. A base apresenta dados sobre todos os estados brasileiros com curso de medicina, porem, Sao Paulo, Rio de Janeiro, Piaui e Ceara, apresentaram resultados mais relevantes.

Foram levadas em consideracao a idade e o sexo dos estudantes, juntamente com suas respectivas notas no componente especifico do exame e suas respostas sobre o grau de dificuldade desta parte da prova, alem das informacoes sobre as instituicoes que estes frequentam, como a categoria da instituicao, seu tipo e estado em que se encontra. A partir destes dados e de outras pesquisas sobre mineracao de dados, criterios foram estabelecidos para que fosse realizada uma analise mais detalhada do nivel dos alunos destas instituicoes, com o objetivo extrair conhecimento e padroes dos mesmos.

Como resultados relevantes, pode-se ressaltar que os estudantes das instituicoes privadas sem fins lucrativos, tanto de Sao Paulo, quanto do Rio de Janeiro, quando pertencentes a organizacao academica universidade, obtiveram, na sua maioria, nota menor que sessenta, independente dos outros atributos. Ja os estudantes das instituicoes privadas com fins lucrativos do Ceara, quando oriundos de faculdades, alem de possuirem um rendimento abaixo da media, de menor que sessenta, tambem disseram que a prova foi facil. Por fim, os estudantes das instituicoes municipais do estado de Sao Paulo, quando pertencentes a faculdades, tiveram o rendimento menor que sessenta e responderam como "facil" o grau de dificuldade do componente especifico da prova.

Estes resultados demonstram que, alem de muitos estudantes nao obterem um resultado positivo, algumas vezes, esse grupo ainda aparenta sair do exame com opinioes contrarias as suas notas, afirmando considerar o componente especifico facil.

Espera-se que, a partir dos padroes e conhecimentos extraidos e apresentados, seja possivel auxiliar as instituicoes nas suas tomadas de decisoes, no que se refere as medidas a serem tomadas e melhoria dos projetos de ensino para aprimorar os cursos de medicina, objetivando a geracao de profissionais devidamente aptos e com um maior nivel de conhecimento, tornando- os assim, melhores medicos. Tambem e almejado que os futuros estudantes de medicina possam utilizar estas informacoes para escolher melhor as instituicoes na qual irao investir.

5 Referencias

BORGES, Jose Leopoldino das Gracas; CARNIELLI, Beatrice Laura. Educacao e estratificacao social no acesso a universidade publica. Cadernos de Pesquisa, Sao Paulo, v. 35, n. 124, p.113139, abr. 2005. FapUNIFESP (SciELO). http://dx.doi.org/10.1590/s0100- 15742005000100007. Disponivel em: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0100 15742005000100007&lng=en&nrm=iso>. Acesso em: 04 set. 2015.

CARDOSO, Olinda Nogueira Paes; MACHADO, Rosa Teresa Moreira. Gestao do conhecimento usando data mining estudo de caso na Universidade Federal de Lavras. Revista Brasileira de Administracao Publica, Rio de Janeiro, v. 42, n. 3, p.495-528, jun. 2008. Disponivel em: <http://repositorio.ufla.br/jspui/handle/1/184>. Acesso em: 02 set. 2015.

CRETTON, Nicollas Nogueira; FONTANA, Valderedo Sedano; GOMES, Georgia Regina Rodrigues. Mineracao de Dados Aplicado a Identificacao do Perfil de Alunos Inscritos em Cursos Tecnicos Oferecidos Pela SEDU ES com Relacao a Predicao dos Cursos. In: ENCONTRO INTERESTADUAL DE ENGENHARIA DE PRODUCAO, 1., 2015, Sao Joao da Barra. Anais.... Sao Joao da Barra: Einepro, 2015.

FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From Data Mining to Knowledge Discovery in Databases. Ai Magazine, Palo Alto, v. 17, n. 3, p.37-54, set. 1996. Disponivel em: <https://www.aaai.org/ojs/index.php/aimagazine/article/viewFile/1230/1131>. Acesso em: 15 set. 2015.

FERNANDES, Mauricio Natividade de Oliveira; GOMES, GeOrgia Regina Rodrigues; SHIMODA, Eduardo. Utilizacao de Mineracao de Dados para Descricao do Perfil de Pacientes Otimistas, Realistas e Pessimistas quanto a Propria Saude Bucal. In: SIMPOSIO DE ENGENHARIA DE PRODUCAO, 17, 2010, Bauru. Anais.... Bauru: Simpep, 2010.

GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data mining: um guia Pratico: Conceitos, tecnicas, ferramentas, orientacoes e aplicacoes. Rio de Janeiro: Elsevier, 2005. 256 p.

Luiza Yoko Taneguti. PROJETO CNE/UNESCO 914BRZ1136.3 "Desenvolvimento, aprimoramento e consolidacao de uma educacao nacional de qualidade". Brasilia: Conselho Nacional de Educacao, 2013. Disponivel em: <http://portal.mec.gov.br/index.php?option=com_docman&view=download&alias=13948- produto2-oferta-demanda-educ-superior-pdf-pdf&category_slug=setembro-2013- pdf&Itemid=30192>. Acesso em: 06 set. 2015

MARTINS, Antonio Cardoso; MARQUES, Joao Miguel; COSTA, Paulo Dias. Estudo Comparativo De Tres Algoritmos De Machine Learning Na Classificacao De Dados Electrocardiograficos. Trabalho (Mestrado em Informatica Medica)--Universidade do Porto, Porto, mar. 2009. Disponivel em: <http://www.dcc.fc.up.pt/~ines/aulas/0910/MIM/trabs_ano_anterior/noname-1.pdf>. Acesso em: 08 set. 2015.

MINISTERIO DA EDUCACAO. Portaria Normativa MEC no 40/2007: Institui o e-MEC, sistema eletronico de fluxo de trabalho e gerenciamento de informacoes relativas aos processos de regulacao, avaliacao e supervisao da educacao superior no sistema federal de educacao, e o Cadastro e-MEC de Instituicoes e Cursos Superiores e consolida disposicoes sobre indicadores de qualidade, banco de avaliadores (Basis) e o Exame Nacional de Desempenho de Estudantes (ENADE) e outras disposicoes. Brasilia: Diario Oficial da Uniao, 2010.

NEVES, Clarissa Eckert Baeta. Ensino Superior no Brasil: expansao, diversificacao e inclusao. In: LATIN AMERICAN STUDIES ASSOCIATION, 30., 2012, Sao Francisco. Anais.... Sao Francisco: Lasa, 2012. Disponivel em: <http://flacso.redelivre.org.br/files/2013/03/1114.pdf>. Acesso em: 11 set. 2015.

NEVES, Rita de Cassia David das. Pre-Processamento no Processo de Descoberta de Conhecimento em Banco de Dados. 2003. 137 f. Dissertacao (Mestrado)--Curso de Programa de Pos-graduacao em Computacao, Instituto de Informatica, Universidade Federal do Rio Grande do Sul, Porto Alegre, 2003. Disponivel em: <http://www.lume.ufrgs.br/bitstream/handle/10183/2701/000375412.pdf?sequence=1>. Acesso em: 12 set. 2015.

NOGUEIRA, Eduardo Dimas Andrino; TSUNODA, Denise Fukumi. Mineracao de dados para analise da relacao entre as caracteristicas socioeconomicas de concluintes do ensino superior e o desempenho desses estudantes no enade 2012. Percurso, Curitiba, v. 15, n. 1, p.245-268, 2015. Disponivel em: <http://revista.unicuritiba.edu.br/index.php/percurso/article/view/1102/761>. Acesso em: 15 set. 2015.

PRESIDENCIA DA REPUBLICA. Congresso. Senado. Lei no 10.861/2004, de 14 de abril de 2004. Institui o Sistema Nacional de Avaliacao da Educacao Superior--SINAES e da outras providencias. Lei no 10.861, de 14 de Abril de 2004.. Brasilia, DF, 15 abr. 2004. Disponivel em: <http://www.planalto.gov.br/ccivil_03/_ato2004-2006/2004/Lei/L10.861.htm>. Acesso em: 08 set. 2015.

PRIMI, Ricardo; HUTZ, Claudio S.; SILVA, Marjorie Cristina Rocha da. A prova do ENADE de psicologia 2006: concepcao, construcao e analise psicometrica da prova. Aval. Psicol., Itatiba, v. 10, n. 3, p.271-294, dez. 2011. Disponivel em: <http://pepsic.bvsalud.org/scielo.php?script=sci_arttext&pid=S167704712011000300 004&lng=pt&nrm=iso>. Acesso em: 10 set. 2015.

SANTOS, Manuel Filipe; AZEVEDO, Carla Sousa. Data mining: descoberta de conhecimento em bases de dados. Lisboa: Fca, 2005. 214 p.

SILVA, Marcelino Pereira dos Santos. Mineracao de Dados--Conceitos, Aplicacoes e Experimentos com Weka. 2004. Disponivel em: <http://www.lbd.dcc.ufmg.br/colecoes/erirjes/2004/004.pdf>. Acesso em: 09 set. 2015.

TAN, Pang-ning; STEINBACH, Michael; KUMAR, Vipin. Introducao ao Datamining Mineracao de Dados. Rio de Janeiro: Ciencia Moderna, 2009. 928 p.

ZAGO, Nadir. Do acesso a permanencia no ensino superior: percursos de estudantes universitarios de camadas populares. Revista Brasileira de Educacao, Rio de Janeiro, v. 11, n. 32, p.226-237, ago. 2006. FapUNIFESP (SciELO). http://dx.doi.org/10.1590/s1413- 24782006000200003. Disponivel em: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S1413 24782006000200003&lng=en&nrm=iso>. Acesso em: 06 set. 2015.

Nicollas Nogueira CRETTON (1) * & Georgia Regina Rodrigues GOMES (2)

(1) Universidade Candido Mendes. Mestrado em Pesquisa Operacional e Inteligencia Computacional, Campos do Goytacazes, Rio de Janeiro, Brasil.

(2) Universidade Federal Fluminense. Departamento de Ciencias Exatas, Biologicas e da Terra, Santo Antonio de Padua, RJ, Brasil.

* Autor para correspondencia: nicollas_nc@hotmail.com

http://dx.doi.org/10.18571/acbm. 100

Caption: Figura 1: Etapas do KDD (Knowledge Discovery in Databases).

Caption: Figura 4: Arvore de decisao referente as instituicoes privadas sem fins lucrativos.

Caption: Figura 5: Arvore de decisao referente as instituicoes privadas com fins lucrativos.

Caption: Figura 6: Arvore de decisao referente as instituicoes municipais.
Quadro 1: Relacao dos atributos com suas respectivas descricoes.

Atributo                            Descricao

cd_catad       Codigo da categoria administrativa da IES
cd_orgac       Codigo da organizacao academica da IES
co_uf_curso    Codigo da UF de funcionamento do curso
nu_idade       Idade do inscrito em 24/11/2013
tp_sexo        Sexo do inscrito
nt_ce          Nota bruta no componente especifico
co_rs_i2       Qual o grau de dificuldade desta prova na parte do
                 Componente Especifico?

Quadro 2: Relacao dos valores em codigo dos atributos com suas
respectivas descricoes.

Atributo       Codigo    Descricao dos codigos

cd catad       1         Publica Federal
               2         Publica Estadual
               3         Publica Municipal
               4         Privada com fins lucrativos
               5         Privada sem fins lucrativos

cd_orgac       1         Universidade
               2         Centro Universitario
               3         Faculdade
               4         Ifet/Cefet

co_uf_curso    11        RO    21    MA    28    SE    42    SC
               12        AC    22    PI    29    BA    43    RS
               13        AM    23    CE    31    MG    50    MS
               14        RR    24    RN    32    ES    51    MT
               15        PA    25    PB    33    RJ    52    GO
               16        AP    26    PE    35    SP    53    DF
               17        TO    27    AL    41    PR

co_rs_i2       A         Muito facil
               B         Facil
               C         Medio
               D         Dificil
               E         Muito dificil

Quadro 3: Valores do atributo nu_idade transformados e relacionados
com suas respectivas descricoes.

Intervalos referentes ao                    Descricao
atributo nu_idade

<= 23                      Para todas as idades menos ou iguais a
                             vinte e tres anos
> 23 e < 30                Para todas as idades maiores que vinte e
                             tres e menores que trinta anos
>= 30                      Para todas as idades maiores ou iguais a
                             trinta anos.

Quadro 4: Valores do atributo nt_ce transformados e relacionados com
suas respectivas descricoes.

Intervalos referentes ao   Descricao
atributo nt_ce

< 60                       Para todas as notas, do componente
                             especifico do exame, menores que sessenta
>= 60 e < 80               Para todas as notas, do componente
                             especifico do exame, maiores ou iguais a
                             sessenta e menores que oitenta
>= 80                      Para todas as notas, do componente
                             especifico do exame, maiores ou iguais a
                             oitenta.

Figura 2: Estado inicial da base de dados referente ao ENADE 2013.

nu_ano  co_grupo   co_ies   cd_catad   cd_orgac   co_munic   co_uf_cur

2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51
2013           5         1          1         1    5103403          51

nu_ano  co_regiao   nu_idade   tp_sexo  ano_fim_   ano_in_gr

2013            5         22   M            2008        2009
2013            5         21   M            2008        2009
2013            5         28   F            2002        2009
2013            5         25   M            2005        2006
2013            5         26   F            2004        2006
2013            5         22   F            2008        2009
2013            5         23   M            2007        2009
2013            5         23   F            2007        2009
2013            5         20   F            2009        2010
2013            5         23   F            2006        2010
2013            5         21   M            2009        2010
2013            5         22   F            2007        2009
2013            5         24   M            2006        2008
2013            5         23   F            2007        2009
2013            5         23   F            2007        2008
2013            5         24   F            2006        2007
2013            5         23   M            2006        2009
2013            5         22   F            2008        2009
2013            5         22   F            2008        2010
2013            5         34   F            1998        2005
2013            5         30   F            2001        2010
2013            5         26   M            2006        2010
2013            5         23   F            2007        2009
2013            5         25   M            2005        2006

nu_ano  tp_semes   in_matut   in_vesper   in_noturn   status   amostra

2013           2           1           1           1        1         1
2013           2           1           1           1        1         1
2013           2           1           1           1        1         1
2013           2           1           1           1        1         1
2013           2           1           1           1        1         1
2013           2           1           1           1        1         1
2013           2           1           1           1        1         1
2013           2           1           1           1        1         1
2013           2           1           1           1        1         1
2013           2           1           1           1        1         1
2013           2           1           1           1        1         1
2013           2           1           1           1        1         1
2013           2           1           1           1        1         1
2013           2           1           1           1        1         1
2013           2           1           1           1        1         1
2013           2           1           1           1        1         1
2013           2           1           1           1        1         1
2013           2           1           1           1        1         1
2013           2           1           1           1        1         1
2013           2           1           1           1        1         1
2013           2           1           1           1        1         1
2013           2           1           1           1        1         1
2013           2           1           1           1        1         1
2013           7           1           1           1        1         1

nu_ano  inscri_tp_def_fisti_c

2013                        0
2013                        0
2013                        0
2013                        0
2013                        0
2013                        0
2013                        0
2013                        0
2013                        0
2013                        0
2013                        0
2013                        0
2013                        0
2013                        0
2013                        0
2013                        0
2013                        0
2013                        0
2013                        0
2013                        0
2013                        0
2013                        0
2013                        0
2013                        0

Fonte: Portal do INEP.

Figura 3: Base de dados pre-processada.

cd_catad  cd_orgac   co_uf_curso   nu_idade   tp_sexo  nt_ce  co_rs_12

1                 1           51         25   M        31.1   E
1                 1           51         25   F        62.7   C
1                 1           51         24   F        54.5   C
1                 1           51         25   F        55     c
1                 1           51         25   M        19.3   D
1                 1           51         25   F        61.3   C
1                 1           51         25   M        35.5   c
1                 1           51         24   F        54.1   c
1                 1           51         24   F        64. S  c
1                 1           51         27   M        44.2   c
1                 1           51         26   F        46. S  c
1                 1           51         23   F        55.9   c
1                 1           51         25   M        49.6   c
1                 1           51         26   M        33.9   c
1                 1           51         23   M        20.4   A
1                 1           51         25   M        71.4   C
1                 1           51         24   M        56.S   C
1                 1           51         24   M        50.6   c
1                 1           51         27   F        34. a  D
1                 1           51         27   M        37.1   D
1                 1           51         24   F        47.3   C
1                 1           51         27   F        59.9   C
1                 1           51         35   M        70.5   c
1                 1           51         24   F        65.3   c
COPYRIGHT 2016 Universidade Federal Fluminense
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2016 Gale, Cengage Learning. All rights reserved.

Article Details
Printer friendly Cite/link Email Feedback
Author:Cretton, Nicollas Nogueira; Gomes, Georgia Regina Rodrigues
Publication:Acta Biomedica Brasiliensia
Date:Jul 1, 2016
Words:6524
Previous Article:INFECCAO DO TRATO URINARIO EM GESTANTES: INCIDENCIA E PERFIL DE SUSCETIBILIDADE.
Next Article:Fish nutrition: bibliometric analysis in Brazil and the world.
Topics:

Terms of use | Privacy policy | Copyright © 2019 Farlex, Inc. | Feedback | For webmasters