Printer Friendly

Analisis y evaluacion del nivel de riesgo en el otorgamiento de creditos financieros utilizando tecnicas de mineria de datos.

Analysis and evaluation of risk levels on loan aproval using data mining techniques

Introduccion

El credito bancario constituye una fuente primordial de financiamiento para el desarrollo de la economia. Todos los sujetos de credito implican en menor o mayor medida un nivel de riesgo, dicha probabilidad esta dada por la incertidumbre acerca de los factores y variables que pueden afectar en el futuro a los clientes y vuelven peligrosa la inversion bancaria. Cada cliente muestra sus caracteristicas y factores propios que inciden en la existencia del riesgo crediticio.

En la actividad bancaria siempre los conceptos de riesgo y credito son inseparables si se tiene en cuenta que entre las actividades bancarias la concesion de creditos es la mas importante, se comprendera entonces que la gestion del riesgo de credito continua siendo la de mayor relevancia; el credito ideal seria aquel que de una seguridad total o un riesgo nulo, pero en la practica esto es casi imposible no hay credito sin riesgo. No obstante, si es posible la disminucion del riesgo determinando los factores que inciden en el y actuando sobre ellos para cada tipo de prestatario [1].

Un aspecto muy importante sobre el sistema de administracion del riesgo de credito es el seguimiento y control de procesos que tengan relacion directa con este. Por lo tanto, se hace necesario el monitoreo de procesos tales como otorgamientos y comportamien tos. Estos procesos sintetizan las diferentes etapas de la vida de una obligacion, razon por la cual las variables contempladas en cada uno deben tener relacion directa con el objeto mismo del credito, asi como su analisis y seguimiento.

Para desarrollar la aplicacion se consideraron 10 variables, distribuidas entre cuantitativas y cualitativas, y 1000 registros de muestra, correspondientes a una cartera comercial. El estudio comienza identificando las variables que estaran directamente implicadas y la clase de referencia que dara sentido a la informacion de acuerdo con el conjunto de datos con el que se cuenta, el cual muestra una relacion directa entre las edades, la capacidad de endeudamiento de una persona y su comportamiento de pagos; estas variables se convierten en una base fundamental para determinar el perfil de los clientes y sectores que solicitan los servicios del credito bancario.

Luego de tener identificadas las variables que seran estudiadas, se continua con el proceso de preparacion de los datos, dentro del cual se van a realizar tareas de limpieza, integracion, transformacion (en caso de ser necesaria) y reduccion de la informacion suministrada con el fin del hacer el conjunto de datos consistente.

Luego de este proceso, se prepara la informacion para a partir de ella desarrollar las tareas de mineria, y se utilizan una serie de primitivas existentes con el fin de llevar a cabo un descubrimiento del conocimiento facil, eficiente y fructifero. Este descubrimiento debe llevarnos a resolver la pregunta dentro de la cual se enmarca todo este proceso de mineria de datos: que caracteristicas debe tener un cliente para recibir un credito?

El procesamiento de los datos se efectuo utilizando la tecnica KDD y se empleo como apoyo tecnologico la herramienta de mineria de datos WEKA, por medio de la cual se llevo a cabo el preprocesamiento de los datos mediante la tecnica de seleccion de atributos; posterior a esto, se utilizo como proceso de clasificacion los arboles de decision con los algoritmos de mineria ID3 y J48.

El articulo se encuentra organizado en cinco secciones: la primera muestra un breve recuento del dominio de la aplicacion, la segunda seccion presenta el preprocesamiento de la informacion, la seccion tres describe el proceso de mineria de datos, en la cuarta seccion se muestran los resultados y en la quinta seccion se presentan las conclusiones a las que se puede llegar de acuerdo con el estudio realizado y los resultados obtenidos.

1. Determinacion del conjunto de datos objeto

El conjunto de datos que se va analizar proviene de la informacion real de una entidad financiera. Dicha informacion esta conformada por datos basicos de los clientes y por una clasificacion o categorizacion propia de la actividad de la empresa que los provee.

El conjunto de datos que sera estudiado tiene los siguientes atributos:

* No obligacion.

* Saldo a capita.

* Edad mora: acumulado de dias que lleva en mora durante el credito.

* Modalidad.

* Comportamiento de pago: mora actual.

* Endeudamiento con el sector.

* Perfil del cliente.

* Reporte en las centrales.

* Actividad economica del cliente.

* Capacidad de pago del cliente.

Las caracteristicas de los atributos antes mencionados se describen brevemente a continuacion:

* Conjunto de obligaciones en diferentes rangos de dias en mora.

* Modalidades de credito que dividen los datos en cuatro grandes grupos para ser analizados: consumo, comercial, hipotecario y microcredito.

* Conjunto de los perfiles de comportamiento de los clientes de acuerdo con su comportamiento en el pago de las obligaciones con la entidad financiera.

* Conjunto de las diferentes actividades economicas del sector.

Este conjunto de datos debe ser sometido a etapas de limpieza y preprocesamiento con el fin de lograr la reduccion y normalizacion de la informacion que se va a analizar.

2. Limpieza de datos y preprocesamiento

Las grandes cantidades de informacion que contienen las bases de datos requieren una eficiente representacion, no solo que reduzcan la dimensionalidad sino tambien que preserven la informacion relevante para una clasificacion eficiente.

En el conjunto de datos que se estudiara se encuentran datos continuos y categoricos, por lo tanto es necesario convertir los continuos a categoricos. Se obtiene el numero de segmentos y rangos en que pueden agruparse los segmentos de tiempo, conservando la informacion relevante [2].

Para el proceso de limpieza y preprocesamiento de datos se tomo el conjunto de datos inicial y se identificaron los atributos que debian ser categorizados, asi como los atributos a los que les faltaba informacion, para posteriormente realizar un proceso de relleno de datos faltantes y discretizacion. Estos procesos se llevan a cabo tal como se describe a continuacion.

2.1 Relleno de datos faltantes

Dentro del conjunto de datos de estudio se encontro que el atributo comportamiento de pago tenia filas que no contaban con un valor especifico, en el momento de evaluar la dependencia del resto de atributos del conjunto de datos se encontro que no habia ninguna relacion que determinara el comportamiento o valor que debia tener este atributo, por lo tanto, para hacer confiable el proceso de mineria de esta informacion dicho atributo se completo con el valor "sin evaluar".

2.2 Discretizacion de informacion

Para el proceso de discretizacion se hizo un analisis preliminar de los atributos y se establecio cuales son discretos y cuales son continuos. Luego se tomaron los datos continuos y se categorizaron los valores de cada atributo en tres grupos, que se especifican de acuerdo con el intervalo que se obtiene si se aplica la siguiente formula:

Intervalo = atributos max - atributos min / 3 (1)

Los atributos a los cuales se les aplico el proceso de discretizacion fueron los siguientes:

Edad de mora del cliente: en este atributo se muestra la sumatoria de la cantidad de dias de atraso que el cliente ha tenido durante la existencia de la deuda.

Para este atributo, aplicando la formula 1, la distribucion de los grupos queda como se muestra en la tabla 1.

Capacidad de pago del cliente: este atributo muestra la capacidad de pago que tiene el cliente, determinada en porcentajes por millon. Para este atributo despues de aplicar la formula 1, los grupos quedan conformados como lo muestra la tabla 2.

2.3 Reduccion de los datos

En el proceso de reduccion de los datos debe identificarse el tipo de informacion que estos transmiten, dicha informacion puede ser de tres tipos:

1 Redundante: informacion repetitiva o predecible.

2 Irrelevante: informacion que no aporta al proceso de descubrimiento de la informacion.

3 Basica: la relevante, la que se constituye como parte importante en un proceso de prediccion o descubrimiento de informacion [3].

De acuerdo con los tres tipos de informacion definidos antes y a partir de los datos que son objeto de estudio en este articulo, en la tabla 3 hay una descripcion de todos los atributos que provee el conjunto de datos, y en la tabla 4 se muestran los atributos que van a ser removidos del conjunto de datos, especificando la razon que lleva a realizar esta accion intuitivamente.

2.4 Filtros de atributos

Despues de realizar la categorizacion de los datos y de eliminar un dato que no presenta relevancia para el proceso de descubrimiento de la informacion, se ingresan en la herramienta de mineria de datos WEKA el conjunto de datos modificado y discretizado, compuesto por nueve columnas y mil registros.

WEKA permite realizar manipulaciones sobre los datos aplicando filtros. Se pueden aplicar en dos niveles, atributos e instancias. De los filtros implementados en la seccion de supervisados, se ha decidido aplicar sobre los datos el filtro de seleccion de atributos, el cual permite encontrar aquellos atributos que tienen mas peso a la hora de determinar si los datos son de una clase u otra, el resultado de estos filtros servira de ayuda para aplicar posteriormente las tecnicas de mineria de datos [4].

El resultado que se obtuvo fue un nuevo conjunto de datos conformado por siete campos que contienen la informacion relevante para el proceso de descubrimiento de la informacion. En la figura 1 se muestra la estructura de la informacion cargada inicialmente y en la figura 2 los atributos que resultan luego de aplicar el proceso de seleccion de atributos.

[FIGURA 1 OMITIR]

[FIGURA 2 OMITIR]

Luego de haber realizado la reduccion del conjunto de datos puede entrarse a analizar la distribucion de la informacion en algunos atributos, en las siguientes figuras se muestra graficamente dicha distribucion con datos concretos:

En la figura 3 se muestra la distribucion de la informacion de acuerdo con el atributo modalidad, como se puede observar hay un equilibrio entre las categorias del atributo.

En la figura 4 se muestra la distribucion del atributo comportamiento de pago, y la tendencia de acuerdo con cada categoria.

3. Definicion de la tecnica de mineria de datos

Para el desarrollo de esta investigacion se utiliza la tecnica de arboles de decision en la construccion de modelos a partir de los datos. Algunos de los modelos predictivos mas empleados en el area del riesgo crediticio son las tecnicas de arboles de decision.

Los arboles de decision (Decision Trees, DT) son una popular herramienta utilizada en analisis estadistico y mineria de datos. Los DT son ideales para realizar clasificacion y prediccion, y por lo general los metodos basados en arboles representan reglas. Los arboles de decision son muy utiles en la exploracion de datos en los cuales se desea encontrar relaciones entre una cantidad enorme de datos. Tambien los DT combinan la exploracion y el modelamiento de datos.

Un arbol de decision es una estructura que permite dividir un extenso conjunto de datos relacionados entre si en conjuntos mas pequenos de datos mediante la aplicacion secuencial de sencillas reglas de decision. Adicionalmente, los arboles de decision poseen una estructura de arbol donde cada nodo representa una "prueba" o condicion sobre el valor de un atributo, las ramas representan el resultado de la evaluacion del atributo y las hojas (finales en el arbol) son las clases o variables dependientes [5].

Los arboles de decision a diferencia de otras tecnicas [6]:

* Facilitan la interpretacion de los datos.

* Proporcionan un alto grado de comprension del conocimiento utilizado en la toma de decisiones.

* Explican el comportamiento respecto a una determinada tarea de decision.

* Reducen el numero de variables independientes.

* Permiten establecer la seleccion del algoritmo de mineria de datos.

Para clasificar los datos se ha utilizado la herramienta de mineria de datos llamada WEKA y para medir la efectividad del algoritmo de clasificacion se ha comparado la clase predicha con la clase real de las instancias. Existen diversos modos para llevar a cabo la evaluacion, en este caso se empleo use training set que permite utilizar la misma muestra para entrenar y probar. Los resultados obtenidos son positivos, pero no corresponden con la realidad (esta clasificando los mismos datos con los que se ha entrenado) [7].

Todos los algoritmos de clasificacion tienen dos etapas, entrenamiento y test. La primera ajusta el algoritmo de clasificacion con una parte del conjunto de datos (conjunto de entrenamiento). La segunda, evalua dicho algoritmo en la etapa de test con el conjunto de datos de test; la division del conjunto de datos suele ser 70 % para el entrenamiento y 30 % para la evaluacion [8].

El conjunto de entrenamiento se utiliza para generar el modelo (arbol, lista de reglas, etc.) y el conjunto de test para verificar si el comportamiento del modelo es correcto con ejemplos no vistos anteriormente [9].

Entre los algoritmos que proporciona WEKA, se analizaron los siguientes:

3.1 Algoritmo ID3

Uno de los algoritmos de induccion de arboles de clasificacion mas populares es el denominado ID3 introducido por Quinlan (1986). En este, el criterio escogido para seleccionar la

variable mas informativa esta basado en el concepto de cantidad de informacion mutua entre dicha variable y la variable clase. La terminologia usada en este contexto para denominar a la cantidad de informacion mutua es la de ganancia en informacion (information gain).

Esto es debido a que:

I ([X.sub.i]; C) = H(C) - H(C | [X.sub.i]) (2)

Lo que viene a representar esta cantidad de informacion mutua entre [X.sub.i]. y C es la reduccion en incertidumbre en C debida al conocimiento del valor de la variable [X.sub.i].

Matematicamente se demuestra que este criterio de seleccion de variables utilizado por el algoritmo ID3 no es justo, ya que favorece la eleccion de variables con mayor numero de valores. Ademas, el algoritmo ID3 efectua una seleccion de variables previa (denominada pre-running en este contexto) que consiste en efectuar un test de independencia entre cada variable predictora [X.sub.i] y la variable clase C, de manera que para la induccion del arbol de clasificacion tan solo se van a considerar aquellas variables predictoras para las que se rechaza el test de hipotesis de independencia [10].

3.2 Algoritmo J48 (C4.5)

El algoritmo J48 de WEKA es una implementacion del algoritmo C4.5, uno de los algoritmos de mineria de datos mas utilizado. Se trata de un refinamiento del modelo generado con OneR [11].

El algoritmo C4.5 construye arboles de la decision de un sistema de datos del entrenamiento de la misma forma que ID3, que usa el concepto de entropia de la informacion. Los datos del entrenamiento son un sistema S = [s.sub.1], [s.sub.2], ... de muestras ya clasificadas. Cada muestra [s.sub.i] = [x.sub.1], [x.sub.2], ... esta en un vector donde [x.sub.1], [x.sub.2], ... representa las cualidades o las caracteristicas de la muestra.

Los datos del entrenamiento se aumentan con un vector C = [c.sub.1], [c.sub.2], ... donde [c.sub.1], [c.sub.2],... representa la clase a la que pertenece cada muestra.

C4.5 utiliza el hecho de que cada cualidad de los datos puede utilizarse para tomar una decision que parta los datos en subconjuntos mas pequenos. C4.5 examina la diferencia en entropia, eso resulta de elegir una cualidad para partir los datos. La cualidad con el aumento normalizado mas alto de la informacion es la que esta usada para tomar la decision. El algoritmo entonces se repite en las sublistas mas pequenas [11].

3.3 Comparacion entre el algoritmo C4.5 e ID3

El algoritmo C4.5 llevo a cabo un numero de mejoras a ID3, algunas de estas son:

* Dirigiendo las cualidades continuas y discretas para manejar las cualidades continuas, C4.5 crea un umbral y despues parte la lista en las que valor de la cualidad este sobre el umbral y las que sean inferior o igual a el [12].

* Si se manejan datos de entrenamiento con valores faltantes C4.5 permite que los valores faltantes sean marcados como "?". Los valores que faltan simplemente no se utilizan en calculos del aumento de la entropia.

* Manipulacion de cualidades con valores diferentes.

* Arboles de poda despues de la creacion. C4.5 pasa a traves del arbol una vez que se haya creado y procura quitar las ramas que no ayudan substituyendolos por nodos de la hoja [11].

4. Interpretacion de los resultados

Las consideraciones importantes para construir un buen modelo radican en la calidad de los datos escogidos y en la seleccion adecuada de las variables que influyen en los modelos. Todo esto depende tambien de las tecnicas de mineria empleadas en el preprocesamiento de los datos y de como afronte el modelo la informacion disponible.

Teniendo en cuenta las consideraciones antes mencionadas, se ha aplicado a un conjunto de datos que denominaremos de entrenamiento los algoritmos de arboles de decision ID3 y J48; de los resultados obtenidos, se ha decidido mostrar un comparativo entre los elementos mas relevantes de dichos algoritmos para evidenciar la precision con que analizaron la informacion, y para decidir con cual seria mas adecuado trabajar en pro de tener un proceso de mineria de datos confiable y con un nivel de precision alto.

En las subsecciones siguientes agrupamos los resultados de los dos algoritmos para hacer las comparaciones pertinentes.

4.1 Comparacion entre los resultados de los metodos ID3 y J48

Luego de aplicar los algoritmos ID3 y J48 al conjunto de datos de entrenamiento, se obtuvieron los resultados que se muestran en la tabla 5, la cual presenta de manera comparativa las instancias correctas y el valor del error absoluto, generadas por cada algoritmo.

4.2 Comparacion de matrices de confusion

La matriz de confusion es una herramienta de visualizacion que se emplea en el aprendizaje supervisado. Cada columna de la matriz representa el numero de predicciones de cada clase, mientras que cada fila representa a las instancias en la clase real. Uno de los beneficios de las matrices de confusion es que facilitan ver si el sistema esta confundiendo dos clases [12].

A continuacion se muestran las matrices de confusion generadas por cada uno de los algoritmos, aplicados al mismo conjunto de datos.

En la figura 5 podemos observar que los valores de la diagonal son los aciertos y el resto los errores. Para el Algoritmo ID3 se observa que de los 214 usuarios con perfil A, 208 fueron bien clasificados y 6 presentaron errores.

[FIGURA 5 OMITIR]

[FIGURA 6 OMITIR]

Para el Algoritmo J48 en la figura 6 se observa que de los 214 usuarios con perfil A, 130 fueron bien clasificados y 84 presentaron errores.

[FIGURA 7 OMITIR]

[FIGURA 8 OMITIR]

4.3 Comparacion entre arboles de decision generados

Para ilustrar como funcionan las reglas que se generan luego de ejecutar los algoritmos ID3 y J48 en WEKA, a continuacion se muestra la ejemplificacion de una regla generada por cada uno de los algoritmos antes mencionados. En la figura 7 se expone una regla generada con el algoritmo J48, y en la figura 8 se presenta la ejemplificacion de una regla generada con el algoritmo ID3; como puede observarse, en la comparacion entre estas dos imagenes el arbol generado para las reglas del algoritmo ID3 cuenta con mayor profundidad, teniendo en cuenta el porcentaje de instancias correctas para cada algoritmo puede pensarse que mientras mas profundidad tenga el arbol, se va a obtener mayor precision en el proceso de mineria de los datos.

5. Comparacion de resultados entre datos de entrenamiento y datos de prueba

Anteriormente se han presentado los resultados que surgen de aplicar a los datos de entrenamiento los algoritmos J48 (C4.5) e ID3, en la herramienta de mineria de datos WEKA. Los datos de entrenamiento constituyen el 70 % del conjunto de datos original, el 30 % restante son datos de prueba, a continuacion se muestran los resultados obtenidos en una vista comparativa con el resultado de los datos de entrenamiento.

Se comienza por establecer una comparacion en la precision de los algoritmos, luego por efectuar la comparacion de las matrices de confusion y, finalmente, se desarrolla una breve conclusion acerca de la comparacion de estos resultados.

5.1 Comparacion de precision entre los algoritmos ID3 y J48

En la tabla 6 se puede ver que para el algoritmo ID3 la cantidad de instancias correctas y el error absoluto son muy parecidos para los

datos de entrenamiento y de pruebas, y ademas se puede deducir que si el numero de instancias correctas sube, entonces el error absoluto disminuye.

Para el algoritmo J48 la cantidad de instancias correctas disminuye, mientras que el error absoluto aumenta en proporciones similares.

5.2 Comparacion de matrices de confusion

Como lo muestra la figura 9, se evidencia que ambas matrices tienen una estructura muy parecida, la clasificacion de los datos mantiene las proporciones de distribucion dentro de la matriz.

La figura 10 muestra las matrices de confusion para el algoritmo J48, al igual que con el algoritmo ID3, la distribucion de la clasificacion dentro de la matriz mantiene las proporciones entre los datos de entrenamiento y de prueba.

6. Trabajo futuro

En un futuro se pueden utilizar las reglas obtenidas para implementar un algoritmo predictivo que, basado en dichas reglas, determine si un cliente cumple con las condiciones necesarias para que le sea otorgado un credito.

7. Conclusiones

Al realizar la comparacion de los resultados obtenidos, proporcionando a los algoritmos seleccionados los datos de entrenamiento y prueba, puede concluirse que el algoritmo ID3, al tener mas profundidad en el arbol de decision, provee mayor precision al proceso de clasificacion de la informacion de los clientes.

[FIGURA 9 OMITIR]

[FIGURA 10 OMITIR]

Los datos de entrenamiento proveidos a los algoritmos dan un alto nivel de efectividad al proceso de clasificacion, esto se comprueba facilmente al ejecutar dichos algoritmos con los datos de prueba y al notar que los resultados de precision y matrices de confusion conservan las proporciones con respecto a los resultados obtenidos con el conjunto de datos de entrenamiento.

Fecha de envio: septiembre de 2011

Fecha de recepcion: octubre de 2011

Fecha de aceptacion: agosto de 2012

Referencias

[1] J. C. Mayo y N. O. Fonseca, "Fundamentacion teorica sobre el proceso del credito bancario a usufructuarios de tierras en Bandec las tunas", Observatorio de la Economia Latinoamericana, N.O 143, 2011.[En linea] disponible en http://www.eumed.net/cursecon/ecolat/ cu/2011/

[2] D. A. Garcia, 'Algoritmo de discretizacion de series de tiempo basado en entropia y su aplicacion en datos colpos copicos", tesis para obtener el grado de Maestro en Inteligencia Artificial. Universidad Veracruzana. Mexico. Sep., 2007.

[3] "Compresion de Datos, compresion compresores de archivos, ficheros y carpetas. Formatos de compresion zip, arj, arc, gz, tar, 7z, sqx, rar" [Online]. Available http://www.compresion.es/ compresion-de-datos/. [Accessed: 23 May-2011].

[4] M. G. Jimenez y A. Alvarez, "Analisis de datos en WEKA - pruebas de selectividad". [En linea] disponible en http://www.it.uc3m.es/jvillena/irc/practicas/06-07/28.pdf

[5] A. Y. Ramirez, "Tecnicas de mineria de datos aplicadas a la construccion de modelos de score crediticio: estado del arte".

[6] J. Han y M. Kamber, Data mining: concepts and techniques. Morgan Kaufmann. United States of America. 2006.

[7] "miweb-Concha Bielza". [Online] available http://www.dia.fi.upm.es/- concha/. [Accessed: 30-May-2011].

[8] E. J. Vazquez y D. G. Bertoli, "Sistema de localizacion en redes Wi-Fi con WEKA". [En linea] disponible en http:// www.utim.edu.mx/--svalero/docs/ e4.pdf

[9] "ISA-Ingenieria de Sistemas y Automatica": [Online] available: http://isa. umh.es/. [Accessed: 31-May-2011].

[10] P. Larranaga, I. Inza, y A. Moujahid, "Tema 10: arboles de clasificacion". [En linea] disponible en http://www.sc.ehu.es/ccwbayes/docencia/mmcc/docs/t10arboles.pdf

[11] M. A. Ayuso y M. A. B. Mancha, "Mineria de datos: intrusiones de Red". [En linea] disponible en http://www.it.uc3m.es/jvillena/irc/practicas/07-08/Intrusiones De Red.pdf

[12] C. L. Corso y S. L. Alfaro, "Alternativa de herramienta libre para la implementacion de aprendizaje automatico". [En linea] disponible en http://www. investigacion.frc.utn.edu.ar/labsis/Publicaciones/congresoslabsis/cynthia/ Alternativa_de_herramienta_para_Mineria_Datos_CNEISI_2009.pdf

Martha L. Tello *

Hermes J. Eslava **

Lucy B. Tobias ***

* Ingeniera de Sistemas de la Universidad de Ibague, especialista en Teleinformatica de la Universidad Distrital Francisco Jose de Caldas (Colombia), estudiante de Maestria en Ciencias de la Informacion y las Comunicaciones de la Universidad Distrital Francisco Jose de Caldas (Colombia), integrante del grupo de investigacion en telecomunicaciones Teletecno. Docente de la Universidad Distrital Francisco Jose de Caldas (Colombia). mtelloc@udistrital.edu.co

** Licenciado en Electronica de la Universidad Pedagogica Nacional (Colombia), especialista en Teleinformatica de la Universidad Distrital Francisco Jose de Caldas (Colombia), especialista en Instrumentacion Electronica de la Universidad Santo Tomas (Colombia), M.Sc. en Ingenieria de Telecomunicaciones de la Universidad Nacional de Colombia, Ph.D.(c) en Ingenieria de Sistemas y Computacion de la Universidad Nacional (Colombia), director del grupo de investigacion en telecomunicaciones Teletecno. Docente de la Universidad Distrital Francisco Jose de Caldas (Colombia). hjeslavab@ udistrital.edu.co

*** Ingeniera de Sistemas de la Fundacion Universitaria San Martin (Colombia), estudiante de Maestria en Ciencias de la Informacion y las Comunicaciones de la Universidad Distrital Francisco Jose de Caldas (Colombia), miembro del grupo Thomas Greg & Sons Ltda. lucy.tobias@ reval.com.co.
Tabla 1. Distribucion en grupos de la edad de
mora del cliente

Grupo     Rango de Valores

G1        25-136.67
G2        136.671-248.33
G3        248.331-360

Fuente: elaboracion propia.

Tabla 2. Distribucion en grupos
de la capacidad de pago del cliente

Grupo   Rango de Valores

G1          0.3-0.87
G2         0.871-1.43
G3          1.431-2

Fuente: elaboracion propia.

Tabla 3. Atributos del conjunto de datos

Variables                     Descripcion

No Obligacion                 Identificador asignado a la
                                obligacion por parte de
                                la entidad.
Saldo a Capital               Saldo pendiente a la fecha
Edad Mora                     Acumulado de dias que lleva
                                en mora durante el credito
Modalidad                     Tipo de Credito que se otorga
Comportamiento de Pago        Mora actual
Endeudamiento con el Sector   Muestra el endeudamiento
                                que tiene el cliente
Perfil del Cliente            Perfil que se le otorga al
                                cliente de acuerdo con su
                                comportamiento de pago y
                                nivel de endeudamiento
Reporte en las Centrales      Indica si el cliente esta o no
                                reportado en las centrales
                                de Riesgo
Actividad Economica           Indica la actividad economica
  del Cliente                   que desarrolla el cliente
Capacidad de pago             Muestra la capacidad de pago
  del Cliente                   por millon que tiene el cliente

Fuente: elaboracion propia.

Tabla 4. Atributos que seran removidos

Variables                  Justificacion

Saldo a Capital   No es relevante para determinar
                       el perfil del cliente

Fuente: elaboracion propia.

Tabla 5. Comparativa de algoritmos
de clasificacion

Algoritmo   Instancias    Error
            Correctas    Absoluto

ID3            80 %       0,0837
J48           51,3 %      0,2366

Fuente: elaboracion propia.

Tabla 6. Comparativo de precision de los
algoritmos con los datos de entrenamiento y pruebas

alg         Entrenamiento               Pruebas

        Instancias    Error     Instancias    Error
        Correctas    Absoluto   Correctas    Absoluto

ID3        80%        0.0837      80.40%      0.0829
J48       51.30%      0.2366      46.18%      0.2384

Fuente: elaboracion propia.

Figura 3. Distribucion de
la informacion para
el atributo modalidad

CONSUMO        321
COMERCIAL      340
MICROCREDITO   339

Fuente: elaboracion propia.

Nota: Tabla derivada de grafico de barra.

Figura 4. Distribucion de la informacion para
el atributo comportamiento de pago

MORA 30       151
SIN EVALUAR   151
AL DIA        150
MORA 150      149
MORA 90       154
MORA 120      120
MORA 60       125

Fuente: elaboracion propia.

Nota: Tabla derivada de grafico de barra.
COPYRIGHT 2013 Universidad Distrital Francisco Jose de Caldas
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2013 Gale, Cengage Learning. All rights reserved.

Article Details
Printer friendly Cite/link Email Feedback
Title Annotation:VISION INVESTIGADORA
Author:Tello, Martha L.; Eslava, Hermes J.; Tobias, Lucy B.
Publication:Vision Electronica
Date:Jan 1, 2013
Words:4558
Previous Article:Ocultamiento de voz en audio basado en el desplazamiento de espectro en el dominio wavelet.
Next Article:Algoritmos bioinspirados en la planeacion off-line de trayectorias de robots seriales.
Topics:

Terms of use | Privacy policy | Copyright © 2020 Farlex, Inc. | Feedback | For webmasters