Printer Friendly

Hacia un sistema de deteccion automatica de talento deportivo: una aplicacion al Tae Kwon Do.

Em direcao a um sistema de deteccao automatica de talento esportivo: uma aplicacao para o Taekwondo

I. Introduccion

El uso de la teoria de aprendizaje de maquina [ML, Machine Learning] se ha extendido a diversas areas de estudio, tales como la seguridad de datos y el comercio (Trejo & Mirama, 2018; Urcuqui & Navarro, 2016; Vergara, Martinez & Caicedo, 2017). Puntualmente, el deporte ha sido combinado efectivamente con la teoria de ML debido a la gran cantidad de datos que pueden extraerse de un deportista o equipo en particular. Bajo este contexto, ML es una de las teorias mas utilizadas para el analisis en el deporte y se ha enfocado en el desempeno de los deportistas (Alderson, 2015), en el diagnostico de lesiones deportivas (Zelic, Kononenko, Lavrac, & Vuga, 1997) y en la prediccion de resultados (Valero, 2017).

El Tae Kwon Do es una conocida disciplina coreana de artes marciales y un deporte olimpico que sobresale por lo impresionante de sus tecnicas de patada. Por esto, se han desarrollado diversas propuestas para mejorar el entrenamiento de los competidores al utilizar un sistema de movimiento

con sensores corporales y visuales, junto con ML para el analisis de datos (Kwon & Gross, 2005).Un ejemplo de esto es el enfoque hibrido de tecnicas de teledeteccion en conjunto con el uso del modelo oculto de Markov [HMM, Hidden Markov Model] (Kwon, 2013) y un robot humanoide capaz de interactuar con los deportistas para darles instrucciones y mejorar el entrenamiento (Muscolo & Recchiuto, 2016). Por otra parte, existen trabajos enfocados en el atleta para analizar las complejas tecnicas en deportes de contacto que utilizan tramas de video y aprendizaje profundo [DL, Deep Learning] para predecir la accion a ejecutar (Kong, Wei, & Huang, 2018). Zhong, Hung, Yang, y Huang (2016), por su parte, propusieron un enfoque para desarrollar una evaluacion dinamica del Tae Kwon Do utilizando los metodos de clasificacion de los algoritmos geneticos y maquinas de vectores de soporte.

Sin embargo, expertos consideran que hay una falencia en el proceso de seleccion de atletas de acuerdo con sus expectativas y realidad y, por lo que los autores pudieron investigar, no hay estudios llevados a cabo para reconocer atletas en Tae Kwon Do e identificar sus caracteristicas principales con un alto desempeno competitivo. Por esta razon, el objetivo de esta investigacion fue desarrollar un sistema de clasificacion para determinar las caracteristicas clave para identificar atletas con potencial de alto rendimiento en la disciplina. Para esto, se llevo a cabo la seleccion de caracteristicas y etapas de clasificacion a datos suministrados por la Federacion Ecuatoriana de Tae Kwon Do [FETKD]. Se propuso utilizar los metodos wrapper (envoltorio) y embebido, mientras que para la siguiente etapa, se considero la clasificacion supervisada, al utilizar dos algoritmos bien conocidos como arboles de decision [DT, Decision Trees] y maquinas de vectores de soporte [SVM, Support Vector Machines]. Este enfoque permitio tomar decisiones con resultados fiables acerca de la idoneidad de los atletas con mayor expectativa de un alto desempeno.

La principal contribucion de este trabajo es proveer un sistema de soporte para la seleccion de atletas basado en opiniones expertas, donde se identifique a los mejores candidatos y se extraigan caracteristicas clave que pueden ser utilizadas para entrenamiento especifico orientado a mejorar las debilidades del atleta obtenidas por el sistema. Se plantea hacer el seguimiento de un atleta de alto rendimiento enfocado en los Juegos Olimpicos y otros eventos, nacionales e internacionales, donde los atletas del equipo nacional puedan participar desde una temprana edad.

El resto del documento esta organizado de la siguiente manera: la seccion II presenta los materiales y metodos empleados para el set de caracteristicas y el preprocesamiento, ademas de la seleccion de caracteristicas y clasificadores evaluados por su desempeno; la seccion III presenta los resultados experimentales del trabajo y la seccion IV discute las conclusiones obtenidas de esta investigacion.

II. Materiales and metodos

En esta seccion se definen los sets de caracteristicas y preprocesamiento, la seleccion de caracteristicas y clasificadores y las metricas para evaluar su desempeno, como se indica en la Figura 1. El set de diseno fue propuesto y extraido por expertos con base en sus experiencias en la seleccion de deportistas en la FETKD, ademas, en la etapa de seleccion de caracteristicas se introdujo el uso de metodos wrapper-embebidos en union con SVM y DT como algoritmos de clasificacion. Los metodos embebidos y wrapper son actualmente usados para seleccionar el mejor set de caracteristicas. Por esta razon se eligio un metodo de wrapping basado en eliminacion de caracteristicas recursivo [RFE, Recursive Feature Elimination], que cual puede lograr una mayor exactitud [A, Accuracy] en la clasificacion, mientras que un metodo embebido utiliza seleccion de caracteristicas y clasificadores en conjunto para caracteristicas clave de aprendizaje, lo cual contribuye a mejorar A y evitar el sobreajuste (Liu, Wang, Zhao, Shen, & Konan, 2017; Blum & Langley, 1997; Langley, 1994). Se ha descartado el uso de filtros debido a que el uso de los metodos wrapper y embebido sobrepasa a los algoritmos de filtrado (Suto, Oniga, & Sitar, 2016). Para la clasificacion se ha empleado un algoritmo bien conocido--DT--porque emula el razonamiento humano y presenta una estructura jerarquica simple para el entendimiento del usuario y la toma de decisiones (Kotsiantis, 2013; Badr, Abdelkarim, Hanane, & Mohammed, n.d.). Tambien, se ha utilizado SVM puesto que provee un alto A, lo que la hace una tecnica poderosa de ML que demuestra ser un algoritmo robusto que generaliza bien a la vida real en aplicaciones ingenieriles de prediccion (Parikh & Shah, 2016; Shi, Duan, Ma, & Weng, 2012; Zhang, 2012). Los algoritmos de ML deben ser evaluados respecto del desempeno, consecuentemente se han elegido metricas asociadas a dichos algoritmos (Lara, 2015). Para el desarrollo del experimento se utilizo MATLAB 2016 en un computador con un procesador a 2.4 GHz y 8 GB de RAM.

A. Set de caracteristicas y etapa de preprocesamlento

Un talento deportivo es un atleta que posee las caracteristicas principales requeridas para obtener una alta probabilidad de consolidacion en un deporte. Por esto, los modelos tradicionales de seleccion de deportistas se basan en la adscripcion hacia cierta actividad. Esta puede describir dos modelos a considerar: el empirico o cientifico y el formativo o de desarrollo (Brotons, 2005). El proceso de buscar e identificar atletas potencialmente exitosos para el Tae Kwon Do se basa en una mezcla de los modelos de seleccion previamente mencionados. Los expertos han desarrollado un proceso de reconocimiento basado en caracteristicas bien definidas, como el genero, la categoria, el peso y el sobrepeso, las cuales estan relacionados con el somatotipo del sujeto de estudio. Adicionalmente, se han desarrollado varias pruebas para la obtencion de ciertas caracteristicas, como habilidades fisicas y tecnico-tacticas, las cuales se relacionan con la adaptacion al deporte. En otras palabras, la caracteristica del genero determina si el candidato es hombre o mujer, mientras que la categoria ubica a un atleta dado su respectivo peso, edad y genero establecido por la federacion internacional en cabeza del deporte llamada World Tae Kwon Do, como se describe en la Tabla 1.

La relacion entre estas caracteristicas es entendible, puesto que el atleta pertenece a cierta categoria donde esta limitado por valores maximos y minimos de peso. El deportista puede ser clasificado en tres posibles casos: por debajo, dentro y fuera del limite. El sobrepeso tiene una relacion positiva y negativa respecto de los hechos mencionados; las habilidades fisicas y tecnico-tacticas tienen una subdivision relacionada con una etapa de entrenamiento u orientacion, la que es necesario trabajar en el proceso deportivo. Las habilidades fisicas estan asociadas con las capacidades del deportista, como fuerza, velocidad, resistencia, flexibilidad y coordinacion, mientras que las habilidades tecnico-tacticas permiten la adopcion de las etapas de entrenamiento y evaluacion, como sea necesario por parte de los entrenadores, y condicionadas a las necesidades especificas del deporte. Se ha desarrollado el preprocesamiento en un contexto general para mejorar la discriminacion de todas las caracteristicas del set de datos (dataset) empleado al eliminar la tendencia lineal y etiquetar todas las caracteristicas a utilizar. Despues, la tendencia lineal ha sido suprimida al utilizar media cero y varianza igual a 1 (|=0, V=1), lo cual permite mejorar la visualizacion del set de caracteristicas en el mismo rango. Por otra parte, el set de caracteristicas se etiqueto de la siguiente manera: genero (X1), categoria (X2), peso (X3), sobrepeso (X4), habilidades fisicas (X5) y habilidades tecnico-tacticas (X6).

B. Etapa de seleccion de caracteristicas y clasificadores

La etapa de seleccion de caracteristicas fue desarrollada para identificar los principales sets de caracteristicas relevantes de los atletas, lo que permitio determinar las principales caracteristicas a trabajar hacia un rendimiento de atleta competitivo. Un estudio de referencia se llevo a cabo para dos de los metodos de seleccion de caracteristicas mas utilizados, denominados embebido (embedded) y wrapper. El objetivo de estos metodos es obtener matrices que provean la mayoria de la informacion discriminatoria para clasificar al atleta evitando la sobrecarga. Al utilizar el metodo embebido, se requiere utilizar un algoritmo que utiliza como criterio el de informacion mutua [MI, Mutual Information] entre la caracteristica x y la salida y, como lo muestra la Ecuacion 1.

I(x; y) = H(y) - H(y|x), (1)

donde la entropia marginal se define como H(y), mientras que la entropia condicional se asocia con H(y|x) entre la saliday y el set de caracteristicas x a traves de la generacion iterativa de ejecuciones al dividir los datos y tomando ventaja de acuerdo con su importancia para la tarea de clasificacion.

El algoritmo utilizado para esto fue DT, que es considerado como un algoritmo de aprendizaje supervisado no parametrico y utilizado principalmente para problemas de regresion y tareas de clasificacion. La meta de este algoritmo se orienta hacia un modelo que pueda predecir el valor de una variable al aprender reglas de decision inferidas desde caracteristicas de los datos. El parametro libre del algoritmo DT es la profundidad de la frondosidad y debe ser ajustado con el fin de maximizar el rendimiento de la clasificacion, evitando la sobrecarga en el set de entrenamiento (training set). El arbol es moldeado por un nodo raiz, nodos internos y nodos terminales. Ademas, se establece una regla en cada nodo, dando asi confianza a producir la seleccion binaria y extenderla hasta el nodo final, que representa una clase.

Todas las posibles ramificaciones son dependientes de cada valor que el nodo pueda tomar. Por esto, el algoritmo genera decisiones secuenciales para predecir valores como caracteristicas representativas de los datos e introduce un acercamiento basado en teoria de la informacion donde la eleccion de una caracteristica esta directamente relacionada con la entropia, la cual se describe como una medida de la incertidumbre del sistema que permite conocer la cantidad promedio necesaria de bits que deben ser adaptados a la salida del algoritmo. Este parametro se representa por la Ecuacion 2

[suma de (i[elemento de]C)] - [p.sub.i] [log.sub.2] [p.sub.i], (2)

donde C describe un set de la clase a la que podria pertenecer, como ejemplo y pi es la probabilidad de que dicho ejemplo pertenezca a la clase i-esima. Para el metodo wrapper se empleo el RFE, el cual tiene como base un metodo de eliminacion en reversa, cuya operacion se basa en remover caracteristicas iterativas de los datos, buscando elegir las caracteristicas que llevan al margen mas largo de separacion de clases al utilizar SVM como clasificador. En el caso descrito en este articulo, el clasificador elegido fue V-SVM, habilitando la variacion necesaria de un parametro libre como V, el cual controla el numero de vectores de soporte. El algoritmo V-SVM se define brevemente a continuacion (el lector puede referirse a Scholkopf & Smola (2002) para mas detalles). Al utilizar un set etiquetado de datos para entrenamiento (3):

[{[x.sub.i], [y.sub.i]}.sup.n.sub.i=1] (3), donde

[x.sub.i] [elemento de] [R.sup.N] (4) y

[y.sub.i] [elemento de] {-1, 1} (5)

y dado un mapeo no linear [fi](*), el metodo V-SVM solu ciona (6).

[expresion matematica irreproducible] (6), sujeto a (7) y (8)

[y.sub.i](([fi] ([x.sub.i]), w) + b) [mayor que o igual a][rho] -[[xi].sub.i] [atane a todos]i = 1, ..., n (7)

[rho] [mayor que o igual a]0, [[xi].sub.i] [mayor que o igual a]0 [atane a todos]i = 1, ..., n (8)

donde w y b definen un clasificador lineal en el espacio caracteristico y en las variables sueltas positivas, habilitando el tratar con errores; esta asociado con [xi]i. Se deberia considerar que la eleccion apropiada del mapeo no lineal [theta] permite garantizar que las muestras transformadas tienen una mayor probabilidad de ser separables en el espacio caracteristico. Bajo este contexto, se identifico que las variables son controladas a traves de coeficientes, lo cual provee un nuevo grado de libertad al margen. Por consiguiente, el tamano del margen se incrementa linealmente con la variacion del parametro [rho] y al ajustar v en el rango [0;1], el algoritmo v-SVM permite el intercambio entre el error de entrenamiento y el error de generalizacion, el cual se define como la frontera superior de la fraccion del margen de errores y, a su vez, es la frontera inferior de la fraccion de vectores de soporte. La solucion optima al problema primal (6) podria obtenerse utilizando la contraparte del problema dual al introducir (9).

W = [[suma].sup.n.sub.i=1] [y.sub.i] [[alfa].sub.i] [fi] ([x.sub.i]) (9)

mientras que la funcion de decision para cualquier vector de texto [x.sup.*]es descrita por la Ecuacion 10.

f ([x.sub.*]) = sgn ([n.suma de (i=1)] [y.sub.i] [[alfa].sub.i] K([x.sub.i],[x.sub.*]) + b) (10)

Es posible describir restricciones en (6) como multiplicadores de Lagrange definidos por [alfa]i, donde son los vectores de soporte [SV, Support Vectors] los que entrenan las muestras xi con multiplicadores de Lagrange diferentes de cero [alfa]i [desigual a] 0 y el termino de sesgo b calculado utilizando dichos multiplicadores ilimitados (11).

b = 1/k [[suma].sup.k.sub.i=1] ([y.sub.i] - ([fi]([x.sub.i]), w)), (11)

donde k es el numero de multiplicadores ilimitados de Lagrange (0 <[alfa]i<C).

El algoritmo SVM presenta una particularidad alrededor de la funcion de decision f(x), definida como funcion de un pequeno subconjunto de los ejemplos de entrenamiento descritos por los vectores de soporte. Estos son ejemplos cercanos del limite de decision y caen en el margen junto con los ejemplos mal clasificados. La existencia de dichos vectores de soporte se encuentra en el origen de las propiedades computacionales de SVM y de su desempeno de clasificacion competitivo. El lector puede remitirse a Guyon, Weston, Barnhill, and Vapnik (2002) para mas detalles acerca del algoritmo SVM y su relacion con los valores lineales y no lineales.

C. Desempeno

Esta etapa fue desarrollada para evaluar el desempeno de la clasificacion. Al evaluar la determinacion de los atletas etiquetados con el valor "1" que significa candidato apto y "-1" para un candidato no apto, se ejecuta la recopilacion de informacion generada por las etiquetas reales. Los metodos establecidos para el desempeno de los clasificadores--exactitud (accuracy, A), precision (P), sensibilidad (R), especificidad (S) y tasa de error balanceado [BER, Balanced Error Rate]--se describen con las Ecuaciones 12 a 16 respectivamente.

A(%) [N.sub.C]/[N.sub.T] x 100, (12)

P(%) [N.sub.TP]/[[N.sub.TP] + [N.sub.FN]] x 100, (13)

R(%) [N.sub.TP]/[[N.sub.TP] + [N.sub.FN]] x 100, (14)

s(%) [N.sub.TN]/[[N.sub.TN] + [N.sub.FP]] x 100, (15)

BER = 1 - [R + S]/[2 x 100], (16)

donde:

[N.sub.C] pertenece al numero de patrones correctamente clasificados;

[N.sub.T] hace referencia al numero de patrones utilizados en la clasificacion;

[N.sub.TP] es el numero de verdaderos positivos;

[N.sub.FP] es el numero de falsos positivos;

[N.sub.TN] expresa el numero de verdaderos positivos; y

[N.sub.FN] el numero de falsos negativos.

Estas medidas de desempeno fueron calculadas para cada validacion empleada en todos los casos propuestos.

III.Resultados experimentales

Los resultados obtenidos a traves de esta investigacion permitieron realizar un analisis y enfoque hacia un atleta de alto rendimiento al seguir la identificacion de caracteristicas principales y a la clasificacion del atleta. Fueron analizados datos de 76 atletas divididos en dos grupos, el primero corresponde al training set de los algoritmos e incluye a un total de 54 atletas, mientras que el test set tiene 22 atletas. Los ultimos corresponden a lo mas reciente obtenido en 2018.

Dicho de otra manera, nuestro training set equivale a un 71.052%, mientras que el test set a 28.948%. Esto permite que la seleccion de caracteristicas y la deteccion de atletas sea factible y que los resultados de los algoritmos supervisados sean confiables y se evite el ajuste excesivo.

Al hacer uso de un plano tridimensional, en la Figura 2a se puede observar el set de caracteristicas superficiales provisto, mientras que en la Figura 2b se presenta el set de caracteristicas superficiales despues del preprocesamiento. Esta etapa es importante para remover tendencias lineales y ubicar todos los sets de caracteristicas en el mismo rango al utilizar [my]=0 y v=1.

La salida original de la clasificacion de los atletas se presenta en la Figura 3, donde permite la comparacion con la salida entregada por los algoritmos DT y SVM. Aqui, un valor de "1" se asigna a un candidato apto y "-1" a uno no apto.

A. Resultados utilizando DT

El algoritmo DT obtuvo un modelo para la matriz de entrada al utilizar caracteristicas previamente establecidas y la matriz de salida correspondiente a la clasificacion de los atletas. Hizo posible inducir un arbol, como se muestra en la Figura 4, el cual eligio tres caracteristicas clave. Empezando por el nodo superior con regla X5 [mayor que o igual a] 0.827944, seguido por X4 [mayor que o igual a] 0.366235 y finalmente X6 [mayor que o igual a] -0.0302377, lo cual hizo posible clasificar en cualquiera de las cuatro ramas.

Esta representacion establece diferentes umbrales dependiendo de la amplitud, lo que hace posible identificar la elegibilidad de un atleta donde se determino un nodo raiz X5. En caso de que el umbral fuera excedido, el atleta se considero apto. Si el candidato es "no apto", se procede a tomar una nueva decision.

El siguiente nodo para la toma de decisiones es X4, el cual no tiene que sobrepasar el valor de 0.36 para que el atleta no sea descartado. Esto permite una concatenacion con la ultima caracteristica X6, la cual puede ser mayor o igual a -0.03 para que el candidato sea apto. Al utilizar todos estos sets de caracteristicas para una clasificacion supervisada, se obtienen las siguientes medidas del desempeno: A%=86.3636, P%=90, R%=81.8182, S%=90.9091 y BER=0.1364. La salida de la clasificacion de los atletas entregada por el algoritmo se muestra en la Figura 5. Utilizando las caracteristicas principales propuestas por el algoritmo DT, se determino que los parametros de desempeno y clasificacion son los mismos en el caso de emplear todas las caracteristicas.

B. Resultados utilizando SVM

El algoritmo RFE obtuvo un modelo para la matriz de entrada al emplear las caracteristicas establecidas previamente y la matriz de salida para la seleccion de caracteristicas. Por esto, el framework de seleccion de caracteristicas se hizo basado en el algoritmo SVM-RFE, los cuales identifican las caracteristicas clave desde la principal hasta la menos importante, basandose en el peso de cada una. Para el caso de estudio, a traves del empleo de este metodo fue posible determinar tres caracteristicas clave (descritas en la Tabla 2), trasladadas a porcentaje como X4=70.820%, X6=22.289% y X2=6.891%.

Se decidio utilizar tres sets de caracteristicas en los algoritmos de clasificacion, los cuales fueron los sets entregados por DT, RFE, y todas las caracteristicas. Ademas, se utilizaron dos diferentes kernels (nucleos) para clasificacion en el algoritmo v-SVM: kernel lineal y kernel de funcion base radial [RBF, Radial Basis Function]. La modificacion en el parametro v se llevo a cabo con una variacion constante de 0.01 dentro del rango establecido para el algoritmo, los detalles se describen a continuacion. Ademas, se realizaron medidas detalladas de desempeno al utilizar un kernel lineal (ver Tabla 3). La Figura 6 presenta la salida de la clasificacion de los atletas entregada por el algoritmo de kernel lineal v-SVM con set de caracteristicas DT y donde v=0.29. La Figura 6b muestra la salida del algoritmo con v=0.18 al utilizar el set de caracteristicas RFE y finalmente, en la Figura 6c define el valor en v=0.24 para todas las caracteristicas.

Para el caso de kernel RBF, en la Tabla 4 se presentan las medidas de desempeno entregadas por el algoritmo, mientras que en la Figura 7 se describe la clasificacion de los atletas. Las caracteristicas empleadas en estos algoritmos son las mismas que utilizan los algoritmos de kernel lineal. En la Figura 7a se presenta la correspondiente clasificacion de atletas entregada por el algoritmo de kernel RFB v-SVM al utilizar un set de caracteristicas DT, donde 0.96 es el valor mas alto de v; en la Figura 7b se muestra la salida del algoritmo con v=0.11 al utilizar el set de caracteristicas RFE; y en la Figura 7c se define el valor de v=0.23 para todas las caracteristicas.

Como se puede ver en las Figuras 6a, 6b, 7a y 7b, al utilizar los mismos sets mencionados existe una notable similitud entre la clasificacion de los atletas con X4 y X6 como caracteristicas comunes. La clasificacion de los atletas puede representarse graficamente con el uso de un plano tridimensional, habilitando el identificar la divisibilidad entregada por los algoritmos de acuerdo con el kernel utilizado, donde los ejes son asignados como (X4, X5, X6) a (X,Y, Z) y (X2, X4, X6) a (X,Y, Z) respectivamente. Para explicar mejor lo anterior, en la Figura 8 se presenta la clasificacion de salida utilizando los kernels lineales y RBF con los sets TD y RFE. Aqui, el "+" corresponde a un atleta adecuado, mientras que el simbolo "[grados]" indica un atleta no apto. Esta representacion hace dificil identificar cuales son las principales caracteristicas y no es posible observar una gran diferencia entre los algoritmos. En las Figuras 8a y 8b se describe la correspondiente clasificacion de deportistas generada por el algoritmo de kernel lineal V-SVM al utilizar los sets de caracteristicas de DT y RFE, respectivamente. En las Figuras 8c y 8d se muestra la salida del algoritmo en un plano tridimensional al utilizar los mismos sets.

IV. Discusion y conclusiones

En este documento se propuso un sistema de deteccion de talentos deportivos del Tae Kwon Do utilizando teoria de aprendizaje de maquina. Es un metodo novedoso, directo, que se presento para la seleccion de caracteristicas y clasificadores para una seleccion objetiva e imparcial de los deportistas, lo que fue solucionado al utilizar los metodos embebido y wrapper asociados con los algoritmos DT y SVM, respectivamente. El escenario analizado correspondio a los datos de los ultimos anos del equipo nacional ecuatoriano de Tae Kwon Do. Despues, se presento a los entrenadores informacion adicional acerca de las caracteristicas mas relevantes para tener en cuenta. Para esto, las caracteristicas de los atletas se midieron, dando un claro panorama de cuales son las mas criticas en una representacion sistematica y facil de manejar para los entrenadores. El analisis de caracteristicas permitio detectar a los mejores candidatos, la identificacion de caracteristicas fue esencial en este trabajo. El uso de algoritmos de aprendizaje supervisado hizo que el sistema de soporte fuera mas que una simple herramienta de clasificacion, puesto que esta basada solidamente en el analisis de caracteristicas bien definidas. La aplicacion de estos dos casos de estudio (diferente teoria de aprendizaje de maquina) resalta la conveniencia practica y usabilidad de este enfoque. En los resultados encontrados, el analisis de seleccion de caracteristicas mostro una reduccion a la mitad en ambos casos. Es posible identificar dos caracteristicas comunes derivadas de los algoritmos X6 y X4. Para el algoritmo DT, los valores de desempeno fueron: A%=86.3636, P%=90, R%=81.8182, S%=90.9091 y BER=0.1364. Con el uso del algoritmo V-SVM con kernel lineal se pudo identificar el mejor caso, con un valor V=0.29 y set de caracteristicas clave entregado por DT, brindando el mismo rendimiento que el algoritmo DT, aunque con clasificacion final diferente. Ademas, para el mejor caso del algoritmo V-SVM utilizando un kernel RBF, se obtuvo un valor V=0.23 y, utilizando todo el set de caracteristicas, se obtuvieron los siguientes resultados: A%=90.9091, P%=100, R%=81.8182, S%=100 y BER=0.0909. Por ende, el mejor algoritmo para la clasificacion de atletas en este caso de estudio es el V-SVM con kernel RBF. Es posible concluir que el sistema propuesto puede ser utilizado para determinar los atletas aptos para futuras competiciones en este deporte, mientras proporciona un robusto y operativo resumen de caracteristicas para propositos de gestion de seleccion de deportistas. Finalmente, este enfoque, que es adecuado para deportistas de Tae Kwon Do, puede ser utilizado tambien en otras artes marciales.

Agradecimiento

Los autores agradecen la contribucion de la Universidadde las Fuerzas Armadas [ESPE] por la ayuda economica para el desarrollo de este proyecto bajo las becas de investigacion 2013-PIT-014y 2016-EXT-038.

I. Introduction

The use of Machine Learning [ML] theory has been extended to several emerging areas of study, such as data security and commerce, among others (Trejo & Mirama, 2018; Urcuqui & Navarro, 2016; Vergara, Martinez & Caicedo, 2017). In such a way, sport is effectively combined with ML Theory due to the large amount of data that can be extracted from a singular athlete or team. In this sense, ML is one of the most used theories for analysis in sports, which has focused on sport performance (Alderson, 2015), diagnosis of sport injuries (Zelic, Kononenko, Lavrac, & Vuga, 1997), and forecasting sport results (Valero, 2017).

Tae Kwon Do is a well known Korean martial art and Olympic combat sport which stands out for the variety and the impressive of its kicking techniques. In such a sense, several proposes have been developed to improve the competitors training by using a motion system with body and visual sensors and ML for analysis (Kwon & Gross, 2005). A hybrid approach sensing technique in conjunction with Hidden Markov Model [HMM] (Kwon, 2013) and a humanoid robot able to interact with athletes, in order to give instructions and improve training (Muscolo & Recchiuto, 2016). In the mean time, there exists works focused on the athlete to analyze the complex techniques in contact sports by using video frames and Deep Learning [DL] for predicting the action to be executed (Kong, Wei, & Huang, 2018). Furthermore, an approach to develop a dynamic evaluation of Tae Kwon Do by using the classification method of Genetic Algorithms with Support Vector Machine [GA-SVM] was proposed by Zhong, Hung, Yang, and Huang (2016).

However, experts consider there is a gap in the process of athlete selection according to their expectations and reality, and the best of our knowledge, no principled studies have been conducted to recognize athletes in Tae Kwon Do and identify the main features of athletes with high competitive performance. For this reason, the aim of this paper is to develop a classification based system for determining the key features for identifying athletes towards a high performance in Tae Kwon Do; in order to fill out this paper, we apply feature selection and classification stages to data provided by the Federacion Ecuatoriana de Tae Kwon Do [FETKD]. For the former stage, we propose to use wrapper and embedded methods, as long as for the next stage, supervised classification was considered, by using two well-known algorithms such as Decision Tree [DT] and Support Vector Machine [SVM]. This approach could allow us to make decisions--with reliable results as possible--about athletes suitability with major expectation of high performance.

The main contribution of this work is to provide a support system for the athlete selection based on exports opinion whereby we can identify the best candidates. As well as the extraction of the key features, which can use for specific training oriented to improve the weak features provided by the support system. This work is according to lead an high performance athlete -firstly towards Olympic games and several events where national team could participate, locally or internationally-, from an early age.

The rest of this paper is organized as follows: in section II we define materials and methods for feature set and pre-processing, feature selection and classifiers, which are evaluated by their performance; in section III we show the experimental result and in section IV the conclusions and discussion obtained from this research.

II. Materials and Methods

In this section we detail feature set and pre-processing, feature selection and classifiers, and metrics to evaluate its performance, as depicted in Figure 1. About feature set design, this has been proposed and extracted by experts based on their experiences from athletes selection area at FETKD. Furthermore, in the feature selection stage, we have introduced the use of wrapper-embedded methods in conjunction with SVM and DT, respectively, as classification algorithms. Filter, embedded and wrapper methods are currently used to select the best set of features. For this reason, we have chosen a wrapper method based on Recursive Feature Elimination [RFE], which could achieve high classification Accuracy (A). Meanwhile, an embedded method uses feature selection and classifiers in conjunction for learning key features, which contribute to improve A and avoid over-fitting (Liu, Wang, Zhao, Shen, & Konan, 2017; Blum & Langley, 1997; Langley, 1994). We have dismissed the use of filters due to proposed wrapper and embedded methods outperforms filter algorithms (Suto, Oniga, & Sitar, 2016). Whereas the classification, we have used a well-known algorithm -DT-, because it closely resembles human reasoning and presents a simple hierarchical structure for the user understanding and decision making (Kotsiantis, 2013; Badr, Abdelkarim, Hanane, & Mohammed, 2014). Besides, we have used SVM due to it provides a higher A, and it is, for this reason, one of the most powerful techniques of ML which has been proven to be a robust algorithm that generalizes well into real life engineering applications for forecasting (Parikh & Shah, 2016; Shi, Duan, Ma, & Weng, 2012; Zhang, 2012). The ML algorithms must be assessed its performance, consequently we have chosen metrics associated to those algorithms (Lara, 2015). We have used Matlab[R]R2016a, a PC re(TM) i7-5500U with 2.4-2.39 GHz and 8GB of RAM for development of the experiment.

A. Feature Set and Pre-Processing Stage

An sporting talent is an athlete who possess main features required to get a higher probability of consolidation in a sport. By this way, the traditional models of athletes selection are based on the ascription to a certain activity. It can be described two models to consider, which are the empirical or scientific model and the formative or development model (Brotons, 2005). The process to search and identify athletes potentially successful related to Tae Kwon Do is based on a mix of selection models previously mentioned. Experts have developed a recognition process based on well-defined features such as gender, category, weight and overweight, which are related to his/her physic somatotype. In addition, several tests have been developed to obtain some features like: physical abilities and techniques-tactics abilities, which are related to sports adaptation. For our understanding, gender feature determines if the candidate is male or female, while category places an athlete on their respective weight, age and gender established by the World Tae Kwon Do as described in Table 1.

The relationship between these features is understandable in a way that an athlete belongs to a category, which is limited by the higher and lower weight. The athlete could be located in three possible cases; under, into, and over the limit; the overweight has a positive and negative relation concerning the facts mentioned previously; physical and technical-tactics abilities has a subdivision related to training stage or orientation that is necessary to work into the sporting process. Physical abilities are associated to the athlete capacities as strength, speed, endurance, flexibility and coordination, while, technical-tactics abilities allow us to adopt the train stage and evaluate as necessary for coaches, conditioned by specific sport needs. We developed pre-processing in a general context to enhance the discrimination in all features on our data set, by eliminating the lineal trend and label all the features to be used. Over our case we removed lineal trend by using zero mean and variance equal to one (|=0, V=1), which allows improving visualization of our feature set in the same range; on the other hand, feature set is labeled such as gender (X1), category (X2), weight (X3), overweight (X4), physical abilities (X5) and technical-tactical abilities (X6).

B. Feature Selection Stage and Classifiers

Feature selection stage was developed to identify the principal sets of relevant features from athletes, which will enable us to determine the main features to work toward high competitive athlete performance. It is performed a benchmark study of two most used feature selection methods which are named "embedded" and "wrapper". The goal of this methods it to obtain matrices which provide most of the discriminative information to classify the athlete, while avoiding over-fitting. By using the embedded method, in this work is necessary to select an algorithm, which as the main criterion uses Mutual Information [MI] between feature x and the output y, as follows in Equation 1.

I(x; y) = H(y) - H(y|x), (1)

where, the marginal entropy is defined as H(y), while conditional entropy is associated with H(y|x) between output y and feature set x, through generating an iteratively builds by dividing the data taking advantage according to its importance for the classification task. The algorithm used is DT, which is considered a non-parametric supervised learning algorithm and is principally used for both, classification and regression problems. The goal of this algorithm is oriented towards a model which can predict the value of a variable by learning decision rules inferred from the data features. The free parameter of DT algorithm is the depth or leafiness and it has to be adjusted in order to maximize the classification performance, avoiding over-fitting to the training set. The tree is shaped by a root node, internal nodes and terminal nodes; moreover, in each node a rule is established, which is the entrusted to produce the binary selection extend to the final node which represents a class. All the possible branches are dependents to each node values can take. In this way, the algorithm generates sequential decisions to predict values, as of representative features of the data. Introduces an approach based in information theory, where the choice of a feature it is directly related with entropy, which is described as a measure in a system uncertainty that allows us to know the necessary average amount of bits can be adapted to the output of the algorithm. This parameter is represented by Equation 2.

[summation over (i[member of]C)] -[p.sub.i] [log.sub.2] [p.sub.i], (2)

where, C describes a set of the class which may belong to such an example and pi is the likelihood that given example belong to i-th class. For a wrapper method, we used RFE, which has a base on a backward elimination method. Their operation is based on iteratively removing features from data, seeking to choose the features which lead to the largest margin of class separation by using SVM as a classifier. In our case, the selected was v-SVM, enabling the variation necessary of a free parameter v which control the number of support vectors. The v-SVM algorithm is defined in summary as follows (see Scholkopf & Smola (2002) for details. By using a labeled training data set (3):

[{[x.sub.i], [y.sub.i]}.sup.n.sub.i=1] (3), where

[x.sub.i] [member of] [R.sup.N] (4) and

[y.sub.i] [member of] {-1, 1} (5)

(3), where

and given a nonlinear mapping [phi](*) die v-SVM methods solves (6).

[Mathematical expression not reproducible.] (6)

subject to (7) and (8)

[y.sub.i](([phi] ([x.sub.i]), w) + b) [greater than or equal to] [rho] -[[xi].sub.i] [for all]i = 1, ..., n (7)

[rho] [greater than or equal to] 0, [[xi].sub.i] [greater than or equal to] 0 [for all]i = 1, ..., n (8)

where, w and b define a linear classifier in the feature space and the positive slack variables enabling to deal with errors, it is associated with [xi]i . It should be taken that the appropriate choice of nonlinear mapping 9 allows us guarantees that the transformed samples hold a major probability for being linearly separable in the feature space. In this context, we can identify that the variable is controlled through coefficient, which provides a new degree of freedom to the margin. Furthermore, the size of the margin increasing linearly with the variation of the parameter p. Therefore, adjusting V in the range [0;1] in the V-SVM algorithm allows performing the trade-off between the training error and the generalization error, which is defined as an upper bound on the fraction of margin errors and is also a lower bound on the fraction of support vectors. The optimal solution of the primal problem (6) could be obtained by using its dual problem counterpart, introducing (9)

W = [[summation].sup.n.sub.i=1] [y.sub.i] [[alpha].sub.i] [phi] ([x.sub.i]) (9)

while decision function for any text vector x* is finally outlined by equation 10.

f ([x.sub.*]) = sgn ([n.summation over (i=1)] [y.sub.i] [[alpha].sub.i] K([x.sub.i],[x.sub.*]) + b) (10)

It is possible to describe constraints in (6) as Lagrange multipliers defined by [alpha]i, being the Support Vectors [SV] those training samples xi with non-zero Lagrange multipliers [alpha]i [not equal to] 0; and the bias term b calculated by using the unbounded Lagrange multipliers as (11).

b = 1/k [[summation].sup.k.sub.i=1] ([y.sub.i] - ([phi]([x.sub.i]), w)), (11)

where k is the number of unbounded Lagrange multipliers (0 < [alpha]i < C). SVM present a particularity around the decision function fx), defined as a function of a small subset of the training examples described as the support vectors. Those are examples closes to the decision boundary and lie on the margin as well as those wrong-class examples. The existence of such support vectors is at the origin of the computational properties SVM and their competitive classification performance (see Guyon, Weston, Barnhill, and Vapnik (2002) for more details about the SVM algorithm related to linear and non-linear.

C. Performance

This stage was developed to evaluate the classification performance. By performing the determination of the athletes labeled with the value "1", equal to an suitable candidate, and "-1" for a not suitable candidate; an information collation is carried out by generated and real labels. The established measures for performance of classifiers -Accuracy (A), Precision (P), Sensitivity (R), Specificity (S) and Balanced Error Rate (BER)- are described with the equations 12 to 16, respectively.

A(%) [N.sub.C]/[N.sub.T] x 100, (12)

P(%) [N.sub.TP]/[[N.sub.TP] + [N.sub.FN]] x 100, (13)

R(%) [N.sub.TP]/[[N.sub.TP] + [N.sub.FN]] x 100, (14)

s(%) [N.sub.TN]/[[N.sub.TN] + [N.sub.FP]] x 100, (15)

BER = 1 - [R + S]/[2 x 100], (16)

where:

[N.sub.C] belongs to the number of patterns correctly classified;

[N.sub.T] make reference to the number of the used patterns in the classification;

[N.sub.TP] is the number of true positives;

[N.sub.FP] is the number of false positives;

[N.sub.TN] express the number of true negatives; and

[N.sub.FN] the number of false negative.

We calculated these performance measures for each validation used in all the cases proposed.

III. Experimental Results

The results obtained throughout this research allows us to perform an analysis and approach toward a high-performance athlete, following the identification of main features and the athlete classification. The data to be analyzed corresponds to a total of 76 athletes, which was divided into two groups. The first group be owned by the training set of the algorithms, with a total of 54 athletes. While the test set has 22 athletes, these last are the most recent obtained in 2018.

In other words, our training set is equivalent to 71.052%, while the test set is 28.948%. This will allow us to carry out in a feasible way the feature selection and athletes detection. Enabling reliable results from the supervised algorithms and avoiding over-fitting.

By making use of a three-dimensional plane, in Figure 2a we can see the feature set surface provided, while Figure 2b presents to us the feature set surface after pre-processing. This stage works in the sense of removing lineal trend and place all the feature set on the same range, by using of [mu]=0 and v=1.

The original output of athletes classification is depicted in Figure 3, which allows to compare with the output delivered by DT and SVM algorithms, described below, where, as mentioned, a value "1" is assigned to a suitable candidate, -while "-1" corresponds to a non suitable candidate.

A. Results Using DT

DT algorithm obtained a model for the input matrix by using the features established previously and the output matrix corresponding to athletes classification. It made possible to induce a tree, as depicted in Figure 4, which chosen three key features. Beginning from the top node with the rule X5 [greater than or equal to] 0.827944, followed by X4 [greater than or equal to] 0.366235 and finally X6 [greater than or equal to] -0.0302377, which made possible to classify into any 1 of the 4 possible leafs.

This representation establishes different thresholds depending amplitude that would make it possible to identify the eligibility of an athlete. Where was determined a root node X5, in this way if threshold value it is exceeded the athlete is considered suitable, in the case of a candidate not succeeding this value proceed to take of a new decision. The next node for decision making is X4, will no have to go over the threshold value of 0.36, so that the athlete is not discarded, allowing a concatenation with the last feature X6, which could be greater than or equal to -0.03, so that the candidate be suitable. By using all the feature set for a supervised classification provides the following performance measures: A%=86.3636, P%=90, R%=81.8182, S%=90.9091 and BER=0.1364. The output of athletes classification delivered by the algorithm is depicted in Figure 5. Using main features proposed by DT algorithm, we determine that performance parameters and classification, which are the same in the case of use all features.

B. Results Using SVM

RFE algorithm obtained a model for the input matrix by using the features established previously and the output matrix for feature selection. In this sense, the feature selection framework was made based on SVM-RFE algorithms, which identify the key features from the main one toward less important feature, based on the weights of each one. For our case, through the use of this method, we determine three key features (described in Table 2), which are translated in percentage according to X4=70.820%, X6=22.289% and X2=6.891%.

We decided to use in classification algorithms three sets of features, which are the key sets provided by DT, RFE and all features. Furthermore, for classification we use two different kernel in v-SVM algorithm, which are Lineal and Radial Basis Function [RBF] Kernel. The adjustment of parameter v is carried out with a constant variation of 0.01 in the established range for the algorithm, those experimental results are described below. We detail performance measures obtained by using lineal kernel (see Table 3). Figure 6 depicts the output of athletes classification delivered by each algorithm proposed. Figure 6a represents the corresponding athletes classification provided by the v-SVM lineal kernel algorithm, with DT feature set, where v=0.29; Figure 6b shows the output of the algorithm with v=0.18 by using RFE feature set; and Figure 6c define an amount of v=0.24 for all features.

For the RBF kernel case, Table 4 depicts the measures of performance delivered by the algorithm and Figure 7 shows the athlete classification. The features employed in these algorithms are the same used in lineal kernel algorithms. Figure 7a depicts the corresponding athletes classification provided by the v-SVM RBF kernel algorithm by using DT feature set, where 0.96 is the better value of v. Figure 7b shows the output of the algorithm with v=0.11 by using RFE feature set and Figure 6c define an amount of v=0.23 for all features.

It can also seen in Figure 6a, 6b, 7a and 7b, by using the same sets previously mentioned, that there is a noticeable similarity around athletes classification, providing X4 and X6 as common features. Nevertheless, athletes classification can be represented graphically with the use of a three-dimensional plane, enabling identify the separability delivered by the algorithms according to the used kernel, where the axes are assigned as (X4, X5, X6) to (X, Y, Z) and (X2, X4, X6) to (X, Y, Z) respectively. For our better knowledge, Figure 8 depicts the output classification by using lineal and RBF kernel, with DT and RFE sets, where (+) corresponds to a suitable athlete and ([grados]) is a non suitable athlete. This representation makes hard to identify which are the main features and a great difference from one algorithm to another can't be observed. Figure 8a and 8b depict the corresponding athletes classification provided by the V-SVM lineal kernel algorithm by using DT and RFE features sets, respectively. Figure 8c and 8d show the output of the algorithm in a three dimensional plane by using DT and RFE feature set.

IV. Discussion and Conclusions

In this paper we have proposed a detection of sports talents by using machine learning theory oriented toward Tae Kwon Do. First, a novel yet straightforward method has offered for feature selection and classifiers for an objective and impartial selection of athletes, which has been solved by using embedded and wrapper methods associated to DT and SVM algorithms. The analyzed scenario corresponds to the last years data corresponding to athletes from the Ecuadorian Tae Kwon Do National Team. Second, we supplied the managers with additional information about the most relevant features to be taken into account, for this purpose, the features of athletes were measured up, giving a clearer view of which is the most critical of them on a new systematic and easyto-handle representation with the coaches. Features analysis has been allowed to detect the best candidates and identify features will be the essential item to work on it. The use of supervised algorithms makes this support system more than an athlete classification tool and is solidly based on the analysis of well-defined features. The application of these two cases of study (different theory of ML) highlights the practical convenience and usability of this approach. In our results, the analysis of feature selection showing a reduction to the half of these in both cases. It is possible identify two common features delivered by the algorithms, which are X6 and X4. For the DT algorithm, the performance measures are: A%=86.3636, P%=90, R%=81.8182, S%=90.9091 and BER=0.1364. Through the use of V-SVM algorithm with lineal kernel, we identify the best case, which uses V=0.29 and key feature set delivered by DT, providing the same performance measures of DT algorithm, however, it outputs a different classification. Furthermore, for the best case of V-SVM algorithm by using RBF kernel, we obtain a value of V=0.23 and using all features set; it provides the next performance measures: A%=90.9091, P% = 100, R%=81.8182, S% = 100 and BER=0.0909. Thus, the best algorithm for athletes classification in our case is associated to V-SVM with RBF kernel, which outputs a high-performance measures. We are able to concluded that the proposed novel support system can be useful to determine the suitable athletes for the next competitions in this sport, while giving a robust and operative overview of features for athletes selection management purposes. Finally, though our formulation, it is suitable for Tae Kwon Do athletes, but it could also be useful in other combat or martial arts.

Acknowledgement

The authors gratefully acknowledge the contribution of the Universidad de las Fuerzas Armadas [ESPE] for the economical support for the development of this project under Research Grants 2013-PIT-014 and 2016-EXT-038.ST

doi:10.18046/syt.v16i47.3213

Received / Recepcion: September 11, 2018--Accepted / Aceptacion: September 30, 2018

References / Referencias

Alderson, J. (2015). A markerless motion capture technique for sport performance analysis and injury prevention: Toward a 'big data', machine learning future. Journal of Science and Medicine in Sport, 19(3), e79. doi: 10.1016/j.jsams.2015.12.192

Badr, H., Abdelkarim, M., Hanane, E., & Mohammed, E. (2014). A comparative study of decision tree ID3 and C4.5. International Journal of Advanced Computer Science and Applications, 2014. doi: 10.14569/SpecialIssue.2014.040203

Blum, A. L., & Langley, P. (1997). Selection of relevant features and examples in machine learning. Artificial Intelligence, 97(1), 245-271. doi: https://doi.org/10.1016/S0004-3702(97)00063-5

Brotons, J. (2005). Propuesta de un modelo integral para el proceso de deteccion, seleccion y desarrollo de talentos deportivos a largo plazo. Revista Digital, 10(91). Retrieved from: http://www.efdeportes.com/efd91/selec.htm Guyon, I., Weston, J., Barnhill, S., & Vapnik, V. (2002). Gene selection for cancer classification using support vector machines. Machine learning, 46(1-3), 389-422.

Kong, Y., Wei, Z., & Huang, S. (2018). Automatic analysis of complex athlete techniques in broadcast taekwondo video. Multimedia Tools and Applications, 77(11), 13643-13660. https://doi.org/10.1007/s11042-017-4979-0

Kotsiantis, S. B. (2013). Decision trees: A recent overview. Artificial Intelligence Review, 39(4), 261-283. https://doi.org/10.1007/s10462-011-9272-4.

Kwon, D. Y. (2013). A study on taekwondo training system using hybrid sensing technique. Retos, 16(12), 1439-1445. http://dx.doi.org/10.9717/kmms.2013.16.12.1439

Kwon, D. Y. & Gross, M. (2005). Combining body sensors and visual sensors for motion training. In: Proceedings of the 2005 ACM SIGCHI International Conference on Advances in Computer Entertainment Technology, (pp. 94-101). New York, NY: ACM. http://doi.acm.org/10.1145/1178477.1178490

Langley, P. (1994). Selection of relevant features in machine learning. In: Proceedings of the AAAI Fall Symposium on Relevance (pp. 140-144). AAAI.

Lara, R. (2015). Real-time volcanic monitoring using wireless sensor networks [doctoral dissertation). Universidad Rey Juan Carlos: Madrid, Espana.

Liu, C., Wang, W., Zhao, Q., Shen, X., & Konan, M. (2017). A new feature selection method based on a validity index of feature subset. Pattern Recognition Letters, 92(C), 1-8. doi: 10.1016/j.patrec.2017.03.018

Muscolo, G. G., & Recchiuto, C. T. (2016, September). T.P.T. a novel taekwondo personal trainer robot. Robot Auton. Syst., 83(C), 150-157. http://dx.doi.org/10.1016/j.robot.2016.05.009

Parikh, K. S., & Shah, T. P. (2016). Support vector machine--a large margin classifier to diagnose skin illnesses. Procedia Technology, 23, 369-375.

Scholkopf, B., & Smola, A. (2002). Learning with kernels. Cambridge, MA: MIT

Shi, L., Duan, Q., Ma, X., & Weng, M. (2012). The research of support vector machine in agricultural data classification. In: D. Li & Y. Chen (Eds.), Computer and Computing Technologies in Agriculture (pp. 265-269). Berlin- Heidelberg, Germany: Springer.

Suto, J., Oniga, S., & Sitar, P. P. (2016, May). Comparison of wrapper and filter feature selection algorithms on human activity recognition. In: 2016 6th International Conference on Computers Communications and Control (ICCCC), (pp. 124- 129). doi: 10.1109/ICCCC.2016.7496749

Trejo, O. & Mirama, V. (2018). Machine learning algorithms for inter-cell interference coordination. Sistemas & Telematica, 16(46), 37-57. doi:10.18046/syt.v16i46.3034

Urcuqui, C. & Navarro, A. (2016). Framework for malware analysis in Android. Sistemas & Telematica, 14(37), 45-56. https://doi.org/10.18046/syt.v14i37.2241

Valero, C. (2017). Aplicacion de metodos de aprendizaje automatico en el analisis y la prediccion de resultados deportivos. Retos, 34, 377-382.

Vergara, J., Martinez, M. C., & Caicedo, O. (2017). A benchmarking of the efficiency of supervised ML algorithms in the NFV traffic classification. Sistemas & Telematica, 15(42), 47-67. doi:10.18046/syt.v15i42.2539

Zelic, I., Kononenko, I., Lavrac, N., & Vuga, V. (1997). Induction of decision trees and bayesian classification applied to diagnosis of sport injuries. Journal of Medical Systems, 21(6), 429-444. https://doi.org/10.1023/A:1022880431298

Zhang, Y. (2012). Support vector machine classification algorithm and its application. In C. Liu, L. Wang, & A. Yang (Eds.), Information Computing and Applications, (pp. 179-186). Berlin-Heidelberg, Germany: Springer.

Zhong, M., Hung, J., Yang, Y., & Huang, C. (2016). GA-SVM classifying method applied to dynamic evaluation of taekwondo. In: 2016 International Conference on Advanced Materials for Science and Engineering (ICAMSE), (pp. 534-537). doi: 10.1109/ICAMSE.2016.7840191

CURRICULUM VITAE

Roman Alcides Lara Cueva Ph.D Engineer in Electronics and Telecommunications from the Escuela Nacional Politecnica (Quito-Ecuador, 2001); Master in Wireless Systems and Related Technologies from the Politecnico di Torino (Italy, 2005); Master and PhD., in Telecommunication Networks for Developing Countries from the Universidad Rey Juan Carlos (Madrid-Espana, 2010/2015). He joined the Department of Electrical Engineering of the Universidad de las Fuerzas Armadas [ESPE] (Sangolqui-Ecuador) in 2002 and is a full professor since 2005. He has participated in more than ten research projects developed with public funds (five of them as main researcher). His main areas of interests are: digital signal processing, smart cities, wireless systems and automatic learning theory/Ph.D. en Ingenieria Electronica y Telecomunicaciones de la Escuela Nacional Politecnica (Quito-Ecuador, 2001); Magister en Sistemas Inalambricos y Tecnologias Relacionadas del Politecnico di Torino (Italia, 2005); Magister y Ph.D. en Redes de Telecomunicaciones para Paises en Desarrollo de la Universidad Rey Juan Carlos (Madrid-Espana, 2010/2015). Se unio al Departamento de Ingenieria Electrica de la Universidad de las Fuerzas Armadas [ESPE] (Sangolqui, Ecuador) en 2002 y es profesor de tiempo completo de dicha institucion desde 2005. Ha participado en mas de diez proyectos de investigacion desarrollados con fondos publicos (cinco de ellos como investigador principal). Sus areas de interes son: procesamiento digital de senales, ciudades inteligentes, sistemas inalambricos y teoria de aprendizaje automatico..

Alexis Dario Estevez Salazar Candidate to Engineer in Electronics and Telecommunications at the Universidad de las Fuerzas Armadas [ESPE] (Sangolqui-Ecuador). In 2017 he joined to the Sistemas Inteligentes research group as assistant researcher. He completed the Cisco Certified Network Associate Fast Track courses and is candidate to CISCO certification. Actually is black belt-first dan- in Tae Kwon Do and coach of formative schools in this sport. His main areas of interest in research are machine learning and design of low cost technology related to sports / Candidato a Ingeniero en Electronica y Telecomunicaciones en la Universidad de las Fuerzas Armadas [ESPE] (Sangolqui, Ecuador). En 2017 se unio al grupo de Sistemas Inteligentes como investigador asistente. Completo el curso de Cisco Certified Network Associate y es candidato a dicha certificacion. Es cinturon negro en Tae Kwon Do y entrenador de escuelas formativas en este deporte. Sus areas de interes son el aprendizaje de maquina y el diseno de tecnologias de bajo costo relacionadas ese deporte.

Roman Alcides Lara Cueva / ralara@espe.edu.ec

Alexis Dario Estevez Salazar / adestevez1@espe.edu.ec

Universidad de las Fuerzas Armadas, Sangolqui-Ecuador

Leyenda: Figure 1. Block diagram for the proposed system Diagrama de bloques para el sistema propuesto

Leyenda: Figure 2. Surface representation of feature set: original (a) and re-processing (b) / Representacion superficial del set de caractaristicas: original (a) y pre-procesado (b)

Leyenda: Figure 3. Original output of athletes classification Salida original de la clasificacion de los atletas

Leyenda: Figure 4. Tree representation considering main features, by using DT algorithm / Representacion de arbol considerando las caracteristicas principales al utilizar el algoritmo DT

Leyenda: Figure 5. DT output of athletes classification Salida del algoritmo DT para la clasificacion de los atletas

Leyenda: Figure 6. The output of athletes classification by using v-SVM lineal kernel algorithm with: DT feature set (a); RFE feature set (b); and all features (c) / Salida de la clasificacion de los atletas al utilizar el algoritmo de kernel lineal v-SVMcon: set de caracteristicas DT (a);set de caracteristicas RFE (b);y todas las caracteristicas (c)

Leyenda: Figure 7. The output of athletes classification by using v-SVM RBF kernel algorithm with: DT feature set (a); RFE feature set (b); and all features (c) / Salida de la clasificacion de los atletas al utilizar el algoritmo de kernel v-SVM RBF con: set de caracteristicas DT (a);set de caracteristicas RFE (b); y todas las caracteristicas (c)

Leyenda: Figure 8. Figure 8. The output of athletes classification in a three-dimensional plane by using v-SVM corresponds to: DT feature set with Lineal kernel (a); RFE feature set with Lineal kernel (b); DT feature set with RBF kernel (c); and RFE feature set with RBF kernel (d) / Salida de la clasificacion de los atletas en un plano tridimensional utilizando v-SVM en: un set de caracteristicas DT con kernellineal (a);un set de caracteristicas RFE con kernellineal (b);set de caracteristicas DT con kernelRBF (c); y set de caracteristicas RFE con kernelRFE (d)
Table 1. Relation between weight, age and gender to category
Relacion peso, edad y genero--categoria

Age (years)      Male (weight)   Female (weigh)   Category

Cadets (12-14)   Even 33         Even 29          Fin
                 33-37           29-33            Fly
                 37-41           33-37            Bantam
                 41-45           37-41            Feather
                 45-49           41-44            Light
                 49-53           44-47            Welter
                 53-57           47-51            Light middle
                 57-61           51-55            Middle
                 61-65           55-59            Light heavy
                 Over 65         Over 59          Heavy
Junior (15-17)   Even 45         Even 42          Fin
                 45-48           42-44            Fly
                 48-51           44-46            Bantam
                 51-55           46-49            Feather
                 55-59           49-52            Light
                 59-63           52-55            Welter
                 63-68           55-59            Light middle
                 68-73           59-63            Middle
                 73-78           63-68            Light heavy
                 Over 78         Over 68          Heavy
Senior (17+)     Even 54         Even 46          Fin
                 54-58           46-49            Fly
                 58-63           49-53            Bantam
                 63-68           53-57            Feather
                 68-74           57-62            Light
                 74-80           62-67            Welter
                 80-87           67-73            Middle
                 Over 87         Over 73          Heavy

Table 2. Main features delivered by using SVM-RFE algorithm
Caracteristicas principales entregadas por el algoritmo SVM-RFE

Feature   Weight

X4        21,460
X6        6,754
X2        2,088

Table 3. Performance measures by using
v-SVM lineal kernel and different features sets / Medidas de
desempeno al usar el kernel lineal v-SVM lineal y distintos
sets de caracteristicas

v      Feature set   A (%)    P (%)     R (%)    S (%)    BER

0,29   X4, X5, X6    86,363   90        81,818   90,909   0,136
0,18   X4, X6, X2    81,818   81,818    81,818   81,818   0,181
0,24   X1... X6      77,272   75        81,818   72,727   0,227

Table 4. Performance measures by using v-SVM RBF kernel and
different features sets / Medidas de desempeno utilizando el kernel
v-SVMRBFy diferentes sets de caracteristicas

v      Feature set   A (%)    P (%)    R (%)    S (%)    BER

0,29   X4, X5, X6    86,363   90       81,818   90,909   0,136
0,18   X4, X6, X2    81,818   81,818   81,818   81,818   0,181
0,24   X1 ... X6     77,272   75       81,818   72,727   0,227
COPYRIGHT 2018 Universidad ICESI
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2018 Gale, Cengage Learning. All rights reserved.

Article Details
Printer friendly Cite/link Email Feedback
Title Annotation:Articulo original
Author:Lara Cueva, Roman Alcides; Estevez Salazar, Alexis Dario
Publication:Sistemas & Telematica
Date:Oct 1, 2018
Words:10415
Previous Article:Tecnicas de autenticacion basadas en tokens en plataformas de codigo abierto en la nube.
Next Article:Sistema de procesamiento de imagenes multiespectrales aereas para agricultura de precision.
Topics:

Terms of use | Privacy policy | Copyright © 2019 Farlex, Inc. | Feedback | For webmasters