El Wisconsin Diagnostic Breast Cancer (WDBC) dataset es un conjunto de datos de características de imagenes de lunares cancerigenos o no.
Este dataset contiene alrededror de 500 muestras de características extraidas de lunares para determinar cancer de piel. El reto es construir un clasificador de que sea capaz de reconocer si el lunar es maligno o benigno
El dataset esta distribuido de la siguiente forma:
data_train.txt contiene el conjunto de entrenamiento formado por 448 muestras
labels_train.txt contiene los labels asociados al conjunto de entrenamiento
data_test.txt contiene el conjunto de test formado por 112 muestras
labels_test.txt contiene los labels asociados al conjunto de test
la base de datos consiste en 30 desriptores extraidos sobre las imagenes de los lunares. Una descripción puede obtenerse en el archivo Info_datacancer.txt
- Crear un algoritmo que tome características de entrada, y retorne la clase a la que pertencen los datos (lunar maligno o lunar benigno).
- Entrenar este algoritmo utilizando los datos de entrenamiento`.
- Medir el desempeño del algoritmo utilizando los datos de test. El desempeño debe ser medido como
score = n_aciertos / n_audios * 100donde n_aciertos es el numero de audios clasificados de forma correcta y n_audios es el numero total de audios en el conjunto de test.
- Esta es una base de datos pequeña, se recomienda el uso de técnicas clasicas de machine learning como arboles de decision o maquinas de soprte vectorial.
Ver procedimiento de ejemplo.
Indica los requerimientos para utilizar el codigo de tu solucion.
Indica el procedimiento que se debe seguir para reproducir tu solucion.
Indica el metodo que utilizaste para solucionar el reto.
Indica el metodo que utilizaste para solucionar el reto.
Para resolver este reto primero has un fork de este repositorio y clona el fork en tu maquina.
git clone https://github.com/{username}/supervised-cancer
cd colomb-ia-emoDBNota: reemplaza {username} con tu nombre de usuario de Github.
- numpy
- jupyter
- scikit-learn
Para iniciar con este reto puedes correr el codigo de Python en Jupyter del archivo supervised-cancer.ipynb. Este código que ayudará a cargar y visualizar los datos.
Para iniciar el código solo hay que prender Jupyter en esta carpeta
jupyter notebook .y abrir el archivo supervised-cancer.ipynb.
Ver Ranking.