Ciclo de charlas Minería de Datos 2010

Jornadas de charlas realizadas los días jueves 11 y 18 de noviembre de 2010 por alumnos de la cátedra.

Minería Web

Web Mining: Una Introducción Práctica Expositores: Augusto Franzoia, Lisandro Videla, Nicolas Mijoch, Pablo Botta El crecimiento desmedido de la información que se encuentra contenida en la World Wide Web ha sido exponencial debido a la necesidad de los usuarios que la navegan de contar con datos e información para la utilización en su vida diaria en el mundo globalizado. Esta situación trajo aparejada el aumento en la dificultad de encontrar información relevante en los sitios extendidos en la web, la necesidad de los usuarios de ajustar la información obtenida a sus objetivos y requerimientos, y que los sitios proveedores de información se vieron “obligados” a generar nuevos conocimiento a partir de la información heterogénea almacenada en la Web. Para lidiar contra todos estos inconvenientes apareció como una nueva rama de estudio y análisis la Minería de la Web, la cual es la aplicación de técnicas de minería de datos a los contenidos y la estructura de la web, para poder obtener un valor agregado sobre la información almacenada en su contenido, en su estructura y en el uso de la misma. Su meta global es la de ofrecer al usuario final un producto de mayor calidad que los separe de sus otros competidores. Finalmente el objetivo de este trabajo es introducir a los lectores a los conceptos de la minería web desde un plano de aplicación práctica, en el cual trataremos de describir cada noción de la temática con ejemplos reales de la web para de esta manera clarificar mejor cada una de ellas. También buscaremos separar estos conceptos en las distintas taxonomía en las cuales se separan hoy los estudios sobre minería, de manera que el lector pueda, al finalizar este material, identificar a que rama de la Minería Web pertenecería cada uso de la misma, a medida que realice su recorrido por la red de redes, pudiendo determinar el enfoque necesario para analizar cada uno de los casos. Minería web: casos de aplicación Expositores: Ahumada Ezequiel, Bonifetto Dante, Girolami, Lucas, Noé Matias, Valdamarín Damián. La presentación va a consistir en presentar ejemplos reales de los distintos usos de la minería web. Se va a enfocar la charla desde distintos rubros, los cuales son: Marketing. RRHH. Administración de Ventas. Gestión financiera en negocios. IT. Servicio al Cliente. Sobre algunos temas se van a mostrar ejemplos en vivo mediante el uso de internet, esto es para hacer más dinámica la presentación, y mostrar su uso en tiempo real, permitiendo que la audiencia pueda participar. Minería en la Web. Expositores: Castellarin Pablo, Del Médico Pablo, Pecovich Luciano La idea de la presentación es dar un concepto general de la Minería Web y sus características especificas, presentar los tres tipos que ésta incluye dando conceptos generales, fuentes de datos utilizadas, las técnicas y métodos de aplicación específica, y los ámbitos donde se aplican. Luego presentaremos 2 aplicaciones, una de Minería de Contenido Web y otra de Minería de Uso Web. Minería del uso web Expositores: Carabantes Iván, Montenegro Matías, Settecasi José El trabajo realizado sobre MW se centra en la rama que estudia el uso de la misma. Primeramente se realiza una introducción sobre el data mining en general para luego ver su aplicación en la red. Se explica brevemente el proceso de MW en general con sus etapas y se nombran algunas aplicaciones de la misma. Luego se interioriza en el Web Usage Mining explicando en que consiste y las técnicas de exploración de datos mas importantes ( clustering, reglas de asociación, etc), citando ejemplos que se obtienen con cada una de ellas. Como todos los algoritmos se aplican a la información registrada en los logs del servidor, se explica brevemente el formato, la información que estos contienen y las principales limitaciones de los mismos. Se plantea un caso práctico en el que se analizan las visitas realizadas en un día en particular del mes de Noviembre a un sitio perteneciente a un establecimiento educativo. Se explica el proceso de recolección de datos en logs, la preparación de los mismos mediante la herramienta open source WUMprep, luego su transformación al formato ARFF soportado por el programa de minería WEKA.

Minería de datos en redes sociales

Minería de Datos en Estructura de Red Expositores: Cascardo, López ,Mattaruco, Santinello Este trabajo, de fines exclusivamente académicos, tiene como principal objetivo la aplicación de diversas técnicas de minería de datos en estructura de Red. Para ello, se ha tomado como línea integradora la evaluación de un mercado potencial de consumidores de una empresa, representados por usuarios de Facebook, en términos de características demográficas (sexo, edad y ciudad) así como gustos e intereses (música, televisión, películas, actividades y libros). El proyecto desarrollado abarca las distintas etapas de extracción, limpieza, análisis exploratorio y aplicación de procesos concretos de minería, que permiten la transformación de datos en información útil. Debido a su fuerte relación con el proyecto, se incluyen además como temas secundarios asuntos sobre seguridad y privacidad de los datos personales pertenecientes a los usuarios de esta red.

Minería de datos en el deporte

Aplicaciones del Data Mining en los Deportes Expositores: Güaita José Ignacio, López Pablo E. En este trabajo realizado para la cátedra de Sistemas de Gestión II, se abordará una de las disciplinas más interesantes en el ámbito de Inteligencia de Negocios: la Minería de Datos. Más específicamente, nos centraremos en las utilidades que se le da en el mundo del deporte, casos reales, y también en soluciones software específicas. El Data Mining surgió en respuesta a la necesidad de las empresas de analizar extensos montos de datos por medios automáticos o semiautomáticos, con el fin de descubrir información valiosa, tanto operativa como estratégica, para la gestión del negocio. Aunque todavía está viviendo una etapa prematura en el mundo del deporte, esta falta de uso no significa que no sea aplicable o importante, al contrario, es una gran oportunidad para las organizaciones deportivas adaptarla, y beneficiarse de su implementación; esto queda demostrado al analizar los avances logrados en Scouting, Predicciones de Resultados basadas en datos, y en la Medición de Rendimientos. Los casos reales que presentaremos están relacionados con: organizaciones deportivas que han dado forma a sus equipos basándose en estadísticas, dejando de lado el scouting y el conocimiento tradicional; investigadores que han logrado predecir resultados de partidos de fútbol americano más efectivamente que expertos del deporte, mediante la implementación de redes neuronales; autores que han logrado que cualquiera que se lo proponga, mediante el uso de herramientas open-source, logre llevar a cabo análisis muy completos de estadísticas de béisbol, sin previos conocimientos; además, haremos un pequeño viaje por algunos ejemplos de soluciones software enfocadas exclusivamente en deportes, tales como Digital Scout, Advanced Scout, y BBall. Aplicaciones de la Minería de Datos en el Deporte. Expositores: F. Ayala, J. Cracogna, E. Konjuh, G. Paduán, M. Valverde. La minería de datos tiene un potencial considerable dentro de la actividad deportiva, sin embargo, no constituye uno de los campos más explotados ni difundidos en la actualidad Para este trabajo, investigamos acerca de la aplicación de técnicas de data mining sobre distintos aspectos en relación con el mundo deportivo. En la primera parte analizamos una metodología para el descubrimiento de relaciones entre las rutinas físicas de un deportista y su rendimiento físico, haciendo uso de Árboles de Decisión. La segunda parte de nuestro trabajo ofrece una técnica de clasificación de deportistas como “aptos” o “no aptos” para la participación en competencias de alto rendimiento, mediante el empleo de Árboles de Decisión y Naive Bayes. En la tercera parte exponemos un método para el análisis y la clasificación de videos deportivos. Esta sección estudia la aplicación de algoritmos de clasificación para la detección de eventos en videos deportivos. Los resultados de estas aplicaciones se han mostrado prometedores, siendo probable que en el mediano plazo, las organizaciones relacionadas al mundo del deporte inviertan más recursos para el desarrollo de las mismas.

Minería de datos espacial

Aplicaciones de la Minería de Datos Espacial Expositores: Borri Germán, Coletta Laureano, Franco Noelia S., Santuoro Iván, Vallasciani, Fabricio. PRIMERA PARTE: MINERÍA DE DATOS E INTELIGENCIA DE NEGOCIOS ESPACIAL. Es una breve introducción teórica explicando qué es la minería de datos enfocada a lo espacial, para qué sirve y qué diferencia tiene con la minería de datos clásica: la representación en un mapa de la información geográfica. Mención de la diferencia entre los datawarehouses de OLAP común con los datawarehauses espaciales de S-OLAP (Spatial Olap), comentando sobre las dimensiones de espacio que los distinguen y su categorización (geométricas, no geométricas y mixtas). Por último, un rápido comentario sobre 5 algoritmos de minería de datos espacial que se utilizan para agrupar en regiones geográficas los datos del DW: los algoritmos PAM, CLARA, CLARANS y CLARQ. SEGUNDA PARTE: APLICACIONES DE LA MINERÍA DE DATOS ESPACIAL. Comenzamos mostrando capturas de pantalla de varios programas de software que hacen uso de la minería de datos espacial, para poder visualizar la manera en que son dispuestos los resultados en un mapa. Entre ellos: sistema de mapas de turismo inteligente, sistemas de información geográfica agropecuarios, aplicaciones en la planificación urbana y en la meteorología. Finalizaremos con una muestra de software en ejecución para ver dinámicamente los resultados que arrojan. Mostraremos el sistema EpiScanGIS, que muestra la distribución de los brotes de meningococos en Alemania; y los resultados espaciales de Google Insights. Ambos programas son accesibles sólo por web, por lo tanto, si no contáramos con conexión a Internet en el lugar de la presentación, mostraremos un video de los mismos. Minería de datos espaciales Expositores: Angeloni Fabián, Arrighi Lucas, Ginex Ivan, Oviedo David, Santos Ivan. La información se ha convertido en un elemento clave en los procesos organizacionales. En los últimos años, la tecnología ha tenido un crecimiento acelerado como herramienta útil y necesaria para facilitar dichos procesos y mejorar la productividad. La inteligencia de negocio se ha definido como la transformación de datos en conocimiento, a fin de sustentar la toma de decisiones desde el punto de vista estratégico y táctico en el momento y lugar oportuno y de generar una ventaja competitiva y de efectividad. La minería de datos se ha venido adaptando dentro de las empresas con el fin de realizar exploración y análisis de datos enfocados en el descubrimiento del conocimiento. Dada la importancia que la información espacial está tomando, surge la minería de datos espacial, la cual logra integrar los datos de tipo geográfico dentro del análisis, y así obtener una información precisa y efectiva para la corporación, bajo el supuesto de que todo ocurre en algún lugar en el espacio y en un momento de tiempo dado. Por lo tanto, caracterizar las dimensiones espacio y tiempo permitirá realizar un análisis y descubrimientos de conocimiento más acertados.

Minería de datos en análisis de delitos

Minería de Datos aplicada al Análisis de Información Criminal Expositores: Botta Hernán, García María Alejandra, Huayra Camargo, Alberto Carlos, Mauri Patricia Natalia. Es sabido que la cantidad y complejidad de los datos que se generan a diario sobre actividad criminal, tanto a nivel nacional como internacional, hacen que las técnicas comúnmente utilizadas con el propósito de extraer información útil y valiosa, tales como la estadística descriptiva básica, se vean superadas y no sean capaces de revelar la totalidad de la información subyacente. En este contexto, el objetivo de este trabajo fue investigar y analizar los distintos programas y herramientas de minería de datos que han sido desarrollados con la finalidad de procesar esos datos y obtener información criminal que colabore en las investigaciones. Se realizó un análisis sobre las técnicas utilizadas por diferentes sistemas a nivel mundial, las herramientas y virtudes que ofrecen así como sus ambientes de aplicación. También se llevó a cabo una investigación acerca de iniciativas y proyectos que se dieron a nivel local, donde la potencialidad de la minería de datos aún no ha sido explotada en su totalidad. Esta investigación permite concluir que las técnicas de minería de datos son herramientas útiles en la identificación de patrones y hechos delictivos, colaborando con las fuerzas de seguridad en la prevención y resolución del crimen.

Minería de datos y medicina

Minería de datos y medicina Expositores: Alonso Melisa, Berrio Matías, Campás Pablo, Rullo Diego Este trabajo introduce el problema actual de la evaluación y control de la información médica, la aplicación de técnicas de Minería de Datos como herramienta fundamental en la explotación de los inmensos volúmenes de información científica recopilada y el nacimiento de la Medicina basada en Evidencia como nuevo paradigma para los profesionales de la Salud. Se detallan los inicios de la aplicación del KDD (Descubrimiento de Conocimiento en Bases de Datos) y diversos usos hasta la fecha así como un breve detalle del proceso de Data Mining y los diferentes resultados provistos por el mismo. Se explican en profundidad dos ejemplos reales que aplican Minería de Datos a dos conjuntos de datos distintos y las conclusiones que se desprenden del proceso. Se presentan dos aplicaciones software de minería de datos y se complementa con los apéndices, los cuales agregan fundamentos teóricos para una mayor comprensión de los ejemplos antes citados.

Minería de datos secuenciales

Minería de Datos Secuenciales Expositores: Chemes Salim, Gallo Marco Antonio, Renz Ivana, Sánchez Raúl Tomas. La minería de datos nos permite la extracción no trivial de información implícita para generar conocimiento. Es posible aplicarla mediante diferentes tecnologías, una de ellas es la detección de patrones secuenciales. Con ellos, se pretende lograr la extracción de patrones frecuentes relacionados con el tiempo u otro tipo de secuencia en un conjunto de datos con el fin de generar valor al proyecto. Este tipo de métodos es muy utilizado en la actualidad. Proponemos hacer una presentación de las principales características, definiciones, entornos y técnicas de aplicación con sus respectivas ventajas y desventajas. Expondremos tres ejemplos de utilización bien definidos: 1. Minería web: Utilización de métodos para identificar patrones secuenciales que aporten valor a la toma de decisiones en función de las decisiones de los usuarios de la web. 2. Minería de datos en diagnostico de accidentes cerebrovasculares agudos ACVAs: Desarrollo de un sistema de soporte a la decisión para el diagnostico de las causas de accidentes cerebrovasculares agudos. 3. Minería de datos en predicción de ventas: Desarrollo de un modelo para predecir las ventas de un producto en un determinado mes, basándose en datos sobre las ventas en meses previos. Mineria de datos Secuenciales Expositores: Acevedo, Bruno, Olmos Este trabajo desarrolla la minería de datos secuenciales abordando el tema primero desde un punto de vista teórico, definiendo conceptos básicos para luego profundizar con ejemplos reales y prácticos. Describimos algunas de las técnicas de Minería de Datos que se utilizan para minar este tipo de datos tan particular (los datos secuenciales), como por ejemplo: reglas de asociación, clustering y patrones de datos contiguos. La minería de datos secuenciales se aplica en problemas de distinta naturaleza, como ser: secuencia de compras de clientes, tratamientos médicos, patrones de llamadas, detección de fraude, etc. Desarrollamos 3 ejemplos concretos en distintas áreas de aplicación: detección de deudas, patrones de llamadas y medicina. El primer ejemplo se trata de la detección de deudas utilizando patrones secuenciales positivos y negativos. En el segundo ejemplo mostramos como se puede determinar que un paciente adquiera un tipo de enfermedad mediante la secuencia de sus síntomas. En el último ejemplo describimos un software de apoyo para la detección de patrones secuenciales en comunicaciones móviles.

Minería de datos en series temporales

Data mining en series temporales. Expositor: Sebastián Leonangeli Dentro de una serie de procesos informatizados, es usual encontrarse con bases de datos repletas de series temporales. Usualmente, estas corresponden a medidas continuas o discretas que siguen un orden no aleatorio y que son capturadas con una frecuencia de muestreo constante dentro de un período cronológico relativamente largo. Estas series aparecen en un rango muy variado de especialidades desde ingeniería, medicina y finanzas, y la habilidad de extraer información útil resulta en muchos casos crucial. Por ejemplo, una correcta predicción de series temporales financieras puede llevarnos a la decisión de comprar o vender determinada acción o bono, o embarcarse o no en un determinado proyecto según la ciclicidad del mercado. El interés que despierta el estudio de las series temporales generalmente se da por dos motivos, el primero es conocer la naturaleza del sistema que genera la secuencia de datos observables, y la segunda es predecir los valores futuros que tomará dicha serie temporal. El objetivo de la presentación es hacer un paralelo entre las técnicas de minería de datos tradicionales con las aplicaciones que pueden tener cuando nos referimos a datos temporales. Data Mining Temporal Expositores: Camerlo, Gimenez, Picco, Puerta, Raies Como ya sabemos, la minería de datos consiste en la extracción no trivial de información que reside de manera implícita en los datos, por lo general se trabaja con grandes volúmenes de estos últimos. La introducción del tiempo en las técnicas de minería proporciona una visión sobre la disposición temporal de los eventos y, así, la posibilidad de sugerir una relación causa-efecto que es pasada por alto cuando se ignora la componente temporal o es tratada como un atributo numérico simple. A partir de estos trabajos surge la Minería de Datos Temporal (MDT), este tipo de minería se focaliza en el Descubrimiento de Patrones y Reglas de asociación temporal entre datos secuenciales, como así también su Clasificación y Agrupamiento. En el presente trabajo se tratan varias de las técnicas mencionadas como así también la de Clustering, Predicción y Búsqueda y Recuperación. Se expondrán varios ejemplos de aplicaciones prácticas que aplican MDT y que se utilizan en campos muy diferentes como la salud, ciencias naturales y del medio ambiente, estudios de mercado y procesos industriales. De estas aplicaciones se incluye un breve análisis de su funcionamiento y del conocimiento que generan como así también varias algunas salidas gráficas generadas por las distintas herramientas.

Minería de datos y su aplicación en las finanzas

Minería de datos en aplicaciones financieras Expositores: Marcelo Mitelman, Marcelo Perretta, Federico Turiella La minería de datos es un mecanismo que consiste en la extracción de información no trivial que se encuentra contenida en los grandes volúmenes de las bases de datos. Esta información, que antes no se conocía, podría ser útil. Existen innumerables casos donde un proceso de minería de datos podría encontrar patrones escondidos que son de gran valor. En particular, entre las aplicaciones financieras se pueden obtener: • patrones de uso fraudulento de tarjetas de crédito. • predicción de las ventas de un producto en determinado periodo de tiempo. • predicción de clientes que contrataran nuevas pólizas de seguros. • conocer qué clientes se pueden consideran rentables las para las compañías aseguradoras y cuáles no. • conocer la evolución de determinada acción en el mercado de valores. • predicción del riesgo de otorgarle créditos a pequeñas empresas. • estudio de la migración de clientes de una operadora de comunicaciones a otra. Así como éstos, hay una gran diversidad de casos de aplicación a gran escala de éste tipo de sistemas que han resultado exitosos. Esto se traduce para las empresas y organismos que los llevaron a cabo en el ahorro y/o ganancia de grandes volúmenes de dinero, se ha conferido una verdadera inteligencia al negocio, pudiendo eventualmente marcar la diferencia entre la supervivencia o desaparición de una empresa. Data Mining aplicado al análisis de mercado Expositores: Franco Leandro, Zapata Martin En muchos casos, las empresas tratan de describir las situaciones históricas con el fin de obtener conclusiones sobre diferentes aspectos de la realidad. Se realizan estudios estadísticos de datos sobre muestras tomadas de una determinada población con el fin de obtener conjeturas respecto dicha población. La Minería de Datos es una herramienta que posibilita la obtención de información previamente desconocida, a partir de una gran cantidad de datos. Este concepto abarca un gran conjunto de técnicas tales como la regresión, árboles de decisión, algoritmos genéticos. En especial cuando se aplica Minería de datos al análisis de mercado normalmente se usan técnicas como regresión, análisis ANOVA, redes neuronales, etc. Algunos sectores en donde se puede aplicar Minería de Datos es en el turismo, análisis y fluctuación de demanda, segmentación de clientes, análisis físicos, entre otros. En la presente investigación mostraremos 3 ejemplos básicos de aplicación y luego dos modelos de regresión más en detalle, junto con algunas gráficas que se utilizan normalmente en el análisis de mercado. Finalmente veremos cómo las conclusiones a las que se arriba con este tipo de estudio pueden utilizarse para obtener una mejor posición en el mercado. Data Mining y Análisis de Mercado Expositor: Javier Gago Cada día, millones de personas llegan a sus empleos presenciales o en línea y durante horas digitan en sus computadores, billones de bytes que registran las transacciones comerciales que reflejan el pulso de las economías del mundo. En un inicio, los datos de las empresas estaban orientados principalmente a alimentar sus sistemas contables, financieros, de inventarios, de producción, de recursos humanos y de ventas. En la medida que los negocios mundiales se hicieron más competitivos y complejos, los datos cada vez cobraron más vida y se convirtieron en información vital para la toma de decisiones de los gerentes. DataMining es una tecnología de soporte para usuario final cuyo objetivo es la extracción de información oculta y predecible de grandes bases de datos. Es una poderosa tecnología que ayuda a las compañías a concentrarse en la información más importante de sus Bases de Información. DataMining y la aplicación de las técnicas de la inteligencia artificial (redes neurales, algoritmos genéticos, lógica fuzzy, etc.) a grandes cantidades de datos permite descubrir relaciones, tendencias y trayectorias ocultas con el propósito de convertir estos resultados en planes de negocios ejecutables. Una aplicación de DataMining en el análisis del mercado, por ejemplo, es implementar un proceso que genere una muy precisa segmentación de los clientes. Una vez que el motor del DataMining ha seleccionado un grupo adecuado de segmentos de clientes de su Data Warehouse, el próximo paso será extrapolar los perfiles de los consumidores. Cada vez que llega un nuevo grupo de clientes se aplica un nuevo conjunto de modelos estadísticos y se corre el programa para comparar contra los segmentos existentes o crear otros nuevos.