1) La descarga del recurso depende de la página de origen
2) Para poder descargar el recurso, es necesario ser usuario registrado en Universia


Opción 1: Descargar recurso

Detalles del recurso

Descripción

El objetivo del TFG es la aplicación de técnicas de análisis clúster, kmeans y SOM, al análisis de datos micro sobre accidentes de tráfico en España en el periodo entre 2004 y 2013. El TFG se enmarca dentro de las investigaciones de la tesis doctoral de una codirectora, Almudena Sanjurjo de No, sobre estimación de la movilidad de transporte por carretera en España, a través del llamado método de exposición cuasi inducida, que permite obtener proporciones relativas de km recorridos por distintos colectivos de conductores, ej. varones entre 18 y 25 años. La determinación de la exposición es clave como denominador del riesgo de accidentes y es uno de los desafíos más importantes en investigación actual de accidentes de tráfico, para poder estudiar la evolución de la siniestralidad. Los accidentes de tráfico representan hoy en día un problema de alto impacto social y económico y son una de las mayores preocupaciones en las sociedades modernas. Ha habido una fuerte reducción de la siniestralidad durante la última década pero esta reducción se ha interrumpido en los dos últimos años. El pequeño repunte de la siniestralidad este último año no tiene por qué deberse a peores campañas de prevención o a una mayor imprudencia de los conductores si no a una mayor exposición; de aquí la importancia de estimar correctamente la exposición a la hora de evaluar el éxito de la administraciones en la lucha contra los accidentes. Las técnicas de análisis no supervisado tipo clúster permiten identificar patrones de accidentalidad de los conductores que pueden ayudar a asignar responsabilidades (culpabilidad o no) de aquellos involucrados en el accidente. La idea de la exposición cuasi inducida es que los conductores no culpables en los accidentes constituyen una muestra aleatoria razonablemente representativa de los diferentes colectivos; por ejemplo, si existen 1000 conductores varones no culpables del segmento 18-25 años y 500 conductores mujeres, esto indicaría que los varones de esa edad recorren el doble de km que las mujeres. La DGT dispone de una base de datos de accidentes de tráfico en España de forma que cada registro corresponde un conductor de los involucrados en el accidente (podría ser también el único) del que se dan los valores de 111 variables; para este estudio se ha filtrado la base escogiendo sólo los registros de accidentes con 2 turismos involucrados y solo 6 de estas 111 variables. Estas variables ha habido que modificarlas de forma que puedan ser utilizadas por los algoritmos para el análisis clúster. Las 6 variables seleccionadas son infracción del conductor, infracción de velocidad, defecto físico del conductor, condición psicofísica del conductor, infracción administrativa y estado del vehículo. Al no disponer de la variable respuesta (culpabilidad o no) se trata de un análisis no supervisado como es el clúster. Se estudia como las variables de entrada que condicionan la culpabilidad se agrupan “por si solas” en clusters o conglomerados, que se piensa pueden corresponder a patrones de culpabilidad nítida o difusa. La primera técnica de análisis que se ha utilizado es k-means. El objetivo de este algoritmo es encontrar grupos en los datos, con el número de grupos representado por la variable k. Este algoritmo trabaja de forma iterativa asignando cada dato a uno de los k grupos o clusters, basándose en la distancia de cada dato al centro del grupo. K-means es uno de los algoritmos más simples y más utilizados que resuelven el problema de clustering. La siguiente técnica que se usará es el mapa auto organizado o SOM, es otra herramienta de análisis clúster cuyo objetivo es representar conjuntos de datos multidimensionales en un espacio de dimensiones mucho más reducidas, normalmente en un plano de 2 dimensiones. Esta reducción de dimensiones se realiza conservando la topología inicial del espacio de los datos, por lo que accidentes con características similares (vectores de variables próximos) aparecerán en el mismo nodo (clúster) del SOM o en nodos vecinos, mientras que los accidentes que sean muy distintos (vectores de variables alejados) suelen aparecer en nodos muy alejados. Para la realización de los análisis k-means y SOM se han utilizado las librerías del Software R, un entorno y lenguaje de programación de código abierto con enfoque al análisis estadístico. Antes de aplicar k-means hay que determinar el número K de clusters en que se quiere que el algoritmo agrupe los datos de entrada, para esto se ha comparado la suma de la distancia de los datos a cada centro de clúster para casos de 2 a 15 clusters, teniendo en cuenta esto y la finalidad para la que se está usando este algoritmo (identificar grupos de potencialmente culpables o no culpables) se aplica el algoritmo de kmeans utilizando de 2 a 8 clusters y se estudian sus resultados. Entre los resultados que proporciona k-means se encuentran las coordenadas de los 8 clusters que ha agrupado. Estas coordenadas nos ayudan a identificar el tipo de conductores que ha sido asignado a cada clúster. Analizando estos resultados se observa que la variable más importante a la hora de agrupar los datos es la de infracción de conductor, los conductores se asignan a unos grupos u otros según hayan cometido o no esta infracción. Esta será la variable más determinante a la hora de asignar culpabilidad en el accidente, hasta el punto de que solo el hecho de haber cometido dicha infracción puede ser indicativo de culpabilidad. No obstante se ha observado que tienen bastante importancia también las variables de infracción de velocidad y condición psicofísica en el agrupamiento. Hay otras variables como la de estado del vehículo que no influye nada en el agrupamiento y por tanto no servirá para determinar la responsabilidad del accidente. Para aplicar SOM no es necesario determinar un número de clusters a priori pero sí que hace falta determinar el número de nodos (las dimensiones del mapa) que son el equivalente a los clusters de k-means. Teniendo en cuenta la distribución de los datos por el mapa (que no haya muchos nodos vacíos y los datos se distribuyan lo más equitativamente posible) se ha concluido que la mejor opción es la de utilizar un mapa de 5x5 nodos. En el mapa SOM se representan cada uno de los nodos cada uno con un vector de pesos asignado, cada conductor se colocará en el nodo del mapa que tenga el vector de pesos más similar a su vector de variables. En el mapa obtenido se observa como la variable infracción del conductor divide claramente el mapa en dos zonas, zona con conductores que han cometido dicha infracción (potencialmente culpables) y zona en la que no (potencialmente inocentes o inocencia difusa). También se observan zonas de tamaño relevante para las variables infracción de velocidad, condición psicofísica e infracción administrativa que servirán para determinar si se trata de casos de culpabilidad/inocencia clara o difusa. El resto de variables apenas aparecen en el mapa o están muy dispersas, como la variable estado que solo aparece en un nodo de los veinticinco, por tanto no contribuye en la clasificación de los conductores. Ambas técnicas han proporcionado resultados muy similares, lo cual no es de extrañar debido al similar funcionamiento de los algoritmos. En general se ha concluido que la variable con más importancia y la que más contribuye a clasificar los datos es la de infracción de conductor. No obstante con este trabajo también se demuestra la importancia de otras variables a la hora de determinar la responsabilidad como son las de infracción de velocidad o la condición psicofísica. Esta información podría ser útil para ayudar a clasificar casos dudosos y aporta información adicional acerca de la asignación de responsabilidad. También se han identificado variables que presentan muy poca o nula relevancia como las de estado del vehículo y defecto físico del conductor, que se podrán desestimar en futuros análisis. Por tanto, se ha demostrado la importancia de la evaluación exhaustiva de las variables que intervienen sobre la responsabilidad de un conductor ya que afecta en la estimación de la exposición relativa y por ello en el cálculo del nivel de riesgo de diferentes colectivos de conductores.

Pertenece a

Archivo Digital UPM  

Autor(es)

Garrido Agenjo, Óscar Arturo - 

Id.: 70131729

Idioma: spa  - 

Versión: 1.0

Estado: Final

Tipo:  application/pdf - 

Palabras claveIngeniería Industrial - 

Tipo de recurso: info:eu-repo/semantics/bachelorThesis  -  Proyecto Fin de Carrera/Grado  -  PeerReviewed  - 

Tipo de Interactividad: Expositivo

Nivel de Interactividad: muy bajo

Audiencia: Estudiante  -  Profesor  -  Autor  - 

Estructura: Atomic

Coste: no

Copyright: sí

: http://creativecommons.org/licenses/by-nc-nd/3.0/es/

Formatos:  application/pdf - 

Requerimientos técnicos:  Browser: Any - 

Relación: [References] http://oa.upm.es/48075/1/TFG_OSCAR_ARTURO_GARRIDO_AGENJO.pdf

Fecha de contribución: 12-oct-2017

Contacto:

Localización:

Otros recursos que te pueden interesar

  1. Modelo colisional radiativo de átomo medio basado en un modelo atómico apantallado relativista El propósito general de esta tesis doctoral será describir en detalle los cálculos de propiedades de...
  2. Sistema ciberfísico de monitorización de la temperatura del pavimento. Diseño e implementación Hoy en día, la preservación, el mantenimiento, la rehabilitación y la mejora de la red de carreteras...
  3. Sistema de gestión de calidad en una planta de producción de ácido nítrico Elaboración de un SGC para una organización productora de ácido nítrico 60%w, para ello se han cumpl...
  4. Sistemas ciberfísicos basados en métodos de inteligencia computacional para la monitorización de procesos de fabricación. Estado actual y líneas futuras. El paradigma de los sistemas ciberfísicos tiene en los desafíos de la Industria 4.0 uno de los casos...
  5. Estudios atomísticos de la respuesta a la irradiación de materiales ópticos con aplicación en plantas de fusión nuclear Esta tesis presenta un modelo atomístico basado en dinámica molecular clásica validado con datos exp...

Otros recursos de la mismacolección

  1. Eliminación de soportes en estructuras de edificación El patrimonio histórico en materia de edificación es muy amplio y se encuentra en continuo crecimien...
  2. Modelado en Simulink de la sincronización en un receptor DVB-H En los últimos años, con cada nueva evolución de las redes de transmisión de datos móviles (GPRS, 3G...
  3. Desarrollo de un modelo de simulación de centrales de ciclo combinado y optimización para diferentes niveles de presión Se han desarrollado una serie de programas que permiten simular distintas configuraciones de Central...
  4. Análisis de la variabilidad de algunos parámetros geotécnicos de suelos Este trabajo trata sobre el análisis estadístico de algunos parámetros geotécnicos en suelos. El pri...
  5. Aplicación de refractarios de microsílice en un horno de fusión de reciclado de aluminio Debido a la importancia para la industria metalúrgica del ahorro de energía y la reducción de costes...

Aviso de cookies: Usamos cookies propias y de terceros para mejorar nuestros servicios, para análisis estadístico y para mostrarle publicidad. Si continua navegando consideramos que acepta su uso en los términos establecidos en la Política de cookies.