Browsing by Author "Opitz, Daniela"
Now showing 1 - 14 of 14
Results Per Page
Sort Options
Publication A data fusion approach with mobile phone data for updating travel survey-based mode split estimates(2023) Graells-Garrido, Eduardo; Opitz, Daniela; Rowe, Francisco; Arriagada, JacquelineUp-to-date information on different modes of travel to monitor transport traffic and evaluate rapid urban transport planning interventions is often lacking. Transport systems typically rely on traditional data sources providing outdated mode-of-travel data due to their data latency, infrequent data collection and high cost. To address this issue, we propose a method that leverages mobile phone data as a cost-effective and rich source of geospatial information to capture current human mobility patterns at unprecedented spatiotemporal resolution. Our approach employs mobile phone application usage traces to infer modes of transportation that are challenging to identify (bikes and ride-hailing/taxi services) based on mobile phone location data. Using data fusion and matrix factorisation techniques, we integrate official data sources (household surveys and census data) with mobile phone application usage data. This integration enables us to reconstruct the official data and create an updated dataset that incorporates insights from digital footprint data from application usage. We illustrate our method using a case study focused on Santiago, Chile successfully inferring four modes of transportation: mass-transit (all public transportation), motorised (cars and similar vehicles), active (pedestrian and cycle trips), and taxi (traditional taxi and ride-hailing services). Our analysis revealed significant changes in transportation patterns between 2012 and 2020. We quantify a reduction in mass-transit usage across municipalities in Santiago, except where metro/rail lines have been more recently introduced, highlighting added resilience to the public transport network of these infrastructure enhancements. Additionally, we evidence an overall increase in motorised transport throughout Santiago, revealing persistent challenges in promoting urban sustainable transportation. Findings also point to a rise in the share of taxi usage, and a drop in active mobility, suggesting a modal shift towards less sustainable modes of travel. We validate our findings comparing our updated estimates with official smart card transaction data. The consistency of findings with expert domain knowledge from the literature and historical transport usage trends further support the robustness of our approach.Item Análisis de Valor de Vida Geográfico (GLV): Evaluación estratégica de zonas comerciales mediante datos transaccionales y sociodemográficos(Universidad del Desarrollo. Facultad de Ingeniería, 2023) Gaete Obreque, Claudio; Soto Rosales, Camila; Opitz, DanielaLa motivación para llevar a cabo esta tesis de magíster radica en la creciente necesidad de comprender y aprovechar eficazmente el potencial económico y comercial de diferentes zonas geográficas. En un mundo donde la toma de decisiones basada en datos se ha convertido en un imperativo, la determinación del “lifetime value” de áreas geográficas específicas se ha convertido en un desafío estratégico fundamental para empresas, gobiernos y emprendedores.Item Análisis del impacto de la densidad y variedad de servicios urbanos en la afluencia de pasajeros en la red de transporte público de la Región Metropolitana(Universidad del Desarrollo. Facultad de Ingeniería, 2023) Guzmán Vargas, Felipe; Vigorena Cortés, Effry; Opitz, DanielaEn este capstone se realizó un análisis del impacto de la densidad y variedad de servicios urbanos en la afluencia de pasajeros en la red de transporte público de la Región Metropolitana. El objetivo fue identificar si los servicios de infraestructura son un factor decisivo para los usuarios de transporte público en un paradero específico. Para ello, se utilizó una extracción y transformación de datos con herramientas de BigData para manejar grandes volúmenes de datos de manera eficiente. Se realizó un Análisis Exploratorio de Datos (EDA) que reveló patrones y tendencias clave, fundamentales para el modelado predictivo, como la distribución geográfica desigual y su relación con diferentes tipos de servicios urbanos. A través de la comparación de distintos modelos de machine learning, se identificó el tipo de modelo que tiene un mejor ajuste a las características asociadas al paradero, como la ubicación geográfica, el tiempo de viaje y otras variables que tienen un impacto decisivo en el número de pasajeros que utilizan un paradero específico. Esto refleja tanto la afluencia de pasajeros como el número de viajes que salen desde ese paradero (demanda). Estos resultados no solo confirman la utilidad de los modelos de machine learning en el análisis del transporte público, sino que también como estos pueden aportar conocimientos esenciales para mejorar la planificación en la gestión de sistemas de transporte urbano que pudiesen lograr una movilidad más eficiente y sostenible en las ciudades.Item Automatización del análisis de imágenes para experimentos de ensayos de herida(Universidad del Desarrollo. Facultad de Ingeniería, 2022-01) Urrejola Barrios, Sebastián Andrés; Opitz, Daniela; Lobos-González, LorenaUn ensayo que aborda el comportamiento tumoral de una célula muy establecido en las ciencias biológicas es el ensayo de migración celular. De este tipo de ensayo uno de los más comunes y simples es el ensayo de migraciones en dos dimensiones, donde lo que se hace es evaluar en el plano eje X como un área no ocupada de células, puede ser repoblada por células que se movilizan. A partir de estos experimentos se obtienen fotografías desde donde se analizan las propiedades migratorias de grupos colectivos de células. Hacer estos análisis de forma manual es una tarea que consume considerables cantidades de tiempo para las personas haciendo estas investigaciones y genera un resultado sujeto al ejecutor. En este trabajo presentamos dos métodos distintos para la automatización de este proceso. El primer método se basa en detección de contornos para así identificar la región libre de células, mientras que el segundo método se basa en detección de texturas pasa clasificar los píxeles de las imágenes. Hasta el momento ejecutando el segundo método se logra procesar imágenes en aproximadamente un 80 % del tiempo que le toma a una persona. En el caso particular del método de detección de texturas, mientras los grupos de imágenes sean similares entre sí en términos del brillo y las gamas de colores que tengan, los resultados de las mediciones de áreas de las heridas serán efectivos y replicables, en donde esta última característica es un aspecto esencial en el proceso de hacer ciencia a nivel mundial.Item Clasificación y Predicción de Enfermedades Cardiovasculares en Adultos utilizando Métodos de Aprendizaje Automático(Universidad del Desarrollo. Facultad de Ingeniería, 2022-01) Eduardo, Inostroza Wachtendorff; Opitz, DanielaLas enfermedades cardiovasculares (ECV) constituyen la principal causa de muerte entre las enfermedades no transmisibles a nivel mundial, y la tendencia del número de afectados es al alza. Los factores de riesgos son múltiples, van desde la predisposición genética, las condiciones del medio ambiente y el lugar de residencia de las personas, hasta sus comportamientos, edad y sexo. Existe evidencia de que estas patologías pueden disminuir si se atienden a tiempo los factores de riesgo, y aquí es donde los métodos de aprendizaje automático adquieren relevancia desde un enfoque preventivo. Esta investigación analiza seis modelos predictivos basados en aprendizaje supervisado, para diagnosticar la presencia de ECV en pacientes. El conjunto datos que vamos a utilizar, corresponde a diversas características pertenecientes a pacientes de la Clínica Cleveland en Ohio. Como conclusión, el modelo de Regresión Logística fue el óptimo, cuyo alto desempeño se manifestó con 91,2% accuracy y un recall del 88%. Se encontró que el sexo del paciente y el dolor de pecho bajo un ejercicio inducido son factores de riesgo que aumentan la probabilidad de que un paciente padezca una ECVItem Clasificación y predicción de tipos de árboles en la reserva Roosevelt usando datos cartográficos(Universidad del Desarrollo. Facultad de Ingeniería, 2022-01) Méndez Miranda, Alejandro Andrés; Opitz, DanielaDebido a las restricciones en reservas naturales es complejo realizar el estudio de estas. En este trabajo presentamos distintos modelos de machine learning para predecir el tipo de cobertura de ´arbol utilizando el dataset Forest Cover Type, de la Roosevelt National Forest en Colorado. Este set de datos contiene 581.012 observaciones, 54 atributos con informaci´on cartogr´afica y 7 categor´ıas de ´arboles a predecir, cada instancia corresponde a un ´area de 30x30m donde la categor´ıa tenga predominancia. Para realizar las predicciones se utilizaron dos modelos de machine learning: Random Forest y LightGBM, Se experiment´o utilizando la funci´on de p´erdida Focal Loss y adicionando informaci´on sint´etica de las categor´ıas minoritarias utilizando redes CTGAN. Con este ´ultimo enfoque se alcanz´o un valor para la m´etrica F1 de 0.943 y accuracy de 0.966. Un an´alisis de la interpretabilidad del modelo revel´o uno de los atributos m´as importantes para predecir la cobertura de arboles es la Elevaci´on, Distancia horizontal a carreteras y Distancia horizontal a puntos de incendiosItem Deep Learning para caracterizar la innovación en Chile: uso de redes neuronales para clasificación de proyectos de innovación de CORFO(Universidad del Desarrollo. Facultad de Ingeniería, 2022) Ortega Vega, Fabián Alexis; Opitz, Daniela; Fontecilla, TomásVarios autores mencionan la innovación tecnológica como uno de los principales motores del crecimiento económico de largo plazo, por este motivo es importante contar con información acerca del estado de la innovación en Chile. En este punto, CORFO tiene un rol relevante al ser parte fundamental del sistema de ciencia y tecnología e innovación y ser la agencia que concentra los fondos públicos que financian iniciativas de este tipo. El problema recae en que la información de los proyectos que postulan a los concursos de financiamiento público vienen en forma no estructurada a través de un formulario de postulación y en formato de texto libre, lo que hace costoso poder obtener información o realizar análisis debido al gran volumen de datos. En este trabajo se plantea hacer uso de técnicas de procesamiento de lenguaje natural (NLP) y deep learning para abordar de manera automática esta tarea y tener información para caracterizar los proyectos de innovación que postulan a CORFO. Para esto, se busca clasificar proyectos por su mercado de llegada de la innovación, por su tipo (producto, proceso o servicio) y por último, identificar si los proyectos contienen componentes de sostenibilidad. Para esto se construyó dos tipos de modelos, el primero utiliza Word2Vec más una red neuronal convolucional (CNN) que cumple un rol de línea base. Y un segundo modelo, que utiliza técnicas del estado del arte en NLP y está basado en una red neuronal Transformers del tipo representación de codificador bidireccional de Transformers (BERT) pre entrenada en español (BETO). Este modelo supera en desempeño a Word2Vec + CNN, alcanzando un accuracy del 70% para la clasificación del mercado de llegada, 73% para el tipo de innovación, y un accuracy de 80% para clasificar proyectos por componente sostenible. Finalmente, se utilizan estos modelos para caracterizar los proyectos postulados entre 2019 y primer semestre de 2022.Item Determinación de la variación de los tiempos de viaje al incorporar una nueva estación de metro(Universidad del Desarrollo. Facultad de Ingeniería, 2023) Nova Barón, Edgar Fabián; Prado Pacci, Wilder; Opitz, DanielaEl presente trabajo busca analizar y validar la hipótesis planteada sobre la variación de los tiempos de viaje en el transporte público de las estaciones de metro de la Región Metropolitana de Santiago de Chile. La manera como se procedió se dividió en 3 etapas: La primera consistió en recopilar los datos basados fundamentalmente en las estadísticas de la página del Directorio de Transporte Público Metropolitano (DTPM) y también se complementaron los datos con el ingreso promedio del hogar según comuna, fuente Encuesta CASEN 2023, la densidad Poblacional por comunas, Nivel educacional en las comunas de la Región Metropolitana de Santiago de Chile. También, se seleccionaron los datos del año 2019 filtrando solo los días laborales, se llevó a cabo un análisis grafico descriptivo de las variables, luego se consolidaron los datos definiendo las variables que intervendrían para el posterior análisis del modelo. En la segunda fase, se utilizaron 11.5 Millones de registros y las variables que participarían en la ejecución de los modelos, las cuales fueron 22: Comuna de Subida, comuna de Bajada, zona de Subida, zona de Bajada, periodo de subida (que se convirtió en variable dummy), cantidad de transbordos realizados, metros por zonas, metros por comuna, promedio de año de estudio, cantidad de personas por zonas y Cantidad de paraderos por zonas y como variable objetivo tiempo promedio de viaje. Estas variables fueron utilizadas para entrenar los cuatro modelos de regresión previamente seleccionados: XGBOOST, Random Forest Regressor, LightGBM y Árbol de Decisión Regressor. De entre ellos, se determinó que el mejor desempeño lo obtuvo el modelo Random Forest Regressor. Finalmente, se llevaron a cabo dos mediciones. En primer lugar, se determinó la predicción del tiempo de viaje entre una zona de origen y un destino. Posteriormente, se llevó a cabo la predicción para este mismo recorrido, pero considerando la incorporación de una o más estaciones de metro. La diferencia entre estas dos mediciones nos permitió evaluar el impacto en el tiempo de viaje al introducir nuevas estaciones de metro. La comuna de Maipú fue seleccionada para las pruebas de validación debido a ser la segunda con mayor demanda en el uso del transporte públicoItem Elaboración de un modelo de retención de clientes para una empresa de Telecomunicaciones(Universidad del Desarrollo. Facultad de Ingeniería, 2021-03) Godoy Astudillo, Roxana; Opitz, DanielaActualmente, debido a la alta competencia que existe en el mercado de telecomunicaciones, un cliente puede moverse de una compañía a otra con facilidad, lo que ha motivado a las compañías de telecomunicaciones a incrementar los esfuerzos que realizan para retener a los clientes existentes, ya que se sabe que el costo de incorporar a un cliente nuevo es mayor al de conservar a los que ya se tienen. Para que una empresa pueda efectuar una estrategia de retención de clientes, considerando los recursos limitados que tiene, primero se necesita identificar a los clientes con mayor probabilidad de abandono, mediante la asignación de una probabilidad, lo que permite ordenar a los clientes en orden de probabilidad de fuga y focalizar los esfuerzos en aquellos con más riesgo de abandono. El siguiente paso, la mayoría de las veces, consiste en abordar a estos clientes, sugiriéndoles nuevos planes con productos a su medida y que se diferencien de la competencia. La estrategia de retención de clientes anteriormente descrita, puede ser implementada con la ayuda de modelos de predicción que permitan identificar a los clientes con mayores probabilidades de desertar en un futuro relativamente próximo. Actualmente algunas compañías de telecomunicaciones han incorporado estas estrategias concentrando sus esfuerzos en los clientes del tipo persona natural, más conocido como el segmento B2C, por sus siglas en ingles de business to consumer. Sin embargo, los clientes de tipo empresa, pertenecientes al segmento B2B por sus siglas en ingles business to business, han recibido poca atención al respecto. En el presente trabajo es presentado un modelo preliminar de retención de clientes microempresa de una compañía de telecomunicaciones utilizando datos de la empresa y algoritmos de machine learning. Para el desarrollo del modelo se probaron los algoritmos: XGBoost, Regresión Logística, Regresión Logística CV, Árbol de Decisiones y Random Forest; y las técnicas de desbalanceo de datos: Oversampling, Smote y Near Miss Subsampling. El mejor resultado corresponde a un recall de 0,89 utilizando una Regresión Logística con Near Miss Subsampling, lo que constituye un rendimiento mucho más bajo de lo esperado. Estos resultados pueden explicarse en parte, por el desbalanceo que presenta la variable objetivo, con un 98,63% para la clase no fuga vs un 1,31% para la clase fuga) y por la posible ausencia otras variables relevantes para el desempeño del modelo.Item Estudio sobre la relación entre actividad comercial y delitos de mayor connotación social: Aplicado a transacciones en comercios físicos por manzana censal.(Universidad del Desarrollo. Facultad de Ingeniería, 2023) Nachbauer Ramos, Fernando; Vega Gajardo, Javier; Opitz, DanielaEste estudio explora la relación entre la actividad comercial física y los índices de Delitos de Mayor Connotación Social (DMCS) en las comunas de Chile, un tema de alto interés en el contexto actual del país donde la sensación de inseguridad va en crecimiento (Sanhueza, 2023) acompañada de un escenario general de estancamiento de la actividad económica (Vergara, 2023). Enfocándose en el período 2021-2022, la investigación utiliza un conjunto de datos que combina transacciones financieras proporcionadas por Transbank, información demográfica del censo de 2017, y estadísticas oficiales de DMCS obtenidos desde la biblioteca del congreso nacional. Los resultados muestran una relación compleja y dinámica entre la actividad comercial y los índices DMCS. Mediante el uso de técnicas de Machine Learning y ciencia de datos, se logra establecer una relación entre la actividad económica de las comunas con el índice de DMCS, fundamentado en distintas correlaciones estadísticas lineales, pero principalmente por los resultados de los análisis de sensibilidad, donde la incorporación de variables de actividad económica mejora en proporciones considerables la performance de los modelos de predicción del índice DMCS en comparación a aquellos que no las consideran. Este estudio aporta a la comprensión de las interacciones entre la economía y la seguridad pública en el contexto urbano chileno, ofreciendo insights que podrían ser valiosos para la formulación de políticas y estrategias de desarrollo urbano. Las conclusiones subrayan la importancia de considerar las dinámicas económicas locales, por ejemplo, en la planificación de la seguridad y la prevención del delito.Item Impacto de uso de suelo en la movilidad de la región metropolitana, en tiempo de pandemia(Universidad del Desarrollo. Facultad de Ingeniería, 2021-01) Arancibia Peña, Sergio; Opitz, DanielaActualmente el mundo enfrenta una pandemia de coronavirus SARS-COV-2, causante de la enfermedad COVID-19 la que ha causado 1.320.148 muertos hasta al 17 de noviembre del 2020 y superando los cincuenta y cuatro millones de infectados (W.H.O., 2020). En Chile, para controlar la propagación del virus, el gobierno ha implementado distintas medidas tales como la suspensión de clases y el decreto de cuarentenas a nivel de comuna y de región, basándose en distintos criterios, incluyendo indicadores de movilidad de las personas a nivel de comuna. En este proyecto se presenta un análisis de la relación de la movilidad en la población de la Región Metropolitana, obtenida a través de registros telefónicos móviles asociados a antenas telefónicas de la empresa Telefónica S.A y los distintos tipos de establecimientos pertenecientes a las comunas de la Región Metropolitana obtenidos de la plataforma Open Street Map (OSM) y clasificadas según las categorías: educación, retail, trabajo y vida nocturna, provistas por dicha plataforma. Esta relación se obtuvo a través de regresiones geoespaciales con datos para a tres hitos referentes al manejo de la pandemia en Chile: suspensión de clases y cuarentena parcial y total en la Región Metropolitana. Nuestro resultado más significativo señala que luego que se decretara cuarentena parcial y total, la disponibilidad de establecimientos en las comunas en las que se implementaron restricciones no impacta significativamente en la movilidad externa de estas, lo que podría explicarse por la gran cantidad y diversidad de establecimientos de todo tipo que poseen estas comunas, en contraste al que tienen las comunas periféricas. Las comunas q poseen establecimientos no requieren salirItem Measuring the local complementarity of population, amenities and digital activities to identify and understand urban areas of interest(2022) Graells-Garrido, Eduardo; Schifanella, Rossano; Opitz, Daniela; Rowe, FranciscoIdentifying and understanding areas of interest are essential for urban planning. These areas are normallydefined from static features of the resident population and urban amenities. Research has emphasised the importance of human mobility activity to capture the changing nature of these areas throughout the day, and the use of digital applications to reflect the increasing integration between material and online activities. Drawing on mobile phone data, this paper develops a novel approach to identify areas of interest based on the degree of complementarity of digital activities, available amenities and population levels. As a case study, we focus on the largest urban agglomeration of Chile, Santiago, where we identify three distinctive groups of areas: those concentrating (1) high availability of amenities; (2) high diversity of amenities and digital activities; and (3) areas lacking amenities, yet, presenting high usage of digital leisure and mobility applications. These findings identify areas where digital activities and local amenities play a complementary role in association with local population levels, and provide data-driven insights into the structure of material and digital activities in urban spaces that may characterise large Latin American cities.Item Scratch Assay Image Analysis Automation(2022) Urrejola-Barrios, Sebastián; Del Campo-Smith, Matías; Durán, Eduardo; Asahi, Takeshi; Opitz, Daniela; Lobos-González, LorenaIn this brief proof-of-concept paper, we present an algorithm developed in Python to automate the analysis of images obtained in scratch assays. Our algorithm uses random forest, a classic machine learning technique, to train and segment scratch assay images. This enables an average time reduction of 84% on the analysis of the images, together with a procedure with replicable results.Item Sistema de recomendación de productos personalizado en un E-commerce(Universidad del Desarrollo. Facultad de Ingeniería, 2021-12) Medel Vergara, Marcelo; Opitz, DanielaLos sistemas de recomendación en los e-commerce son utilizados para personalizar la experiencia de compra, mejorando la satisfacción de los clientes e incrementando el valor generado por la plataforma para cada cliente que visita. El propósito detrás de estos sistemas en el e-commerce es poder ayudar a los clientes en distintas etapas de su proceso compra, desde la búsqueda de productos de productos en forma rápida y eficiente, la localización de ofertas atractivas de productos de distintas categorías hasta la recomendación de productos nuevos que podrían ser de interés del cliente. En este trabajo presentamos la implementación de un sistema de recomendación híbrido para un ecommerce utilizando la información del catálogo de productos, atributos sociodemográficos de los clientes y la historia de sus transacciones. El modelo fue ajustado evaluando con distintas combinaciones de hiper parpámetros para optimizar la métrica de precision@k. Finalmente el sistema de recomendación desarrollado puede realizar recomendaciones personalizadas para clientes conocidos y también recomendar productos para clientes sin historial de transacciones