Deep Learning para caracterizar la innovación en Chile: uso de redes neuronales para clasificación de proyectos de innovación de CORFO
Date
2022
Type:
Thesis
item.page.extent
36 p.
item.page.accessRights
Authors
item.contributor.advisor
ORCID:
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad del Desarrollo. Facultad de Ingeniería
item.page.isbn
item.page.issn
item.page.issne
item.page.doiurl
item.page.other
item.page.references
Abstract
Varios autores mencionan la innovación tecnológica como uno de los principales motores del crecimiento económico de largo plazo, por este motivo es importante contar con información acerca del estado de la innovación en Chile. En este punto, CORFO tiene un rol relevante al ser parte fundamental del sistema de ciencia y tecnología e innovación y ser la agencia que concentra los fondos públicos que financian iniciativas de este tipo. El problema recae en que la información de los proyectos que postulan a los concursos de financiamiento público vienen en forma no estructurada a través de un formulario de postulación y en formato de texto libre, lo que hace costoso poder obtener información o realizar análisis debido al gran volumen de datos. En este trabajo se plantea hacer uso de técnicas de procesamiento de lenguaje natural (NLP) y deep learning para abordar de manera automática esta tarea y tener información para caracterizar los proyectos de innovación que postulan a CORFO. Para esto, se busca clasificar proyectos por su mercado de llegada de la innovación, por su tipo (producto, proceso o servicio) y por último, identificar si los proyectos contienen componentes de sostenibilidad. Para esto se construyó dos tipos de modelos, el primero utiliza Word2Vec más una red neuronal convolucional (CNN) que cumple un rol de línea base. Y un segundo modelo, que utiliza técnicas del estado del arte en NLP y está basado en una red neuronal Transformers del tipo representación de codificador bidireccional de Transformers (BERT) pre entrenada en español (BETO). Este modelo supera en desempeño a Word2Vec + CNN, alcanzando un accuracy del 70% para la clasificación del mercado de llegada, 73% para el tipo de innovación, y un accuracy de 80% para clasificar proyectos por componente sostenible. Finalmente, se utilizan estos modelos para caracterizar los proyectos postulados entre 2019 y primer semestre de 2022.
Description
Capstone project presentado a la Facultad de Ingeniería de la Universidad del Desarrollo para optar al grado académico de Magíster en Data Science
item.page.coverage.spatial
item.page.sponsorship
Citation
Keywords
070037S, Innovación, Chile, Proyectos, Datos