Deep Learning para caracterizar la innovación en Chile: uso de redes neuronales para clasificación de proyectos de innovación de CORFO

Date

2022

Type:

Thesis

item.page.extent

36 p.

item.page.accessRights

ORCID:

Journal Title

Journal ISSN

Volume Title

Publisher

Universidad del Desarrollo. Facultad de Ingeniería

item.page.isbn

item.page.issn

item.page.issne

item.page.doiurl

item.page.other

item.page.references

Abstract

Varios autores mencionan la innovación tecnológica como uno de los principales motores del crecimiento económico de largo plazo, por este motivo es importante contar con información acerca del estado de la innovación en Chile. En este punto, CORFO tiene un rol relevante al ser parte fundamental del sistema de ciencia y tecnología e innovación y ser la agencia que concentra los fondos públicos que financian iniciativas de este tipo. El problema recae en que la información de los proyectos que postulan a los concursos de financiamiento público vienen en forma no estructurada a través de un formulario de postulación y en formato de texto libre, lo que hace costoso poder obtener información o realizar análisis debido al gran volumen de datos. En este trabajo se plantea hacer uso de técnicas de procesamiento de lenguaje natural (NLP) y deep learning para abordar de manera automática esta tarea y tener información para caracterizar los proyectos de innovación que postulan a CORFO. Para esto, se busca clasificar proyectos por su mercado de llegada de la innovación, por su tipo (producto, proceso o servicio) y por último, identificar si los proyectos contienen componentes de sostenibilidad. Para esto se construyó dos tipos de modelos, el primero utiliza Word2Vec más una red neuronal convolucional (CNN) que cumple un rol de línea base. Y un segundo modelo, que utiliza técnicas del estado del arte en NLP y está basado en una red neuronal Transformers del tipo representación de codificador bidireccional de Transformers (BERT) pre entrenada en español (BETO). Este modelo supera en desempeño a Word2Vec + CNN, alcanzando un accuracy del 70% para la clasificación del mercado de llegada, 73% para el tipo de innovación, y un accuracy de 80% para clasificar proyectos por componente sostenible. Finalmente, se utilizan estos modelos para caracterizar los proyectos postulados entre 2019 y primer semestre de 2022.

Description

Capstone project presentado a la Facultad de Ingeniería de la Universidad del Desarrollo para optar al grado académico de Magíster en Data Science

item.page.coverage.spatial

item.page.sponsorship

Citation

Keywords

070037S, Innovación, Chile, Proyectos, Datos

item.page.dc.rights

item.page.dc.rights.url