• +56223720525
  • contacto@estacionlastarria.cl

Introducción al procesamiento de lenguaje natural en R Studio

El objetivo del presente taller es introducir los elementos conceptuales, metodológicos y técnicos relativos a cada uno de los eslabones de la cadena de valor del trabajo con datos para efectos del procesamiento de lenguaje natural o datos de texto. En particular, el desarrollo de las técnicas de análisis de texto ha permitido el cierre de la brecha entre el análisis “cuantitativo” y “cualitativo” en ciencias sociales, por lo cual los prospectos de futuro en esta familia de técnicas es bastante amplio. Por su parte, la cadena de valor del trabajo con datos se compone de la adquisición (carga de datos de texto), preprocesamiento (limpieza de texto), análisis (descriptivo), visualización (gráficos) y descubrimiento (clasificación y reducción de dimensiones)

Horario:

A partir del Mayo 2019.
Día a confirmar / 19:00 a 22:00

¡10 Cupos!

Solo diez cupos disponibles
¡No te quedes fuera!
el Curso Imperdible

$100.000

4 Sesiones
12horas
19 a 22 horas

Descripción

Objetivos

Objetivos generales:

Desarrollar los fundamentos que permiten la introducción del procesamiento de lenguaje natural.

Objetivos específicos:

  • Presentar el panorama general en el modelamiento y aplicaciones en procesamiento de lenguaje natural
  • Desarrollar herramientas de adquisición y limpieza de documentos de texto
  • Introducción a los principales modelos de representación de documentos (Bag of words, modelo booleano, modelo vectorial y modelo TF-IDF)
  • Desarrollar técnicas para el análisis y visualización de texto
Público Objetivo
Requisitos mínimos

¡Inscribete ya!

Programa del Curso

Sesión 1:
Introducción

  • El procesamiento de lenguaje natural: breve historia y principales aplicaciones en Ciencias Sociales
  • Fundamentos del procesamiento de lenguaje natural
  • Instalación y principales herramientas de programación en R Studio




Sesión 2:
Adquisición, limpieza y preparación de datos de texto

  • Librerías para la adquisición de texto en distintos formatos
  • Limpieza de datos de texto
  • Manejo de estructuras de datos para posterior modelamiento (Data frames, corpus/vocabulario; matrices término-documento; matrices de coocurrencia)
  • La ley de Zipf y la Ley de Heap en el comportamiento general de los datos de texto

Sesión 3:
Modelos de representación de documentos de texto

  • El modelo “Bag of Words”, el vocabulario como conjunto de frecuencias simples
  • El modelo booleano: el vocabulario como conjunto de datos binarios.
  • El modelo vectorial: el vocabulario como conjunto de pesos distribuidos a lo largo de un conjunto de documentos



Sesión 4:
Modelos para el análisis de texto

  • Repaso modelo TF-IDF
  • Análisis de texto mediante técnicas de clasificación y reducción de dimensiones: cluster y PCA
  • Principios de visualización de datos de texto.











Facilitador

Felipe Ruiz  Bruzzone
Rodrigo Fernández Albornoz: Sociólogo y Magister en Economía Aplicada de la Universidad de Chile.
  • Diploma de Postítulo en Ciencia e Ingeniería de Datos del Departamento de Computación de la Universidad de Chile y Diploma en Internet de las Cosas y sus aplicaciones a la industria de la Escuela de Ingeniería de la Pontificia Universidad Católica de Chile.
  • Con experiencia en el sector privado, público y académico, desde el año 2012 es Docente de la Universidad Alberto Hurtado y Academia de Humanismo Cristiano. Desde el año 2014 se desempeña como Director de Proyectos en Sintaxys Consultores.

 

Ubicanos

Villavicencio 378 oficina 32, Barrio Lastarria, Santiago.

  WhatsApp:

+56 22372 0525

Newsletter

Suscribete a nuestro newsletter y recibe información, noticias y novedades.

© 2017 Estación Lastarria. Todos los Derechos Reservados. Diseño por DesignSeo SEO y Diseño Web

Buscar