VII Seminario de Invierno, Madrid, 28 y 29 de enero de 2016

Es un placer anunciaros la VII edición del Seminario de Invierno CAPAP-H, que se celebrerá en Madrid los días 28 y 29 de enero de 2016.

Fechas y horario general:

Jueves 28 de enero: 15:30 a 20:30 — Seminario Técnico 1 y Sesiones de trabajo de la red

Viernes 29 de enero: 09:30 a 14:00 y 16:00 a 20:00 — Seminario Técnico 2

Lugar de celebración:

Campus Madrid – Puerta de Toledo. Universidad Carlos III de Madrid.

Plano del campus e instalaciones.

28 de enero: Salón de grados – 0.B.06

29 de enero – Mañana: Laboratorio 1.A.07

29 de enero- Tarde: Laboratorio 1.A.05

Cena jueves 28: Cena informal en el restaurante «El Puerto de Cabreira». C/Velarde, 13 (para participantes que han notificado asistencia a la cena; gasto no cubierto por la red)

Organización local a cargo del grupo ARCOS (http://www.arcos.inf.uc3m.es)

Inscripción:

Fecha límite: 22 de Diciembre de 2015

La red financiará hasta dos noches de hotel, del 28 de enero al 30 de febrero (incluyendo alojamiento y desayuno), para dos personas en habitación doble, por cada grupo participante en la red. El alojamiento escogido es el Hotel Ganivet, a menos de 200 metros del lugar de celebración. Los gastos de comida/cena de los asistentes no estarán cubiertos por la red.

Inscripción: Mandar un correo electrónico a [email protected] incluyendo los siguientes datos:

Grupo al que pertenecen los asistentes.
Nombre, Apellidos, NIF, correo electrónico y número de teléfono móvil de los asistentes.
Fecha prevista de llegada y de salida, para la reserva y pago del hotel.

Programa:

Agenda/horario:

Jueves 28 de enero:

15:00 – 15:30 Registro

15:30 – 15:45 Bienvenida y Presentación

15:45 a 17:45 Seminario Técnico 1: SIMD Vectorization

17:45 – 18:15 Coffee break

18:15 – 20:00 Sesiones de trabajo de la red. Foro de debate y discusión.

20:00 – 20:30 Reunión de la red CAPAP-H

Viernes 29 de enero: 09:30 a 14:00 y 16:00 a 20:00 — Seminario Técnico

09:30 – 11:30 Seminario Técnico 2: Big Data

11:30 – 12:00 Coffee break

12:00 – 14:00 Seminario Técnico 2: Big Data

14:00 – 16:00 Horas libres para la comida

16:00 – 17:30 Seminario Técnico 2: Big Data

17:30 – 18:00 Coffee break

18:00 – 19:45 Seminario Técnico 2: Big Data

19:45 – 20:00 Clausura y despedida

Jueves 28 de enero: Seminario Técnico 1

Best Practices for SIMD Vectorization on Next Generation INTEL® XEON PHI™ Processors (KNIGHTS LANDING).

Resumen: Vectorization is one of the critical elements to maximize single thread performance in parallel applications, especially on the Intel® Xeon Phi™ (co)processor family. In this session we will provide a technical update of the next generation of Intel® Xeon Phi™ processors, a.k.a. Knights Landing (KNL), with particular attention to the new Intel Advanced Vector Extensions 512 (AVX512). Finally, we will also present a wide variety of techniques to expose SIMD vectorization in order to take full advantage of AVX512 instruction set.

Ponente: Manel Fernández

Manel is currently working at Bayncore Ltd. as a Chief HPC Consultant. Previously, he worked for 10+ years at Intel Corporation as Senior Software Engineer at Many Core Architecture BSSAD group. Before joining Intel, he worked for other tech companies such as Sun Microsystems and Hewlett-Packard. He obtained his PhD in Computer Science from Universitat Politècnica de Catalunya in 2005.

Presentación: Slides PDF

Patrocinador: Danysoft, BAYNCORE, INTEL Software

Jueves 28 de enero: Sesiones de trabajo de la red.

A) Trabajo en curso, tesis doctorales, proyectos, etc.

Acelerador genérico de E/S para motores de workflows y aplicaciones intensivas en datos en entornos cluster (Swift/T) y cloud (DMCF).
Francisco José Rodrigo. Grupo ARCOS, Universidad Carlos III de Madrid.

Estrategias para la resolución del problema de planificación/particionado de tareas sobre plataformas heterogéneas.
Antón Rey Villaverde. Grupo ArTeCS, Universidad Complutense de Madrid.

Enhancing the programmability and energy efficiency of storage in HPC and cloud environments.
Pablo Llopis. Grupo ARCOS, Universidad Carlos III de Madrid.

AlSol, una herramienta de análisis rápido del campo solar orientada a la optimización.
Nicolás Calvo Cruz. Grupo de Supercomputación: Algoritmos – Universidad de Almería.

Descubrimiento de patrones paralelos en código C++ secuencial.
David del Rio Astorga. Grupo ARCOS, Universidad Carlos III de Madrid.

B) Ofertas y solicitudes de colaboración en el contexto de la red

Implementaciones paralelas de algoritmos metaheurísticos de optimización global.
Pilar Martínez Ortigosa. Grupo de Supercomputación: Algoritmos – Universidad de Almería.

Entorno experimental de medición de consumo sobre plataformas PCIExpress basado en hardware libre. Grupo ArTeCS, Universidad Complutense de Madrid.
Se presenta un entorno hardware/software para la medición de consumo energético en plataformas heterogéneas equipadas con aceleradores PCIExpress. El entorno hardware está basado en equipamiento de bajo coste y fácil instalación, pudiendo ser instalado de forma no intrusiva en nodos HPC; desde el punto de vista software, permite el perfilado detallado y preciso del consumo energético de cualquier aplicación o partes de la misma.

Large-scale fuzzy clustering for big data application.
José M. Cecilia. Grupo de Computación de Altas Prestaciones y Bioinformática – Universidad Católica de Murcia.
We are witnessing the era of big data computing where computing resources are becoming the main bottleneck to deal with large datasets. In this context, sequential algorithms need to be redesigned and even rethought to fully leverage the emergent heterogeneous architectures. In this collaboration, we propose a large-scale implementation of parallel implementation of the fuzzy minimals clustering algorithm called Parallel Fuzzy Minimal (PFM) that fully exploits heterogeneous architectures.

C) Presentación de aplicaciones y herramientas del Repositorio CAPAP-H:

FastSparse (Computación con matrices dispersas en GPUs), FastNDS (Acelerando el proceso Non-Dominated-Sorting como clave de la Optimización multiobjetivo en arquitecturas heterogéneas).
Gloria Ortega López. Grupo de Supercomputación: Algoritmos – Universidad de Almería.

ATLaS: una extensión de OpenMP para paralelización especulativa.
Diego Llanos Ferraris. Grupo Trasgo, Universidad de Valladolid. El grupo Trasgo ha desarrollado ATLaS, un entorno de trabajo compuesto por un compilador y una librería en tiempo de ejecución que permite la paralelización de bucles sin necesidad de realizar un análisis previo de dependencias. ATLaS incluye una nueva cláusula OpenMP, llamada «speculative», para etiquetar las variables cuyo uso hay que supervisar en tiempo de ejecución para cumplir con la semántica secuencial.

P2PSP: un protocolo open source para streaming de contenido en directo.
Cristóbal Medina López. Grupo de Supercomputación: Algoritmos – Universidad de Almería.

Trasgo y Hitmap. Sistema de programación paralela.
Ana Moretón Fernández. Grupo Trasgo, Universidad de Valladolid.
El sistema Trasgo es un framework que permite generar automáticamente programas paralelos en memoria distribuída o compartida a partir de un lenguaje de especificación de alto nivel. Los programas utilizan como run-time la biblioteca de funciones Hitmap, que permite definir, particionar, distribuir y comunicar partes de arrays o estructuras de datos dispersas.

D) Foro de debate y discusión.

Viernes 29 de enero: Seminario Técnico 2

Programación para el procesamiento del Big Data

Resumen: En la sociedad digital moderna se genera una enorme cantidad de datos
provenientes de multitud de fuentes: sensores, redes sociales,
transacciones, logs, instrumentos científicos, información genética, etc.
Este enorme conjunto de datos es lo que se conoce como Big Data.

Desde la publicación por parte de Google del modelo de programación
MapReduce han surgido un conjunto de herramientas que facilitan el
almacenamiento y el procesamiento del Big Data. La más destacable de
estas herramientas es Apache Hadoop, solución open-source que permite
almacenar y procesar de manera distribuida enormes cantidades de datos
no-estructurados, haciendo uso de commodity clusters, proporcionando al
mismo tiempo facilidad de programación, escalabilidad y tolerancia a
fallos.

En los últimos años se ha desarrollado en torno a Hadoop un ecosistema
de soluciones para el almacenamiento y procesamiento del Big Data. La
más popular de estas soluciones es Apache Spark, que proporciona una
librería de alto nivel para el procesado de datos en clusters Hadoop,
optimizando el uso de la memoria para aplicaciones interactivas o el
procesado de streams.

En este curso haremos una introducción a la programación MapReduce en
Hadoop y a la API de PySpark, viendo ejemplos prácticos de manejo de
grandes ficheros en un cluster Hadoop.

Contenidos:

Big Data y MapReduce
– Introducción al BigData
– Modelo de programación MapReduce: ejemplos de uso, ejecución,
optimizaciones, implementaciones

Apache Hadoop
– Elementos constituyentes: HDFS y YARN
– Filesystems en Hadoop: arquitectura HDFS
– Planificador de recursos: YARN
– Programación MapReduce en Hadoop: Java y Hadoop Streaming

Apache Spark
– RDDs: Resilient Distributed Datasets
– PySpark: principales transformaciones y acciones sobre RDDs simples y
de clave/valor
– Aspectos avanzados
– Introducción a Sparl SQL y Spark Streaming

Ponente: Tomás Fernández Pena

Tomás Fernández Pena es, desde 2010, investigador senior del CiTIUS
(Centro Singular de Investigación en Tecnoloxías da Información) en la
Universidad de Santiago de Compostela, universidad de la que es Profesor
Titular del Área de Arquitectura y Tecnología de Computadores desde 1994.

Autor de más de 100 trabajos en revistas y congresos del área ha
participado en diferentes proyectos europeos y nacionales y es miembro
de diversas redes de investigación, como la red de excelencia europea
HiPEAC. Sus principales líneas de interés incluyen la computación de
altas prestaciones, la arquitectura de sistemas paralelos, el desarrollo
de algoritmos paralelos para clusters y supercomputadores, la
optimización de rendimiento en problemas irregulares y con matrices
dispersas, la predicción y mejora del rendimiento de aplicaciones
paralelas en general, el desarrollo de aplicaciones y middleware para
sistemas Grid y Cloud y las tecnologías Big Data aplicadas al
procesamiento del lenguaje natural y la bioinformática.

Presentación, ejercicios: Slides + Ejercicios (TGZ)

Material: Máquina virtual (OVA)