CLEI Electronic Journal

Parallel Adaptive Simulation of Coupled Incompressible Viscous Flow and Advective-Diffusive Transport Using Stabilized FEM Formulation

Abstract In this work we study coupled incompressible viscous flow and advective-diffusive transport of a scalar. Both the Navier-Stokes and transport equations are solved using an Eulerian approach. The SUPG/PSPG stabilized finite element formulation is applied for the governing equations. The implementation is held using the libMEsh finite element library which provides support for parallel adaptive mesh refinement and coarsening. The Rayleigh-Bénard natural convection and the planar lock-exchange density current problems are solved to assess the adaptive parallel performance of the numerical solution.

Parallel conversion of satellite image information for a wind energy generation forecasting model

Abstract This paper presents an efficient parallel algorithm for the problem of converting satellite imagery in binary files. The algorithm was designed to update at global scale the land cover information used by the WRF climate model. We present the characteristics of the implemented algorithm, as well as the results of performance analysis and comparisons between two approaches to implement the algorithm. The performance analysis shows that the implemented parallel algorithm improves substantially against the sequential algorithm that solves the problem, obtaining a linear speedup.

Este trabajo presenta un algoritmo paralelo eficiente para el problema de la conversión de imágenes satelitales en archivos binarios. El algoritmo fue diseñado para actualizar a escala mundial la información de uso del suelo utilizada por el modelo climático WRF. Se presentan las características del algoritmo implementado, así como los resultados del análisis de performance y las comparaciones entre dos enfoques diferentes implementados. El análisis de performance muestra que el algoritmo paralelo implementado mejora sustancialmente contra el algoritmo secuencial que resuelve el problema, logrando un speedup lineal.

Optimizing Latency in Beowulf Clusters

This paper discusses how to decrease and stabilize network latency in a Beowulf system. Having low latency is particularly important to reduce execution time of High Performance Computing applications. Optimization opportunities are identified and analyzed over the different system components that are integrated in compute nodes, including device drivers, operating system services and kernel parameters. This work contributes with a systematic approach to optimize communication latency, provided with a detailed checklist and procedure. Performance impacts are shown through the figures of benchmarks and mpiBLAST as a real-world application. We found that after applying different techniques the default Gigabit Ethernet latency can be reduced from about 50 s into nearly 20 s.

Este artículo examina la manera de reducir y estabilizar la latencia de red en un sistema Beowulf. Tener una baja latencia es particularmente importante para reducir el tiempo de ejecución de aplicaciones de alto rendimiento. Diferentes oportunidades de optimización son identificadas y analizadas dentro de cada componente que se integra en un sistema, incluyendo los controladores de dispositivos, servicios del sistema operativo e incluso los parámetros del núcleo del mismo. Este trabajo aporta un enfoque sistemático para optimizar la latencia de la comunicación, a través de un procedimiento y una lista detallada de pasos a seguir. Los impactos en el sistema se muestran a través de valores de referencia en pruebas sintéticas de rendimiento y de mpiBLAST como una aplicación del mundo real. Se encontró que después de aplicar diferentes técnicas la latencia por defecto de Gigabit Ethernet puede reducirse de 50 a casi 20 nanosegundos.

Parallel Computing Applied to Satellite Images Processing for Solar Resource Estimates

This article presents the application of parallel computing techniques to process satellite imagery information for solar resource estimates. A distributed memory parallel algorithm is introduced, which is capable to generate the required inputs from visible channel images to feed a statistical solar irradiation model. The parallelization strategy consists in distributing the images within the available processors, and so, every image is accessed only by one process. The experimental analysis demonstrate that a maximum speedup value of 2.32 is achieved when using four computing resources, but beyond that point the performance rather decrease due to hard-disk input/output velocity.

Este artículo presenta la aplicación de técnicas de computación paralela para el procesamiento de imagenología satelital a fin de estimar el recurso solar. Un algortimo de memoria distribuida es presentado, el cual es capaz de generar a partir de imágenes del canal visible la información necesaria para alimentar un modelo estadístico de estimación de irradiación. La estrategia de paralelización consiste en distribuir las imágenes en los procesos disponibles de forma tal que cada imagen es accedida por un solo proceso. El análisis experimental muestra que un speedup máximo de 2.32 es alcanzado cuando se utilizan cuatro procesos. No obstante, si la cantidad de procesos es aumentada por encima de este punto, la performace disminuye debido a la velocidad acotada de entrada/salida de disco.

SMCV: a Methodology for Detecting Transient Faults in Multicore Clusters

The challenge of improving the performance of current processors is achieved by increasing the integration scale. This carries a growing vulnerability to transient faults, which increase their impact on multicore clusters running large scientific parallel applications. The requirement for enhancing the reliability of these systems, coupled with the high cost of rerunning the application from the beginning, create the motivation for having specific software strategies for the target systems. This paper introduces SMCV, which is a fully distributed technique that provides fault detection for message-passing parallel applications, by validating the contents of the messages to be sent, preventing the transmission of errors to other processes and leveraging the intrinsic hardware redundancy of the multicore. SMCV achieves a wide robustness against transient faults with a reduced overhead, and accomplishes a trade-off between moderate detection latency and low additional workload.

El desafío de mejorar la potencia de cómputo de los procesadores actuales se logra mediante el aumento en la escala de integración. Esto conlleva una creciente vulnerabilidad a los fallos transitorios, los cuales incrementan su impacto en clusters de multicores que ejecutan aplicaciones paralelas científicas de garn duración. El requerimiento de aumentar la fiabilidad de estos sistemas y el alto costo de relanzar la ejecución desde el comienzo resultan en la necesidad de contar con estrategias de software específicas para ellos. En este trabajo, se presenta SMCV, una técnica totalmente distribuida que provee detección de fallos mediante la validación de los contenidos de los mensajes enviados, impidiendo la propagación de un error a otro proceso y aprovechando la redundancia de hardware intrínseca existente en el multicore. SMCV logra una alta cobertura introduciendo un reducido overhead, y obtiene un compromiso entre una latencia de detección moderada y una baja sobrecarga de trabajo.

Facial Recognition Using Neural Networks over GPGPU

This article introduces a parallel neural network approach implemented over Graphic Processing Units (GPU) to solve a facial recognition problem, which consists in deciding where the face of a person in a certain image is pointing. The proposed method uses the parallel capabilities of GPU in order to train and evaluate a neural network used to solve the abovementioned problem. The experimental evaluation demonstrates that a significant reduction on computing times can be obtained allowing solving large instances in reasonable time. Speedup greater than 8 is achieved when contrasted with a sequential implementation and classification rate superior to 85 % is also obtained.

Este artículo introduce una red neuronal implementada sobre una unidad de procesamiento gráfico (GPU), para resolver un problema de reconocimiento facial que consiste en decidir hacia donde apunta la cara de cierta persona en una imágen. El método propuesto utiliza la naturaleza paralela de la GPU para entrenar y evaluar una red neuronal utilizada para resolver el problema antes mencionado. Los resultados experimentales demuestran que se obtiene una reducción significativa en los tiempos de cómputo, permitiendo resolver instancias grandes de imágenes en tiempos rasonables. Speedup mayores a 8 son obtenidas al contrastar la implementación propuesta con una secuencial y tasas de clasificacíon mayores a 85% son obtenidas.

Using distributed local information to improve global performance in Grids

Grid computing refers to the federation of geographically distributed and heterogeneous computer resources. These resources may belong to different administrative domains, but are shared among users. Every grid presents a key component responsible for obtaining, distributing, indexing and archiving information about the configuration and state of services and resources. Optimizing tasks assignations and user requests to resources require the maintenance of up-to-date information about the grid. In large scale Grids, the dynamics of the resource information cannot be captured using a static hierarchy and relying in manual configuration and administration. It is necessary to design new policies for discovery and propagation of resource information. There is a growing interest in the interaction of Grid Computing and the Peer to Peer (P2P) paradigm, pushing towards scalable solutions. In this work, starting from the Best-Neighbor policy based on previously published ideas, the reasons behind its lack of performance are explored. A new improved Best-Neighbor policy are proposed and analyzed, comparing it with Random, Hierarchical and Super-Peer policies.

Este trabajo presenta implementaciones paralelas de la heurística de planificación MinMin para entornos de computación heterogénea usando unidades de procesamiento gráfico, con el fin de mejorar su eficiencia computacional. La evaluación experimental de las cuatro variantes propuestas para la heuristica MinMin demuestra que se puede alcanzar una reducción significativa en los tiempos de cálculo, lo que permite hacer frente a grandes escenarios de planificación en los tiempos de ejecución razonables.

Parallel implementations of the MinMin heterogeneous computing scheduler in GPU

This work presents parallel implementations of the MinMin scheduling heuristic for heterogeneous computing using Graphic Processing Units, in order to improve its computational efficiency. The experimental evaluation of the four proposed MinMin variants demonstrates that a significant reduction on the computing times can be attained, allowing to tackle large scheduling scenarios in reasonable execution times

Este trabajo presenta implementaciones paralelas de la heurística de planificiación MinMin para entornos de computación heterogénea usando unidades de procesamiento gráfico, con el fin de mejorar su eficiencia computacional. La evaluación experimental de las cuatro variantes propuestas para la heuristica MinMin demuestra que se puede alcanzar una reducción significativa en los tiempos de cálculo, lo que permite hacer frente a grandes escenarios de planificación en los tiempos de ejecución razonables.