Que es el presto

Que es el presto

Presto hive

Presto permite consultar los datos allí donde se encuentren, incluyendo Hive, Cassandra, bases de datos relacionales o incluso almacenes de datos propios. Una sola consulta de Presto puede combinar datos de múltiples fuentes, lo que permite realizar análisis en toda la organización.

Presto está dirigido a los analistas que esperan tiempos de respuesta que van desde menos de un segundo hasta minutos. Presto rompe con la falsa elección entre tener una analítica rápida utilizando una solución comercial cara o utilizar una solución “gratuita” lenta que requiere un hardware excesivo.

Presto es increíble. El ingeniero jefe Andy Kramolisch lo puso en producción en sólo unos días. Es un orden de magnitud más rápido que Hive en la mayoría de nuestros casos de uso. Lee directamente de HDFS, por lo que, a diferencia de Redshift, no hay que hacer mucho ETL antes de poder utilizarlo. Simplemente funciona.

Estamos muy entusiasmados con Presto. Estamos planeando utilizarlo para obtener rápidamente información sobre las diferentes formas en que nuestros usuarios utilizan Dropbox, así como para diagnosticar los problemas que encuentran en el camino. En las pruebas que hemos realizado hasta ahora, ha sido muy sólido y extremadamente rápido cuando se ha aplicado a algunos de nuestros casos de uso ad hoc más importantes.

Diagrama de la arquitectura de presto

Presto (o PrestoDB) es un motor de consulta SQL distribuido de código abierto, diseñado desde cero para realizar consultas analíticas rápidas contra datos de cualquier tamaño. Es compatible con fuentes no relacionales, como el sistema de archivos distribuidos Hadoop (HDFS), Amazon S3, Cassandra, MongoDB y HBase, y con fuentes de datos relacionales como MySQL, PostgreSQL, Amazon Redshift, Microsoft SQL Server y Teradata.

->  Temas de segundo de secundaria matemáticas

Presto es un sistema distribuido que se ejecuta en Hadoop, y utiliza una arquitectura similar a la de un sistema clásico de gestión de bases de datos de procesamiento paralelo masivo (MPP). Cuenta con un nodo coordinador que trabaja en sincronía con múltiples nodos trabajadores. Los usuarios envían su consulta SQL al coordinador, que utiliza un motor de consulta y ejecución personalizado para analizar, planificar y programar un plan de consulta distribuido entre los nodos trabajadores. Está diseñado para soportar la semántica estándar de ANSI SQL, incluyendo consultas complejas, agregaciones, uniones, uniones externas izquierda/derecha, subconsultas, funciones de ventana, recuentos distintos y percentiles aproximados.

Documentación de presto

Presto con Alluxio reúne dos tecnologías de código abierto para ofrecerle un mejor rendimiento y capacidades multi-nube para cargas de trabajo analíticas interactivas. El motor de consulta SQL distribuido de código abierto de Presto, junto con Alluxio, permite una verdadera separación del almacenamiento y el cálculo para la localización de los datos y proporciona un tiempo de respuesta a velocidad de memoria y datos agregados desde cualquier archivo o almacén de objetos.

Presto es un motor de consulta basado en SQL que utiliza una arquitectura MPP para escalar. Dado que se trata de un motor de consulta únicamente, separa la computación y el almacenamiento y depende de los conectores para integrarse con otras fuentes de datos contra las que consultar. En este sentido, destaca frente a otras tecnologías del sector que ofrecen la posibilidad de realizar consultas:

->  Para que sirve el active directory

El sistema distribuido de Presto se ejecuta en Hadoop y utiliza un sistema clásico de gestión de bases de datos de procesamiento paralelo masivo (MPP) (es posible que algunos lo llamen PrestoDB). Dispone de un nodo coordinador (maestro) que trabaja de forma sincronizada con otros múltiples trabajadores. Después de que los usuarios envíen su consulta SQL a través de un cliente al coordinador de Presto, éste utiliza un motor de consulta personalizado para analizar, planificar y programar un plan de consulta distribuido en todos sus nodos trabajadores. Presto está construido con una interfaz de consulta SQL familiar que permite ejecutar fácilmente SQL interactivo en Hadoop. Soporta la semántica estándar de ANSI SQL, incluyendo consultas complejas, agregaciones y uniones.

Despliegue de presto

Presto es un motor de consulta SQL distribuido de alto rendimiento para big data. Su arquitectura permite a los usuarios consultar una variedad de fuentes de datos como Hadoop, Cassandra, Kafka, AWS S3, Alluxio, MySQL, MongoDB y Teradata[1] Incluso se pueden consultar datos de múltiples fuentes de datos en una sola consulta. Presto es un software de código abierto impulsado por la comunidad y publicado bajo la licencia Apache.

->  Como octavar una guitarra electrica

La arquitectura de Presto es muy similar a la de un sistema clásico de gestión de bases de datos que utiliza la computación en clúster (MPP). Puede visualizarse como un nodo coordinador que trabaja de forma sincronizada con múltiples nodos trabajadores. Los clientes envían sentencias SQL que se analizan y planifican, tras lo cual se programan tareas paralelas para los trabajadores. Los trabajadores procesan conjuntamente las filas de las fuentes de datos y producen resultados que se devuelven al cliente. En comparación con el modelo de ejecución original de Apache Hive, que utilizaba el mecanismo Hadoop MapReduce en cada consulta, Presto no escribe los resultados intermedios en el disco, lo que supone una importante mejora de la velocidad. Presto está escrito en Java.

Esta web utiliza cookies propias para su correcto funcionamiento. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Más información
Privacidad