22 December, 2022 Technology

Encontrando una póliza entre millones de datos en cuestión segundos

Aprende cómo Versus Analytics hace uso del servicio Athena de Amazon Web Services para recuperar una emisión de una compañía concreta sobre millones de datos.

¡Datos, datos datos! No puedo hacer ladrillos sin arcilla. Esta frase que decía el famoso investigador Sherlock Holmes en sus novelas muestra la importancia de los datos en cualquier empresa. En Codeoscopic se generan cientos de miles de datos cada día que atraviesan un proceso de limpieza hasta que se convierten en información valiosa. Pero entonces nos hicimos una pregunta: ¿Cómo podemos acceder a millones de datos en un tiempo razonable? La respuesta la encontramos en Amazon Athena.

Amazon Athena es un servicio que permite realizar consultas SQL sobre ficheros. Es la herramienta fundamental sobre la que se cimentan algunos módulos como el de Perfiles de riesgo en nuestra aplicación Versus Analytics. Sin embargo, por sí sola, Athena no nos ofrecía el rendimiento excepcional que buscábamos para nuestra aplicación.

Imagen 1: nuestro data lake en su fase inicial con millones de datos para explotar.

Nuestro objetivo era recuperar una emisión de una compañía concreta en un mar de más de 50 millones de datos

Estábamos buscando una aguja en un pajar. Nuestro objetivo era recuperar una emisión de una compañía concreta en un mar de más de 50 millones de datos. El primer paso que dimos fue el de poner un poco de orden en nuestro data lake. Para ello dividimos nuestros datos en particiones de forma que fuera más fácil y rápido acceder a la información que nos interesaba. Una partición es como una sección en la biblioteca, si buscas un libro de terror, vas a la sección de terror a encontrarlo. Si nuestra emisión fuese del ramo de hogar, Athena ahora iría a buscarla a la partición de hogar, ignorando millones de datos de otros ramos que no nos interesan y agilizando enormemente el tiempo de la consulta. La mejora fue notable, pero no estábamos del todo satisfechos, así que continuamos optimizando nuestros sistemas.

Imagen 2: un data lake particionado, acceder a la información que queremos ahora es más rápido.

Cada tabla del catálogo de datos de nuestro data lake tiene varias columnas: fecha, matrícula, compañía… Así hasta más de 100 columnas que contienen información acerca del riesgo. Cuando Athena va a buscar los datos lo hace escaneando todas las columnas, pero no siempre queremos ver toda la información. El siguiente paso de optimización que realizamos fue el de cambiar el formato de fichero en el que almacenamos la información por uno que se llama Parquet. Se trata de un formato de fichero columnar, es decir, que cuando se haga una consulta, de todas las columnas que tenga el fichero se escanearán únicamente aquellas columnas que sean relevantes.

Imagen 3: de toda la información que contiene un fichero parquet, sólo escaneamos aquella que nos interesa.

Conseguimos que nuestra aplicación pueda realizar consultas sobre millones de datos en menos de 10 segundos

¡Conseguido! Gracias a estas optimizaciones, conseguimos que nuestra aplicación pueda realizar consultas sobre millones de datos en menos de 10 segundos.

Raúl Franco
Versus Project Manager

Asegurando la veracidad, integridad y disponibilidad de la información a través del dato único 17 January, 2023

Search the blog

Cookie	Duration	Description
_icl_visitor_lang_js	1 day	This cookie is stored by WPML WordPress plugin. The purpose of the cookie is to store the redirected language.
wpml_browser_redirect_test	session	This cookie is set by WPML WordPress plugin and is used to test if cookies are enabled on the browser.

Cookie	Duration	Description
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_gtag_UA_22094538_1	1 minute	Set by Google to distinguish users.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.

Cookie	Duration	Description
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt.innertube::nextId	never	This cookie, set by YouTube, registers a unique ID to store data on what videos from YouTube the user has seen.
yt.innertube::requests	never	This cookie, set by YouTube, registers a unique ID to store data on what videos from YouTube the user has seen.

Cookie	Duration	Description
cookielawinfo-checkbox-analitica	1 year	The cookie is set by the GDPR Cookie Consent plugin to record the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-funcional	1 year	Set by the GDPR Cookie Consent plugin to store the user consent for cookies in the category "Functional".
cookielawinfo-checkbox-necesaria	1 year	Set by the GDPR Cookie Consent plugin to store the user consent for cookies in the category "Necessary".
cookielawinfo-checkbox-publicidad	1 year	Set by the GDPR Cookie Consent plugin to store the user consent for cookies in the category "Advertising".
cookielawinfo-checkbox-rendimiento	1 year	Set by the GDPR Cookie Consent plugin to record the user consent for the cookies in the "Performance" category .
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.

Encontrando una póliza entre millones de datos en cuestión segundos

Aprende cómo Versus Analytics hace uso del servicio Athena de Amazon Web Services para recuperar una emisión de una compañía concreta sobre millones de datos.

This website uses cookies