Cómo se almacenan los macrodatos en el big data

La mayoría de las veces, los datos «sin procesar» se almacenan en un lago de datos, un «lago de datos». Al mismo tiempo, se almacenan en diferentes formatos y grados de estructuración:

Filas y columnas de la base de datos – estructural;

Archivos CSV, XML, JSON, registros: semiestructurados;

Documentos, mensajes de correo, pdf – no estructurados;

El video, el audio y las imágenes son binarios.

Se utilizan diferentes herramientas para almacenar y procesar información en el lago de datos:

Hadoop es una plataforma de gestión de datos. Contiene uno o más grupos. Normalmente se utiliza para procesar, almacenar y analizar grandes cantidades de datos no relacionales: archivos de registro, registros de tráfico web, datos de sensores, objetos JSON, imágenes y mensajes de redes sociales.

HPPC (DAS) : desarrollado por LexisNexis Risk Solutions. Es una supercomputadora que procesa información tanto en modo batch como en tiempo real y conocer Que es la Big Data

Storm es un marco de procesamiento de información en tiempo real desarrollado en Clojure.

El lago de datos no es solo almacenamiento. El «lago» también puede incluir una plataforma de software, por ejemplo, Hadoop, grupos de servidores de almacenamiento y procesamiento, herramientas para integrarse con fuentes y consumidores de información y sistemas para la preparación y gestión de datos y, a veces, herramientas de aprendizaje automático. Además, el «lago de datos» se puede escalar a miles de servidores sin detener el clúster.

Desde el lago, la información fluye hacia las «cajas de arena», áreas de exploración de datos. En esta etapa, se desarrollan escenarios para resolver diversos problemas comerciales.

El lago de datos se encuentra más a menudo en la nube que en sus propios servidores. Por ejemplo, el 73% de las empresas utilizan servicios en la nube para trabajar con big data, según el informe “ Resumen de tendencias y problemas de Big Data 2018 ”. El procesamiento de big data requiere mucha potencia informática y las tecnologías en la nube pueden reducir el costo del trabajo, por lo que las empresas recurren a estos almacenamientos.

Las tecnologías en la nube pueden convertirse en una alternativa a su propio servicio de datos, porque es difícil predecir la carga exacta en la infraestructura. Si compra equipo «en reserva», entonces está inactivo y causa pérdidas. Y si el equipo tiene poca potencia, no será suficiente para el almacenamiento y procesamiento.

La nube puede almacenar más datos que los servidores físicos: no habrá fin de espacio de almacenamiento.

La empresa puede crear su propia estructura en la nube o arrendar capacidad a un proveedor.

La nube es rentable para empresas con cargas de trabajo en rápido crecimiento o negocios donde a menudo se prueban varias hipótesis.

  • ADD YOUR COMMENT

    Este formulario recopila su nombre y correo electrónico para que podamos comunicarnos con usted. Consulte nuestra política de privacidad para más información. Doy mi consentimiento para que esta web recopile mi nombre y mi correo electrónico. *