¿Cómo eres diferente de Golem o Sonm?

El objetivo de Big Data Block es eliminar todas las barreras técnicas para los usuarios finales o los mineros y simplemente hacer que el sistema funcione. No hay ajustes ni se intenta determinar cómo ejecutar el procesamiento de datos. Los usuarios de BDB no necesitarán ninguna habilidad técnica, no se requieren instalaciones técnicas ni configuración de componentes tecnológicos necesarios. Estamos 100% enfocados en resolver el problema del procesamiento de big data.

Creo que los objetivos de Golem y Sonm del mundo podrían ser eficientes en el aspecto de aprendizaje automático / IA, ya que se trata más de poder de procesamiento en bruto. El movimiento de datos es probablemente menos de un impacto.

Con esto en mente, pensé que respondería una pregunta que hemos recibido últimamente: ¿En qué se diferencia Big Data Block de la solución de CPU distribuida como Golem o SONM?

Primero, permítame decir que estos proyectos de CPU distribuidos son excelentes y satisfacen necesidades muy reales. No se trata de algo mejor o peor. Simplemente se trata de la capacidad de usar realmente algo creado para ser más de una supercomputadora genérica distribuida o construir un sistema diseñado exclusivamente para el procesamiento de big data.

Big Data Block hace una cosa y lo hace muy bien. Nuestro sistema está personalizado para esta tarea. Tanto los sistemas de Golem como los de SONM están diseñados para manejar una amplia variedad de tareas en las que el objetivo es la potencia de procesamiento sin procesar. Uno podría decir que son un conector de todos los trabajos de procesamiento, maestro de ninguno. Somos maestros de big data.

Para ampliar esto, tengo que entrar en un poco de la tecnología de los sistemas de big data basados ​​en Hadoop y MapReduce.

Hadoop MapReduce es el corazón del sistema Hadoop. Proporciona todas las capacidades que necesita para dividir grandes volúmenes de datos en partes manejables, procesar los datos en paralelo en su clúster distribuido y luego hacer que los datos estén disponibles para el consumo del usuario o para un procesamiento adicional.

El primer reto es almacenar big data. El Sistema de archivos distribuidos de Hadoop (HDFS) resolvió este desafío.

HDFS proporciona una forma distribuida de almacenar big data. Sus datos se almacenan en bloques en nodos de datos y usted especifica el tamaño de cada bloque. Básicamente, si tiene 512 MB de datos y ha configurado HDFS, se crearán 128 MB de bloques de datos. Así que HDFS dividirá los datos en 4 bloques (512/128 = 4) y los almacenará en diferentes nodos de datos. También replicará los bloques de datos en diferentes DataNodes. Y como estamos utilizando hardware de productos básicos, el almacenamiento no es un desafío.

HDFS también resuelve el problema de la escala, ya que se centra en la escala horizontal en lugar de la escala vertical. Siempre puede agregar nodos de datos adicionales a un clúster HDFS cuando sea necesario, en lugar de ampliar los recursos de sus nodos de datos. Por ejemplo, si está almacenando 1TB con HDFS, no necesita un sistema de 1TB. En su lugar, puede hacerlo en múltiples sistemas de 128 GB o incluso menos.

El segundo reto es almacenar la variedad de datos. Este problema también es abordado por HDFS.

Con HDFS puede almacenar todo tipo de datos, ya sea estructurados, semiestructurados o no estructurados, ya que en HDFS no hay validación de esquemas pre-dumping. Y, también sigue un modelo de escribir una vez y leer muchos. Debido a esto, solo puede escribir los datos una vez y puede leerlos varias veces para encontrar información.

El tercer desafío es acceder y procesar los datos más rápido. Este es uno de los principales desafíos con Big Data. Para resolverlo, pasamos el procesamiento a los datos y no los datos al procesamiento. ¿Que significa exactamente?

En lugar de mover los datos al nodo maestro y luego procesarlos, en YARN, la lógica de procesamiento se envía a los diversos nodos esclavos y luego los datos se procesan en forma paralela a través de diferentes nodos esclavos. Luego, los resultados procesados ​​se envían al nodo maestro donde los resultados se fusionan y la respuesta se envía de vuelta al cliente.

YARN realiza todas sus actividades de procesamiento al asignar recursos y programar tareas.

Lo que todo esto significa, en pocas palabras, es que todo el motor que procesa los datos en sistemas de datos grandes se ejecuta en todas las máquinas en el ecosistema distribuido. Los datos y la lógica se administran en cada máquina que forma parte del ecosistema de procesamiento. Esto hace posible distribuir la carga en un gran número de máquinas porque elimina el cuello de botella de una sola secuencia de datos o la congestión de la red o los problemas de memoria. Esto hace que para una alta eficiencia en el procesamiento de proyectos de datos a gran escala. Agregue a esto el hecho de que necesita una capa de administración central, como YARN, para ayudar a administrar la totalidad de estos nodos.

¿A dónde correrá esto?

El desafío para un sistema basado en la premisa de agregar capacidad de procesamiento adicional es que en realidad no elimina todos los cuellos de botella anteriores que causarán problemas al procesar una gran cantidad de datos. En particular, ¿dónde se supone que van los datos? Si hay un solo flujo de datos que deben enviarse a todas estas CPU remotas, entonces hay un argumento muy real de que esto será más lento a medida que intenta empujar los datos en una vía de un solo carril para llegar a una autopista. Realmente no puede disfrutar de la autopista si está atascado en el tráfico en la vía de un solo carril.

El otro problema es cómo se devolverían los datos. Necesita un sistema para gestionar la devolución de datos para combinarlos todos para el usuario final. Incluso supongamos que puede ejecutar esto en estas supercomputadoras distribuidas, ¿cómo podría obtener la configuración del sistema y luego ejecutarla? No creo que exista la capacidad, pero incluso si existe, y la estructura está ahí, ¿quién está configurando todo esto?

Big Data Block es diferente de la solución de CPU distribuida como Golem o SONM.

En Big Data Block estamos construyendo algo totalmente centrado en un caso de uso: la eliminación de barreras técnicas y fiscales que rodean el procesamiento de big data. Estos otros proyectos son más genéricos e intentan construir algo que puede hacer mucho. Este enfoque genérico viene con limitaciones naturales, ya que el sistema no se puede ajustar completamente a una función específica. Hay un lugar para todos nosotros en este ecosistema y estoy seguro de que tendrán un gran éxito.

En Big Data Block estamos 100% enfocados en resolver el problema del procesamiento de big data. Todo el sistema está enfocado con láser en la distribución de esta carga de trabajo, datos y análisis a todos los nodos de la red y lo hace súper eficiente. No estamos tratando de ser un catch-all para todo el procesamiento. Big Data Block es una solución para aquellos que pueden no tener la financiación o los conocimientos técnicos para procesar los datos.