GNU/Linux >> Tutoriales Linux >  >> Linux

El desafío y la promesa de Big Data

A medida que Internet ha crecido, también lo ha hecho la cantidad de datos y el grado en que se valoran, sobre todo por parte del gobierno y las empresas que cotizan en bolsa, aunque incluso las pequeñas empresas aprecian la información que recopilan de Google Analytics y servicios similares. La acumulación y el escrutinio de datos se considera una forma extraordinariamente poderosa de ofrecer mejores productos; comprender cómo las personas usan los sitios web y las aplicaciones; realizar un seguimiento del rendimiento de los empleados; determinar el lenguaje de marketing más eficaz; y más.

Según las proyecciones publicadas por International Data Corporation, el mercado de macrodatos mantendrá una CAGR del 26 % hasta 2018, cuando las ventas de servicios de macrodatos alcancen los 42.000 millones de dólares.

El valor del mercado nos dice que las empresas están invirtiendo grandes sumas de dinero en empresas que se especializan en la recopilación, comprensión e integración de grandes conjuntos de datos; en otras palabras, servicios que pueden convertir la información en mejores resultados.

¿Qué tan grande es el enfoque de big data? Bueno, la gente de la nave espacial está en el juego.

Chris Mattman de la NASA dice sobre la investigación de su empleador en esta área:"La NASA en total probablemente esté administrando varios cientos de petabytes, acercándose a un exabyte".

Forbes El colaborador Joshua Steimle señala que un exabyte es una cantidad extraordinariamente grande de información, mil millones de gigabytes.

¿Inundado en un mar de números?

Con la tecnología que ahora tenemos disponible, los datos pueden acumularse tan rápidamente para las empresas que equivale a una sobrecarga para las bases de datos tradicionales, tanto en términos de mantenimiento como de sentido. Las empresas no tienen que construir cohetes para sentirse algo abrumadas por la enorme cantidad de datos que tienen al alcance de la mano, argumenta Steimle. .

Chris Riquier, el jefe de Asia-Pacífico de Taylor Nelson Sofres, dice que ha visto el impacto en otra área:"La investigación de mercado se basó en encuestas y sondeos". Ahora, en cambio, se hace en tiempo real con información que fluye desde las redes sociales, los motores de búsqueda y muchas otras fuentes. Gracias al enfoque de los tecnólogos en la ciencia de datos y el refinamiento continuo de los análisis, Riquier cree que nuestra "capacidad para reaccionar ante el mercado y tomar decisiones ha cambiado drásticamente".

Encontrar patrones significativos dentro de big data ha sido un misterio para muchas empresas. Sin embargo, los ingenieros de datos están construyendo sistemas tan sólidos que la tendencia hacia la acumulación y el procesamiento de datos lo más rápido posible es casi inevitable, según una Harvard Magazine de 2014. reporte. El artículo sugirió que las innovadoras fórmulas de "grandes algoritmos" permitirán a las empresas beneficiarse de la conexión e integración de almacenes de datos, además de convertir los números en imágenes más sólidas y fáciles de usar.

Basándose en técnicas de investigación establecidas desde hace mucho tiempo en los campos de la física y la astronomía, los tecnólogos y los expertos culturales aportan sus diferentes perspectivas para influir en el tema para beneficio mutuo.

Los autores de big data Viktor Mayer-Schonberger y Kenneth Cukier señalan que el análisis de datos no se trata solo de elecciones individuales, sino de alterar por completo la forma en que las empresas toman decisiones generales; después de todo, el análisis predictivo está destinado a estar a la altura de su nombre, dando aquellos que lo usan como una bola de cristal que todo lo ve y basada en la lógica.

Los grandes éxitos de datos incluyen:

Google – Google planteó la hipótesis de que ciertos términos de búsqueda probablemente eran indicadores de que las personas comenzaban a tener síntomas similares a los de la gripe. Al aplicar sus conjeturas a búsquedas en tiempo real, la empresa pudo averiguar dónde se estaba propagando la gripe más rápido que los CDC.

Banco Canadiense – Al otro lado de la frontera, Canadian Bank está “utilizando Hadoop, un marco de software de código abierto creado por Apache”, Steimle explica, "para implementar un programa que permita la identificación de lavado de dinero y fraude".

Datos y vida cotidiana

La NASA y Google son instancias de alto perfil del enfoque en big data, pero su potencial es mucho más amplio y se extiende a cualquier empresa que desee llamar la atención en línea. Es el combustible que impulsa la optimización de motores de búsqueda y la optimización de redes sociales. Los empresarios pueden usar las Herramientas para webmasters de Google, combinadas con datos analíticos del software social, para desarrollar una presencia en línea más exitosa.

Joe Hall, que ayuda a los clientes a mejorar su presencia en Internet a través de su empresa Hall Analysis, comenta que existen dos formas básicas de analizar los datos para mejorar los resultados de los motores de búsqueda:

  1. Explorar los patrones dentro de los datos voluminosos que están directamente relacionados con un negocio en particular.

Uno de los clientes de Hall tenía más de 15 millones de backlinks, lo que significa que muchas, muchas páginas web enviaban su tráfico a su cliente.

En ese nivel, cambia las reglas para el análisis de backlinks”, comenta Hall. Determinar los patrones dentro de los datos se vuelve significativamente más complejo.

  1. Obtener una comprensión más sofisticada de la posición actual de su negocio y la dinámica del mercado en su conjunto.

Observar la relación entre diferentes variables a través del software de análisis permite a las empresas comprender mejor cómo clasificarse de manera destacada y cómo lograr que más personas respondan a una lista cuando aparece en el motor de búsqueda. Dos campos de estudio relevantes son el análisis de correlación y análisis del comportamiento del usuario , dice Hall.

Revolucionando sus motores de big data

Una tecnología que ha sido fundamental para los científicos de datos y las empresas que utilizan sus servicios es la computación en la nube premium. Después de todo, las soluciones de alojamiento de VPS listas para usar se basan en optimizar la velocidad, la confiabilidad y la eficiencia a través de la distribución virtualizada de recursos.

El informático Geoffrey Fox, de la Universidad de Indiana, incluso ha señalado que la nube suele ser más rápida que una supercomputadora.


Linux
  1. Inodes y el sistema de archivos de Linux

  2. ¿El resultado de Ls *, Ls ** y Ls ***?

  3. ¿Cuál es la diferencia entre Sudo Su y Sudo Su?

  4. Tutoriales de Honeypot:modos y funcionamiento de Honeypot

  5. Barras y el comando rsync

Linux en el mainframe:antes y ahora

¿Qué es Intel SGX y cuáles son los beneficios?

Explicación de los servidores de Big Data

Apache Cassandra:características e instalación

Los 15 mejores programas econométricos y estadísticos para el sistema Linux

¿Cuál es la diferencia entre DMA y E/S mapeada en memoria?