Antes de entrar más a fondo y hablar sobre los servicios de AWS para Big Data queremos explicar

¿Qué es Big data?

El Big Data es un término que describe el gran volumen de datos, tanto estructurados como no estructurados, que inundan los negocios cada día. Pero no es la cantidad de datos lo que es importante. Lo que importa con el Big Data es lo que las organizaciones hacen con los datos.

Y se caracteriza por las 3V:

  • Volumen: va desde terabytes hasta petabytes de datos.
  • Variedad: incluye datos de una amplia variedad de orígenes y formatos (p. ej., registros web, interacciones en las redes sociales, transacciones en línea y de comercio electrónico, transacciones financieras, etc).
  • Velocidad: cada vez más, las empresas tienen requisitos exigentes desde el momento en que se generan los datos al momento en que se entrega información procesable a los usuarios. Por lo tanto, es necesario recopilar, almacenar, procesar y analizar los datos en periodos relativamente cortos, que van desde una vez al día hasta en tiempo real.

¿Por qué es importante el big data?

Las empresas utilizan big data en sus sistemas para mejorar las operaciones, brindar un mejor servicio al cliente, crear campañas de marketing personalizadas y tomar otras acciones que, en última instancia, pueden aumentar los ingresos y las ganancias. Las empresas que lo usan de manera efectiva tienen una ventaja competitiva potencial sobre aquellas que no lo hacen porque pueden tomar decisiones comerciales más rápidas y mejor fundamentadas.
La recopilación de grandes cantidades de datos y la búsqueda de tendencias y patrones dentro de los datos permiten que las empresas se muevan con más agilidad, sin problemas y de manera eficiente. También les permite eliminar las áreas problemáticas antes de que los problemas acaben con sus beneficios o su reputación.

El análisis de Big Data ayuda a las organizaciones a aprovechar sus datos y utilizarlos para identificar nuevas oportunidades.

Nuevo servicio y mejoras en instancias de AWS para Big Data

En Amazon se toman muy en serio el tema del Big Data. Continuamente salen mejoras para poder facilitar el funcionamiento de infraestructuras destinadas a ello. Hoy en concreto os hablaremos de dos avances. Las nuevas instancias llamadas D2 basadas en EC2 (Elastic Compute Cloud) y el servicio Amazon Machine Learning. Las primeras con el fin de poder abastecer el gran volumen de datos y el segundo para poder gestionar con más claridad y reducir la complejidad de tanta información.

La nueva generación de instancias de gran almacenamiento para EC2

Amazon ha lanzado una nueva versión de las instancias de alta densidad de almacenamiento llamadas D2, las cuales pasarán a sustituir las HS1. Las nuevas instancias han sido diseñadas para proporcionar mayor capacidad de memoria y cpu que las HS1 de la anterior generación. Así mismo también para abastecer de una muy alta tasa de E/S al disco y con unos precios muy competitivos.

En la siguiente tabla están las distintas instancias D2 que AWS comercializa. En ella se puede observar que son capaces de proveer velocidades de lectura de hasta 3500 Mb/sec y una capacidad de almacenamiento de 48 TB.

Para obtener el máximo rendimiento, Amazon recomienda utilizar instancias que corran con alguna distribución de Linux con una versión del kernel igual o superior a la 3.8 y la última versión de la Amazon Linux AMI.

Genera modelos de predicción con Amazon Machine Learning

AWS no se podía quedar atrás. Tal como hicieron Microsoft con Azure Machine Learning como IBM con Watson, han creado el servicio Amazon Machine Learning para la creación de modelos de ML y generación de predicciones, con el fin de separar la información útil de las montañas de datos que en ocasiones son difíciles de explotar por razones de complejidad o tiempo.

Para las empresas que quieran sacar rendimiento al Big Data, Amazon Machine Learning les proporcionará información muy útil. Podrán conocer cuál es el proceso de negocio más eficaz o qué acción en las redes sociales puede generar más clientes. Para simplificar el trabajo con los datos ya almacenados en la nube, el servicio está integrado con S3 (Simple Storage Service), Redshift y RDS (Relational Database Service).

Para beneficiarse de las ventajas que da este servicio, se deben realizar tres pasos en la implementación del servicio. En primer lugar está la construcción del modelo predictivo usando Amazon S3 o Redshift. Dicho modelo se debe validar y optimizar y finalmente será necesario compararlo y probarlo con otros modelos de predicción. El servicio está diseñado para desarrolladores que no tengan una gran experiencia en el campo de modelos de predicción. Les proporciona un conjunto de herramientas para desarrollar aplicaciones destinadas al análisis de datos.

Según lo indica Amazon, el servicio se puede utilizar para distintos objetivos. Entre ellos, la detección de fraude, o mejorar el servicio al cliente con contenido personalizado. Asimismo, marcar la tendencia de las campañas de marketing y la clasificación de documentos. El servicio dispone de tecnología altamente escalable y puede llegar a generar más de 50 mil millones de previsiones semanales.

Amazon Web Services proporciona una cartera amplia y totalmente integrada de servicios de informática en la nube que te ayudan a crear, proteger e implementar las aplicaciones de big data. Con AWS, no es necesario aprovisionar hardware ni mantener y escalar infraestructura, de modo que puedes concentrar tus recursos en descubrir información nueva. Además, se añaden nuevas capacidades y características constantemente, por lo que siempre puede beneficiarse de las tecnologías más recientes sin compromisos de inversiones a largo plazo.