Nuevo servicio y mejoras en instancias de AWS para Big Data

En Amazon se toman muy en serio el tema del Big Data. Continuamente salen mejoras para poder facilitar el funcionamiento de infraestructuras destinadas a ello. Hoy en concreto os hablaremos de dos avances. Las nuevas instancias llamadas D2 basadas en EC2 (Elastic Compute Cloud) y el servicio Amazon Machine Learning. Las primeras con el fin de poder abastecer el gran volumen de datos y el segundo para poder gestionar con más claridad y reducir la complejidad de tanta información.

La nueva generación de instancias de gran almacenamiento para EC2

Amazon ha lanzado una nueva versión de las instancias de alta densidad de almacenamiento llamadas D2, las cuales pasarán a sustituir las HS1. Las nuevas instancias han sido diseñadas para proporcionar mayor capacidad de memoria y cpu que las HS1 de la anterior generación. Así mismo también para abastecer de una muy alta tasa de E/S al disco y con unos precios muy competitivos.

En la siguiente tabla están las distintas instancias D2 que AWS comercializa. En ella se puede observar que son capaces de proveer velocidades de lectura de hasta 3500 Mb/sec y una capacidad de almacenamiento de 48 TB.

Para obtener el máximo rendimiento, Amazon recomienda utilizar instancias que corran con alguna distribución de Linux con una versión del kernel igual o superior a la 3.8 y la última versión de la Amazon Linux AMI.

Genera modelos de predicción con Amazon Machine Learning

AWS no se podía quedar atrás. Tal como hicieron Microsoft con Azure Machine Learning como IBM con Watson, han creado el servicio Amazon Machine Learning para la creación de modelos de ML y generación de predicciones, con el fin de separar la información útil de las montañas de datos que en ocasiones son difíciles de explotar por razones de complejidad o tiempo.

Para las empresas que quieran sacar rendimiento al Big Data, Amazon Machine Learning les proporcionará información muy útil. Podrán conocer cuál es el proceso de negocio más eficaz o qué acción en las redes sociales puede generar más clientes. Para simplificar el trabajo con los datos ya almacenados en la nube, el servicio está integrado con S3 (Simple Storage Service), Redshift y RDS (Relational Database Service).

Para beneficiarse de las ventajas que da este servicio, se deben realizar tres pasos en la implementación del servicio. En primer lugar está la construcción del modelo predictivo usando Amazon S3 o Redshift. Dicho modelo se debe validar y optimizar y finalmente será necesario compararlo y probarlo con otros modelos de predicción. El servicio está diseñado para desarrolladores que no tengan una gran experiencia en el campo de modelos de predicción. Les proporciona un conjunto de herramientas para desarrollar aplicaciones destinadas al análisis de datos.

Según lo indica Amazon, el servicio se puede utilizar para distintos objetivos. Entre ellos, la detección de fraude, o mejorar el servicio al cliente con contenido personalizado. Asimismo, marcar la tendencia de las campañas de marketing y la clasificación de documentos. El servicio dispone de tecnología altamente escalable y puede llegar a generar más de 50 mil millones de previsiones semanales.