Paradigm a Big Data

boletin de estudios economicos Vol. lXXi - n.º 219 - diciembre 2016 (Páginas 507-526) EL PARADIGMA DEL BIG DATA Y SU AP

Views 140 Downloads 11 File size 193KB

Report DMCA / Copyright

DOWNLOAD FILE

Recommend stories

Citation preview

boletin de estudios economicos Vol. lXXi - n.º 219 - diciembre 2016 (Páginas 507-526)

EL PARADIGMA DEL BIG DATA Y SU APORTACIÓN A LA GESTIÓN Y ESTRATEGIA EMPRESARIAL

THE BIG DATA PARADIGM AND ITS CONTRIBUTION TO THE MANAGEMENT AND BUSINESS STRATEGY Alex Rayón Jerez

Vicedecano de Relaciones externas de la Facultad de ingeniería de la universidad de deusto y director de Programas de big data RESUMEN

la implosión de la era digital y los datos inherentes a su naturaleza y arquitectura han provocado la generación de grandes volúmenes de datos, en muchos lugares y expresados de manera muy heterogénea. A este paradigma, lo bautizamos en 2012 como el “big data”. Generó mucho interés desde el primer momento por su aportación a conocer mejor los negocios, para mejorar así el proceso de toma de decisiones y el rendimiento en muchas dimensiones. ni la tecnología, ni la disponibilidad de datos ni el factor económico son limitantes. lo que necesitamos son emprendedores de datos, que sepan hacer las preguntas correctas a los mismos, y podamos así aportar a la gestión y estrategia empresarial a través de la extracción de inteligencia y valor de los datos. Por todo ello, muchos sectores de actividad económica ven nuevas oportunidades en esta “economía del dato”. Palabras clave: datos, inteligencia de negocios, algoritmos, modelos analíticos, big data. SUMMARY

the irruption of the digital age and the data inherent to its nature and architecture, have led to the generation of large volumes of data, in many places and expressed in a very heterogeneous way. to this paradigm, we called as “big data” in 2012. it generated a lot of interest from the very beginning for its contribution to understand better the business processes, to improve the decision making process and the performance in many dimensions. neither the technology, nor the availability of data nor the economic factor are a constraint. What we need are data entrepreneurs, who know how to ask the right questions, and can thus contribute to the management and business strategy through the extraction of intelligence and value from raw data. in consequence, many economic activities have seen new opportunities in this “data economy”. Keywords: data, business intelligence, algorithms, analytical models, big data.

1. Introducción: de los “qué” a los “por qué”

en 2004, dos ingenieros de Google, Jeffrey dean y sanjay Ghemawat, publicaron un artículo titulado “MapReduce: Simplified

508

AleX RAyón JeRez

Data Processing on Large Clusters“ [1]. se trataba de un nuevo modelo de programación que permitiría simplificar el procesamiento de grandes volúmenes de datos. era la evolución natural y necesaria que tenían dentro de Google para procesar los grandes volúmenes de datos que ya por aquel entonces manejaban (documentos, referencias web, páginas, etc.). A partir de toda esa información que se encontraba dispersa por internet, querían obtener una serie de métricas para ordenar la importancia y popularidad de las webs. nació así un modelo de programación bautizado como mapReduce, que hizo frente a la cada vez mayor cantidad de webs que debía Google ordenar bajo el algoritmo creado por larry Page y sergey brin en 1999, el Pagerank [2]. estas nuevas posibilidades que abrió el procesamiento de grandes volúmenes de datos ayudó a popularizar industrias como el seo y sem. más de 12 años después, estas capacidades son el principal valor de Google (Alphabet) y lo que le ha permitido llegar a ser la empresa de mayor valor bursátil del mundo. la idea que subyacía a este nuevo modelo de programación era la siguiente: ante la necesidad de procesar grandes volúmenes de datos, se puede montar un esquema en paralelo de computación que permita así distribuir el trabajo (el procesamiento de datos) entre diferentes máquinas (nodos dentro de una red) para que se pueda reducir el tiempo total de procesamiento. es decir, una versión moderna del “divide y vencerás“ [3], que hace que esos pequeños trabajos en paralelo, reduzcan sustantivamente lo que de otra manera sería un único gran procesamiento, tarea siempre más complicada. dado el rendimiento de esta nueva aproximación al procesamiento de datos, se comenzó a emplear en otros entornos. se comienzan a desarrollar versiones de código abierto a través de distribuciones de software. esto hace muy fácil su rápida adopción, y quizás deja una lección para la historia sobre cómo desarrollar rápidamente un paradigma. uno de los frameworks que comienza a ganar en popularidad es Apache Hadoop de la mano de un ingeniero de yahoo! llamado doug cutting. Para muchos, con estos dos sucesos nace esta era que hemos bautizado como “Big Data”. Primero mapReduce, y luego el framework Hadoop, pueden ser considerados como el origen de este término del que tanto hablamos hoy en día. y, las empresas de internet (Google, yahoo, twitter, Facebook, linkedin, etc.), las que propician la aparición de tecnologías de big data que luego son utilizadas en otros sectores. el uso de los métodos de análisis de datos para la mejora de la competitividad y el día a día de las organizaciones no es nada nuevo. Hace

el PARAdiGmA del biG dAtA y su APoRtAción A lA Gestión y estRAteGiA ...

509

décadas que se lleva haciendo uso de estas técnicas. el sector financiero o asegurador, lleva décadas empleando técnicas de minería de datos para sacar valor de sus grandes volúmenes de datos. lo han empleado siempre para la detección de fraude, perfiles de propensión al impago o para el scoring en la concesión de créditos. lo que sí que es cierto es que estos métodos, ahora son más sofisticados. Pero eso realmente no se debe a la evolución de los algoritmos solo, sino a la existencia de una mayor cantidad de datos, de muy diferentes fuentes, almacenados en formatos heterogéneos y sobre todo, generados a gran velocidad. y esto último sí que hace distinguir un proyecto de big data de otro que no lo es. son las 3 “V” que caracterizan bien a esta era del big data: Volumen, Velocidad y Variedad [4]. la práctica moderna del análisis de datos, lo que popularmente y muchas veces erróneamente se conoce como “Big Data”, se asienta sobre lo que es la “Ciencia del Dato” o “Data Science”. en 2012, davenport y Patil escribían un influyente artículo en la Harvard business Review en la que exponían que el científico de datos iba a ser la profesión más atractiva del siglo XXi [5]. un profesional que combinando conocimientos de matemáticas, estadística y tecnologías, se encargaría de analizar los grandes volúmenes de datos. A diferencia de la estadística tradicional que utilizaba muestras, el científico de datos aplica sus conocimientos estadísticos para resolver problemas de negocio utilizando tecnologías que no limitan la cantidad de datos a emplear. y esto, abre la puerta para realizar cálculos que hasta ahora no se podían realizar. Viktor mayer, de la oxford internet institute, define el big data como el eterno sueño de la estadística: que no haya que muestrear, sino que podamos analizar todos los datos generados en un entorno dado. las capacidades tecnológicas ya no son un limitante. en su libro “Big Data: A Revolution That Will Transform How We Live, Work and Think” [6], nos habla sobre la “mentalidad de datos masivos” como nuevo paradigma tecnológico que dé solución a los problemas de muchas empresas. con todos estos precedentes, muchos sectores de actividad económica ven nuevas oportunidades en esta “economía del dato”. sin embargo, todavía muchos se preguntan qué diferencia al big data del business intelligence que ya venían muchas compañías realizando. la respuesta, básicamente, es la mayor disponibilidad de datos. el 90% de los datos del mundo han sido creados en los últimos dos años [7]. en 2011, en el Foro económico de davos, se introduce el dato como un nuevo activo a

510

AleX RAyón JeRez

gestionar y poner en valor por parte de las empresas [8]. Posteriormente, en 2012, mcAfee y brynjolfsson escribieron el influyente artículo “Big Data: The Management Revolution” [9]. era una época en la que todavía poca gente conocía el concepto, y aún menos lo ponían en valor. el artículo, supuso un punto de inflexión para muchas de las compañías que leyeron con atención los postulados de estos autores. el mundo del business intelligence que venimos usando ya desde los años 90, nos ha aportado siempre una mirada hacia atrás. es decir, una mirada que nos decía lo que había ocurrido en el pasado, de manera resumida, agrupando y visualizando datos. el big data trae una nueva mirada, una perspectiva futura en la que buscamos predecir lo que pudiera ocurrir para aprovechar oportunidades y escenarios, y adelantarse a través de las técnicas que nos aporta el mundo del business Analytics. un cruce entre los modelos analíticos que la estadística nos aporta, y que permite modelizar el funcionamiento de las organizaciones. modelos que han mejorado mucho su precisión gracias a la gran disponibilidad de datos a procesar. tres elementos son los que están impulsando que el big data y su adopción sea exponencial. en primer lugar, la computación se ha abaratado. Fabricar ordenadores resulta muy económico. lejos quedan los días en los que esto era un limitante. el libro “La sociedad de coste marginal cero” [10] de Jeremy Rifkin, explicó que los costes marginales serían prácticamente nulos en esta era digital. esto hace que estemos rodeados de dispositivos digitales en todas las esquinas. en segundo lugar, la tecnificación de la sociedad y su digitalización. cada vez codificamos en objetos conectados a internet más conductas o expresiones sociales. Así, los datos están cada vez más desperdigados y distribuidos en diferentes entornos. los coches, las lavadoras, nuestra ropa o incluso nuestras paredes ahora adquieren capacidades de escucha y actuación, lo que hace que se generen cada vez más datos de todo ello. y, en tercer lugar, vivimos en la era de las redes sociales. Hace unos cuantos años, manuel castells, escribió el libro “el poder en la sociedad red” [11]. Habló de las redes sociales y su poder, y concretamente se refirió a las mismas como medios de autocomunicación de masas. Redes que implican interacción, comunicación y diálogo con nuestros “amigos”. las redes sociales que empleamos en nuestro día a día (instagram, twitter, Facebook, linkedin, etc.), son redes comerciales, que funcionan como si fueran una televisión: el objetivo es generar datos sobre audiencias y comportamientos para que luego puedan comercializar espacios de

el PARAdiGmA del biG dAtA y su APoRtAción A lA Gestión y estRAteGiA ...

511

impacto a esas audiencias. la sociedad se convierte así en proveedora de datos. Por todo ello, no es que tengamos ahora más capacidades computacionales, sino que tenemos muchos más datos, generados a mucha mayor velocidad, y con una variedad de formatos que hace que necesitemos un nuevo paradigma de almacenamiento, procesamiento y puesta en valor datos. A este nuevo paradigma lo hemos venido a bautizar como Big Data. un paradigma que, dado que tenemos mucha abundancia de materia prima (datos), lo que necesita es de emprendedores de datos. Personas que sepan interrogar y sacar valor de dichos datos. es decir, estamos ante un paradigma que necesita de pensadores, de filósofos que se formulen las mejores preguntas para extraer inteligencia y valor de los datos. tal es así que, las posibilidades que dispone ahora una organización para su gestión y estrategia empresarial son realmente grandes. en este artículo, vamos a exponer cómo hemos evolucionado del enfoque del business intelligence de responder a los “qué ha pasado” (resumen del pasado), al enfoque del business Analytics que responde a los “por qué ha pasado” (prospección del futuro). el paradigma del big data, abre para nuestras organizaciones nuevas posibilidades que debemos aprovechar. 2. Marco conceptual

en su artículo “Big Data: the Management Revolution”, mcAfee y brynjolfsson, describieron cómo la implosión de la era digital y los datos inherentes a su naturaleza y arquitectura, ayudaría mucho a mejorar la famosa expresión de drucker “Lo que no se mide, no se puede mejorar” [12]. y esto, obvia decir, resulta de mucho interés para la estrategia y gestión de las empresas, donde la medición puede suponer una mejora competitiva importante. cuando decimos que la medición trae una mejor gestión, lo que venimos a decir es que dado que tenemos más información, las decisiones están mejor fundamentadas. no solo eso, las intervenciones, las acciones que de las decisiones se deriven serán más efectivas, dejando de depender tanto de la intuición. los directivos podrían conocer mejor sus negocios para optimizar así su proceso de toma de decisiones y el rendimiento en muchas dimensiones. de ese artículo, se pueden rescatar tres conceptos que, describen muy bien qué es esta era del big data: trazabilidad, atribución y entendimiento. es decir, una era en la que la cada vez mayor

AleX RAyón JeRez

512

digitalización de muchos aspectos de nuestra sociedad, ha hecho que podamos atribuir a un hecho sus causas y así entender mejor el comportamiento de los seres humanos y su proceso de toma de decisiones. en esta era digital donde dejamos traza de todo lo que hacemos (búsquedas, compras, conducciones, lecturas, etc.), alguien guarda y emplea esos datos. es decir, que la trazabilidad y atribución de nuestras acciones, permite que alguna organización entienda mejor cómo nos comportamos y tomamos las decisiones. la nueva economía digital se enmarca en una era en la que mucha gente piensa que lo que hacemos en internet, lo que usamos, en muchas ocasiones, es gratis. los economistas suelen decir eso de que “nada es gratis“ [13]. obviamente, algo o alguien tiene que pagar los servicios y productos que consumimos. y esos, son los datos, que permiten entender bien cómo nos comportamos en ese plano digital tan omnipresente hoy en día. Hace unos años, comprábamos un GPs que nos costaba entre 200 y 300 €. Hoy en día tenemos Google maps y Waze. no nos cuesta nada poder usarlo, salvo la conexión a internet y los datos personales por dónde nos desplazamos. es lo que les cedemos a cambio. el servicio de histórico de localización de Google maps1 es el paradigma de esta realidad en la era del big data. datos de localización que cedemos a cambio de un servicio bastante útil e inteligente, que se anticipa en muchas ocasiones a nuestras decisiones. Pero, también, en muchas ocasiones, vende los datos a terceros. Responder a la pregunta si esto es bueno o malo siempre es complicado. es mejor responder en clave de costes y beneficios. Para obtener un determinado beneficio, se debe asumir un coste. si el beneficio no compensa el coste que nos genera ceder los datos históricos de localización, entonces es un servicio que no debiéramos tener activado. estas realidades que rodean a los datos personales en cierto modo resultan contradictorias cuando la sociedad las conoce. un artículo de 2013 de los economistas savage y Waldman titulado “The Value of Online Privacy“ [14], sugería que los ciudadanos estarían dispuestos a pagar porque sus datos no fueran recopilados por las aplicaciones y servicios en internet. Por otro lado, en otro artículo titulado “the value of privacy in Web search“ [15], solo el 16% de los que participaron en la encuesta estarían dispuestos a pagar porque su navegación en la web fuera totalmente pri1

maps.google.com/locationhistory

el PARAdiGmA del biG dAtA y su APoRtAción A lA Gestión y estRAteGiA ...

513

vada. en un reciente artículo de dos investigadores de la universidad de chicago titulado “Is Privacy Policy Language Irrelevant to Consumers?“ [16], solo una pequeña fracción de usuarios está dispuesta a pagar 15 dólares para detener la invasión de privacidad. en este punto es cuando cabría preguntarse para qué sirve este análisis de grandes volúmenes de datos. como decíamos, los servicios en internet y las empresas tecnológicas (hoy en día, gran parte de ellas) están aprovechando estos datos. cuando norton y Kaplan introdujeron el concepto de cuadro de mando integral [17] ya señalaron lo que con el big data podemos obtener. los indicadores clave para la toma de decisiones son más accesibles que nunca ante la gran abundancia de datos que una empresa dispone (tanto dentro de la propia empresa como en fuentes ajenas). se puede responder así a la pregunta de la utilidad del big data valiéndose del cuadro de mando integral de norton y Kaplan. considerando sus cuatro perspectivas (Financiera, interna de procesos, cliente e innovación y Aprendizaje), se pueden clasificar los enfoques de explotación de datos en dos grandes grupos: – Enfoque “hacia fuera” de la empresa: considerando la perspectiva Financiera y de cliente del bsc, se identifican dos grandes explotaciones de datos: • Obtención de nuevos ingresos: se trata de ayudar a las organizaciones a obtener nuevos mercados, nuevos clientes, nuevos márgenes sobre clientes ya existentes, nuevas oportunidades de productos y servicios, etc. • Fidelización de los clientes: en un mundo caracterizado por la competitividad, la retención de los clientes actuales resulta de enorme interés para las empresas, por no tener que volver a invertir en su adquisición. Además, también la evidencia empírica demuestra cómo a mayor ciclo de vida, mayor facilidad de sacar más rentabilidad con la venta cruzada de nuevos productos o la adquisición de nuevos productos o servicios de la misma empresa por parte del cliente [18]. – Enfoque “hacia dentro” de la empresa: incluyendo la perspectiva de Procesos y de Aprendizaje e innovación, fundamentalmente se puede centrar el foco en la mejora de los procesos de una compañía. de esta manera, la optimización de costes mediante la detección de puntos de mejora y los factores que generan las desviaciones, se convierten en otra utilidad a obtener del big data.

514

AleX RAyón JeRez

el big data, resumiendo, sirve así a las compañías en tres principales utilidades: ganar más dinero, evitar perderlo y optimizar costes. unas utilidades que aportan una mejora financiera y operacional que dota de competitividad a las compañías. las organizaciones que están de verdad obteniendo una ventaja competitiva sustantiva son aquellas que están reformulando su organización para poner los datos en el centro, y sincronizar procesos alrededor. organizaciones que se convierten en “data-driven business”, y en las que el contraste de hipótesis se convierte en una nueva mirada hacia la toma de decisiones y la gestión estratégica, táctica y operativa. tal es el caso de mercadona, que anunciaba a comienzos de 2016 su nuevo “cerebro tecnológico”, dentro de un ambicioso Plan de transformación digital de 126 millones de euros2. en el centro de dicho plan, un centro de Proceso de datos (cPd) que permite sincronizar procesos y tomar decisiones de abastecimiento, suministro, compra, venta, descuentos, etc. gracias a lo que ha venido a denominar su cadena de suministro conectada en tiempo real. los datos, como se puede apreciar, alteran las estrategias de la compañía, comenzando su rediseño por su localización en el centro de la estrategia.

3. El Big Data en la toma de decisiones empresariales: descripción, predicción y prescripción

con el big data, estas capacidades de observar fenómenos que antes no eran evidentes (insights), deben ser incorporados en el día a día de la empresa para que la misma gane valor. es decir, estas utilidades que describíamos anteriormente, podrán aportar valor a las organizaciones, en tanto en cuanto incorporen los insights obtenidos en la toma de decisiones. todo ello es posible si llegamos a comprender los sucesos. esto nos dará la capacidad no ya sólo de describir lo ocurrido, sino también de predecir lo que pudiera ocurrir. la capacidad de explicar es una cuestión de mostrar cómo ocurren las cosas dado un modelo válido. la de predecir es la de mostrar cómo ocurrirán las cosas de acuerdo con ese modelo. los modelos pueden ser físicos, materiales, o meramente teóricos. todos

2 http://www.expansion.com/economia-digital/companias/2016/02/29/56d49fcf268e3e521f 8b463b.html.

el PARAdiGmA del biG dAtA y su APoRtAción A lA Gestión y estRAteGiA ...

515

implican algún tipo de analogía entre el modelo y la realidad o el modelo y otra afirmación científica. Por todo ello, el objetivo de toda empresa pasa por construir modelos que describan y ayuden a predecir lo que pudiera ocurrir en su día a día en sus diferentes áreas funcionales (recursos humanos, compras, ventas, marketing, comunicación, producción, logística, etc.). en definitiva, una empresa no solo podría resumir el pasado (enfoque business intelligence), sino también establecer relaciones y comparaciones entre variables para tratar de adelantarse al futuro (business Analytics). durante años, las herramientas de business intelligence han estado centradas en el reporting (resumir el pasado). Posteriormente, lo estuvieron en el diagnóstico pensando en el pasado. Hoy en día están en la predicción y prescripción. es decir, en adelantarnos a lo que pudiera ocurrir y ayudar a las organizaciones a tomar decisiones infiriendo el mejor rumbo a tomar o las decisiones a introducir. el valor, y el foco que debieran tener las empresas, se centra en ser capaces de modelizar el funcionamiento de la empresa. de encontrar una serie de reglas que describan lo que “suele” ocurrir en las empresas. estas reglas suelen engranarse en lo que conocemos como algoritmos; una serie de reglas abstractas para transformar datos. es decir, coger una fuente de información o datos, y desarrollar una serie de reglas que permiten encontrar, expresar y representar aquella respuesta que estábamos buscando a partir de los datos en bruto. Pero estas reglas no son una ciencia exacta. Kenneth Arrow, premio nobel de economía en 1972, y experto en predicciones económicas dijo aquello de: “El buen pronóstico no es el que te dice que lloverá, sino el que te da sus probabilidades” [19]. es decir, nada es seguro hasta que ocurre. la probabilidad cero no existe. Aprender a gestionar situaciones en este mundo de la incertidumbre, asignando probabilidades a las diferentes alternativas que puede tomar un determinado suceso, se vuelve así crítico. de esta manera, podremos ayudar a las empresas, organizaciones e individuos a asignar eficientemente recursos en múltiples situaciones. y tomar en definitiva mejores decisiones. estos algoritmos predictivos y prescriptivos modelan, representan, una realidad ponderada por la probabilidad de que ocurra. este cálculo de probabilidad se puede hacer bajo dos principales métodos. Por un lado, como un concepto absoluto, en el sentido que todos damos la misma probabilidad a un suceso. es la que ha sido predominante a lo largo del siglo XX, con Ronald A. Fisher a la cabeza [20], con la inter-

516

AleX RAyón JeRez

pretación frecuentista de probabilidad. Hay un segundo enfoque, aún más antiguo, pero que ha ganado mucha popularidad en los últimos tiempos. es un enfoque subjetivo, en el que cada persona espera una mayor o menor probabilidad. este enfoque fue mayoritario en el siglo XiX, con Pierre-simon laplace al frente [21]. y esta subjetividad en la interpretación de la probabilidad se atribuye al teorema de bayes. dado que en muchas ocasiones, para predecir, se tiene un conocimiento limitado, la probabilidad es la expresión matemática de ese conocimiento. es decir, “no se puede predecir con un 50% de probabilidades que saldrá cara“, sino que “basándose en el conocimiento que se tiene, hay un 50% de certeza que saldrá cara“. el auge de los métodos bayesianos, especialmente, por la irrupción del big data (que trae nuevo conocimiento), está provocando que mucha gente cambie la forma de afrontar estos problemas. bayes no solo es una fórmula, sino también una manera de afrontar predicciones y situaciones. consiste en que a nueva información (recibida), nueva probabilidad (estimada). según vaya obteniendo nueva información, se mejoran las probabilidades iniciales que se tiene. A más información, más probabilidad se puede estimar. de ahí el enorme interés generado alrededor de la toma de decisiones para la gestión y estrategia empresarial, donde la incertidumbre es omnipresente, y la toma de decisiones en dicho contexto muy frecuente. A través de estos algoritmos predictivos y prescriptivos expresados bajo incertidumbre, se podrán procesar los datos de la organización para la extracción de valor de los mismos. este tratamiento se puede hacer bajo dos culturas, siguiendo la terminología introducida por el estadístico leo breiman a través de un influyente artículo de 2001 [22]: la cultura del modelado estadístico (regresión, reglas de asociación, Análisis de componentes Principales, etc.) y la del modelado algorítmico e inteligencia artificial (redes neuronales, Knn, etc.). breiman presentó ambos paradigmas de procesamiento de datos como antagónicos. incluso, rechazaba por obsoletas las postulaciones del modelado estadístico de datos clásico, dado que en su opinión, había dado lugar a conclusiones equivocadas. la nueva cultura algorítmica, presentaba mucho interés en el contexto predictivo del que estamos hablando. en realidad, el antagonismo entre ambas culturas no es tal, sino que más bien es precisa su complementariedad. y es que los métodos estadísticos a los que se refiere breiman son los métodos estadísticos más clásicos, que se desarrollaron sin la capacidad de tratamiento de datos

el PARAdiGmA del biG dAtA y su APoRtAción A lA Gestión y estRAteGiA ...

517

que sí tenemos hoy en día. Gracias a lo cual, pueden usarse modelos generativos (en los que uno define la forma funcional de la respuesta) o modelos que generan la estructura que esconden los datos (por ejemplo, en las redes neuronales). con estas dos culturas (la estadística y la algorítmica), y gracias especialmente al gran volumen de datos disponible, los algoritmos buscan patrones, relaciones, etc. más interesante resulta así para muchas industrias desarrollar algoritmos para encontrar inteligencia que transformar en negocio. entender a los consumidores, los “por qué” de sus decisiones, detectar elementos que hacen de cuello de botella en la cadena de producción, abastecer de manera óptima la cadena de suministro, optimizar las rutas para evitar perder tiempo, etc., son solo algunos ejemplos de lo que estos algoritmos permiten hacer. Por eso, hoy en día, hay tantos algoritmos. Además, cada vez más sofisticados. Junto con el hardware y las redes, constituyen los ejes clave sobre los que pivota esta transformación digital de muchas industrias. estamos ya ante las máquinas más sofisticadas del planeta. cien millones de líneas de código incorporan los nuevos vehículos (frente a las sesenta millones de líneas que tiene Facebook y las cinco millones de líneas que tiene el colisionador de hadrones). estamos ante las primeras máquinas que están alcanzando los límites biológicos de la complejidad. el manejo de estas reglas abstractas de transformación de datos se ha convertido en algo fundamental para obtener ventajas competitivas en la estrategia de cualquier empresa. 4. Aplicación en las organizaciones

según el estudio the talent dividend, elaborado por la revista mit sloan management Review y la empresa de software analítico sAs en 2015 [23], el 50% de las compañías asegura que entre sus prioridades está aprender a transformar los datos en acciones de negocio. básicamente, pasando de una perspectiva de informar (ver lo que ha ocurrido en el pasado, y tomar decisiones reactivas -enfoque business intelligence-), a una perspectiva de Predecir (inferir lo que puede ocurrir en el futuro y tomar decisiones proactivas -enfoque business Analytics-). y así, las empresas pueden comenzar a responder a preguntas como las que se presentan a continuación: – ¿Cómo puedo descubrir más información relevante sobre mis clientes? datos como los drivers que le llevan realmente a comprar,

AleX RAyón JeRez

518

cómo se relacionan mis clientes entre ellos, qué opiniones son las que han sido clave para la toma de decisión de compra, etc. – ¿Qué pasaría si cambio el precio de mis productos/servicios? disponer de un análisis de sensibilidad de una variable (precio) respecto a su impacto en otra (ventas totales de ese producto o sobre otros), de manera que puedo ver la relación entre las mismas. – ¿Cómo puedo reducir la tasa de abandono de mis clientes? construir un modelo de propensión a la fuga, para saber qué puntos o acciones son las que pueden llevar a un cliente a abandonar la empresa. de esta manera, a futuro, tendría más probabilidad de encontrar clientes que pudieran no marcharse de la compañía. – ¿Cómo puedo identificar a los clientes más rentables? no desde el punto de vista de las ventas totales, sino del valor que extraigo de cada uno de ellos (entendiendo valor como margen de beneficio). – ¿Cómo puedo detectar fraude? Analizando el histórico de valores que van tomando las variables para los casos de éxito (no hay fraude, se paga a tiempo, no hay insolvencias, etc.) y los de fracaso (fraudes, impagos, etc.), se pueden construir modelos que relacionen las variables que frecuentemente están asociados a los casos de fracaso, y así poder anticiparse a futuro. – etc. Preguntas donde aparecen esos emprendedores de datos que comentábamos al inicio de este artículo. no hay un conjunto cerrado de preguntas a hacer a los datos. y más desde una mirada a los datos de gestión y estrategia empresarial, donde cada organización tiene su propia realidad y contexto. Por ello, las organizaciones suelen requerir de una clasificación de “posibles utilidades a extraer del big data”. los “para qué” poder interesarse por el big data y las grandes promesas que se han introducido en torno a ello. la web especializada “Applied Enterprise Architecture”3, ofrece un framework de posibles utilidades que clasificadas en torno al nivel de ventaja competitiva que adquiere una empresa. A continuación, y con objeto de ilustrar las posibilidades que abre el big data para las diferentes organizaciones, se presentan las mismas: 1. Modelos estadísticos y algorítmicos: crear modelos que permitan descubrir tendencias, patrones, relaciones, etc. anteriormente des3

pragmaticarchitect.wordpress.com

el PARAdiGmA del biG dAtA y su APoRtAción A lA Gestión y estRAteGiA ...

519

conocidas. Por ejemplo, detectar fraudes en la reclamación de pólizas de seguros, análisis de cestas de la compra de un retailer para invitar a realizar promociones, etc. se suelen clasificar los modelos de análisis de datos estadísticos en cuatro grandes familias, siguiendo una serie de preguntas comunes a toda organización: a. ¿Quieres predecir una categoría? en caso de ser afirmativa la respuesta, la siguiente pregunta que cabe realizarse es si los datos tienen una serie de campos para clasificar (saber si un estudiante va a aprobar o no, o si va a comprar un determinado producto o no) o no los tiene. si los dispone, es un algoritmo de clasificación, muy utilizado para clasificar perfiles de clientes en entidades financieras (scoring y profiling) y así saber si darle un crédito o no (y ejemplos parecidos en otras industrias), por ejemplo. Para todo esto son muy usados los árboles de decisión (para ir navegando por las diferentes alternativas en sus ramas) o las reglas de asociación (que construye un conjunto de reglas que describen las relaciones y patrones de comportamiento de las variables; por ejemplo, para saber qué comprará un cliente que ha comprado también anteriormente un producto X y otro y). en caso de no disponer una categoría sobre la que clasificar, se trata de algoritmos de clustering. se agrupan los registros con un comportamiento parecido en cuanto al valor que adquiere de las variables (actividades de un estudiante, artículos que compra y selecciona un cliente, productos financieros/seguros que va adquiriendo, etc.), pero sin saber cómo clasificar a esos registros con anterioridad en una sola categoría. b. ¿Quieres predecir una cantidad? en estos casos, se pueden construir modelos de regresión o de machine learning (en función de la complejidad y grado de aprendizaje que se quiera dar al ordenador), para así disponer de una herramienta de trabajo que modela la relación entre las variables y así poder responder a cuestiones anteriormente planteadas (cómo varían las ventas si cambio el precio, predecir la demanda energética estacional usando las tendencias históricas, predecir la capacidad de producción necesaria para adelantarse a las necesidades de la industria, modelo de deserción de un estudiante, posible fatiga de materiales o de máquinas con carácter preventivo, predecir el factor de éxito o fracaso más crítico para ser talentoso, qué canal de marketing intensificar para sacarle más rentabilidad a la campaña, etc.)

520

AleX RAyón JeRez

c. ¿Estás simplemente observando datos? en este caso, podemos hacer tareas relacionadas con la reducción de dimensionalidad, tales como el Análisis de componentes Principales. imagínense que una compañía tiene sesenta variables que analizar, lo que resulta difícilmente gestionable. con estas técnicas, se puede reducir esa dimensionalidad a dos o tres, bastante más manejable, siempre y cuando se cumplan una serie de reglas de representación y significatividad del conjunto de datos. esta técnica puede ser muy útil para identificar drivers de compra y comportamiento agrupados, y así saber por qué nos compra un cliente o qué atributos comparten un grupo de estudiantes que han fracasado o triunfado. d. si la respuesta a las preguntas anteriores es a todas no, lo que se está buscando es predecir nuevas estructuras. dado que prácticamente ni siquiera se sabe lo que se quiere, es muy frecuente que en estos casos se descubran nuevas relaciones, nuevas clasificaciones, nuevos grupos, etc. 2. Minería de texto: descubrir y extraer patrones significativos y las relaciones de las colecciones de texto, así como inferir el significado del mismo (a través de los tratamientos semánticos). Por ejemplo, comprender los sentimientos de los clientes en los medios sociales como twitter, Facebook, blogs, call center, etc. se utilizan para mejorar el servicio del producto o cliente o entender cómo lo está haciendo la competencia. Además, se pueden extraer, de un conjunto de textos, las entidades más frecuentes, y cómo se relacionan las mismas. se trata, además, de un campo en el que se prevé mucho desarrollo. según un artículo publicado en el sAs Global Forum de 2014 [24], el 80% de los datos son desestructurados, es decir, información de las organizaciones almacenada en forma de documentos y texto. son muchos los retos tecnológicos todavía ahí existentes. 3. Optimización: el uso de técnicas de simulación para identificar escenarios que producirán los mejores resultados. Por ejemplo, la optimización de precios para el escenario más favorable de ventas, la identificación del inventario óptimo que evite rupturas de stock, etc. son modelos de optimización y simulación muy usados para la gestión de inventarios, gestión de redes de producción y distribución, relaciones entre productos y clientes, gestión eficiente de los gastos y desviaciones en el marco de un proyecto, etc.

el PARAdiGmA del biG dAtA y su APoRtAción A lA Gestión y estRAteGiA ...

521

4. Visualización: análisis exploratorio de los datos que permita al usuario entender mejor el problema al que se enfrenta. en definitiva, mejorar la salida de los resultados del modelo estadístico con gráficos interactivos que mejoran la experiencia de usuario y el entendimiento de los fenómenos que se dan en nuestras sociedades. Para alcanzar estas ventajas, la estrategia de implantación de una solución de big data en una organización debe seguir unos pasos secuenciales, planificados y bien ejecutados. el framework “The Analytics Maturity Quotient” [25], expone los factores críticos de éxito que deben incluirse en un proyecto de big data, a saber: calidad de los datos, liderazgo, Habilidades analíticas, Procesos de toma de decisiones basados en datos, e infraestructura tecnológica. – Calidad de los datos: si una organización tiene un buen sistema para el almacenamiento de datos, el proyecto puede al menos comenzar. suele citarse el paradigma “GIGO” (Garbage-inGarbage-out) como reflejo de esto: si metemos malos datos, por mucho que se tengan buenos modelos de tratamiento de datos, no se podrán obtener buenos resultados de nuestro proyecto de big data. este factor, el de calidad de datos, afecta a su vez al resto. Pero, como se puede entrever en su representación formal, es el más importante y representativo del conjunto de ellos. debemos disponer de buenos datos. Pero esto no es sencillo. especialmente, porque los datos brutos son poco expresivos. necesitamos dar contexto a los datos y descartar los datos no productivos. Por eso, es importante no confundir datos con información y conocimiento. según un estudio de emc, en 2013 sólo el 22% de los datos del universo digital fueron útiles, y sólo el 5% de los ellos fueron analizados [26]. – Liderazgo “data-driven”: el 40% del éxito restante (una vez que disponemos de “buenos datos“), depende de un liderazgo institucional y organizativo que se crea de verdad que los datos y su análisis son una palanca excelente para la mejora de la toma de decisiones dentro de la compañía. en el artículo “Big Data: the management revolution“ de la Harvard business Review, se ilustraba esta idea de cambiar el paradigma de toma de decisiones de la “persona mejor remunerada” (el HiPPo, highest paid person’s opinion, a la fundamentación en datos). necesitamos así líderes, ceo, gerentes, responsables de líneas, que adopten este discurso y valor de los datos como palanca de apoyo a la toma de decisiones.

522

AleX RAyón JeRez

– Personas con habilidades analíticas: un 30% del éxito dependerá de disponer de un buen equipo. Éste, es ahora mismo el gran handicap en muchos países, como españa. Faltan “profesionales Big Data“, en todos los roles que esto puede exigir: data science para interrogar apropiadamente los datos, perfiles que pongan en valor de negocio los datos y su explotación, tecnólogos de big data con capacidades de despliegue de infraestructura, estadísticos y matemáticos,“visualizadores” de datos, etc. A esto, debemos sumarle la importancia de tener cierta orientación a procesos de negocio o mercado en general, dado que los datos son objetivos per se; de dónde se extrae valor es de su interpretación, interrogación y aplicación a diferentes necesidades de empresa. Ahora mismo, este handicap las empresas lo están resolviendo con la formación de las personas de su organización. – Proceso de toma de decisiones “data-driven”: con los “insights” que se obtienen, se podrá mejorar el proceso de toma de decisiones. una orientación hacia el análisis de datos como la palanca sobre la que se tomarán las decisiones dentro de la compañía. y las decisiones se toman, una vez que la orientación al dato se ha metido en los procesos. ¿cómo tomaremos la decisión de invertir en marketing? ¿en base a la eficiencia de las inversiones y la capacidad de convertir a ventas? ¿o en base a un incremento respecto al presupuesto del ejercicio pasado? los datos están para tomar decisiones, no para ser “un proyecto más“. un 20% es éste factor crítico de éxito. – Infraestructura tecnológica: por último, obviamente, es difícil emprender un proyecto de este calibre sin infraestructura tecnológica. la oferta de herramientas big data es cada vez más amplia. la dificultad estriba en saber utilizar las mismas. en cierto modo, estos elementos, con diferentes pasos y orden de importancia, es lo mismo que viene a recomendar el libro “Big Data: Using Smart Big Data, Analytics and Metrics to Make Better Decisions and Improve Performance“ [27]. de él, se puede destacar la siguiente imagen, que ilustra muy bien la idea: la tecnología da soporte a todo el proceso de datos. desde la estrategia inicial (s), pasando por la medición de datos (m), su análisis a través de las dos culturas de tratamiento de datos (A), la comunicación de resultados (R), y la toma de decisiones en la empresa (t).

el PARAdiGmA del biG dAtA y su APoRtAción A lA Gestión y estRAteGiA ...

523

Fuente: “big data: using smARt big data, analytics and metrics to make better decisions and improve performance”, bernard marr, 2015 [27]

5. Conclusiones

si algo ha producido esta era digital es que el valor se genera de manera permanente. Pero no siempre es aprovechado por el que lo genera. los datos son un gran exponente de esta paradoja. los “datos a la sombra” o datos “involuntarios” (acceso, búsquedas, lugares que frecuentamos, etc.) ofrecen una visión de nosotros que las empresas están aprovechando. con los ejemplos anteriormente expuestos, se puede entrever que el nuevo paradigma del big data no va de tecnología solo. la estrategia y el liderazgo corporativo son fundamentales para el éxito del negocio. su alineamiento con los planos de gestión de una empresa (ese enfoque “hacia dentro” y “hacia fuera” de una empresa), fundamental. tener claro que el output de un proyecto de big data será la toma de decisiones estratégicas, tácticas u operativas, también. los datos, además, deben tener calidad, y contar con un científico de datos (esa profesión tan atractiva) en el equipo resulta clave para identificar las nociones clave que nos permitan tomar esas decisiones. en el foro de davos se introdujo en 2011 la concepción de los datos personales como nuevo activo de las empresas. desde entonces, la mirada a este mundo del big data ha tenido una visión utilitarista. es decir,

524

AleX RAyón JeRez

miradas sobre “¿Qué se puede hacer con los datos?” o “¿Qué puede aportar a mi empresa?”. sin embargo, no debemos dejar de lado la perspectiva legal y ética. en ella, destacan tres elementos: la propiedad intelectual de los datos (consentir el empleo de los datos que cedemos sin explicarnos con más detalle qué harán con ellos debe ser un elemento de reflexión); la privacidad (que no solo es garantizar anonimato, sino también reconocer la naturaleza temporal y cambiante de los datos); y, las discriminaciones positivas y negativas (que un algoritmo no tome decisiones sin el valor social que aporta la perspectiva humana). con estos retos éticos y legales encima de la mesa, Jack balkin, profesor de la facultad de derecho de yale, sugiere que las empresas en internet que traten con datos personales y de preferencias debieran ser “fiduciarias de información“. Algo similar a lo que ya hacen los doctores y los abogados, que no pueden utilizar los datos para otros propósitos que no sean la defensa de sus intereses y necesidades. la utilización de la tecnología nunca es neutra. siempre hay personas diseñando y definiendo aspectos de la misma. los datos, tampoco son objetivos per se. son creaciones del ser humano. damos sentido y significado a los mismos a través de nuestras interpretaciones, por lo que creo deberíamos complementar las capacidades computacionales con las nuestras cognitivas. Por eso las máquinas nunca debieran trabajar de manera autónoma en todos los campos de la vida, dado que carecen de algunas capacidades básicas que sí tenemos los humanos. el libro “The Black Box Society: The Secret Algorithms That Control Money and Information” [28] de Frank Pasquale trata estos aspectos para considerar que los algoritmos se están apoderando de la economía pero no siempre considerando unos mínimos éticos. esta nueva economía digital en la que pagamos con datos personales el uso de productos y servicios, ha hecho que los gobiernos -quizás tarde- comiencen a regular algunas cuestiones. la confianza de los ciudadanos en el mundo digital es crucial para que las empresas puedan aprovechar el potencial económico de la información que da el big data.

Referencias

[1] deAn, JeFFRey, and sAnJAy GHemAWAt (2008): “mapReduce: simplified data processing on large clusters”, Communications of the ACM 51.1. 107-113. [2] PAGe, lAWRence, et al. (1999): The PageRank citation ranking: bringing order to the web.

el PARAdiGmA del biG dAtA y su APoRtAción A lA Gestión y estRAteGiA ...

525

[3] Von neumAnn, J. & GodFRey, m. d. (1993): “First draft of a Report on the edVAc”, IEEE Annals of the History of Computing, 15(4), 27-75. [4] ziKoPoulos, P. & eAton, c. (2011): Understanding big data: Analytics for enterprise class hadoop and streaming data. mcGraw-Hill osborne media. [5] dAVenPoRt, t. H. & PAtil, d. J. (2012): “data scientist”, Harvard business review, 90, 70-76. [6] mAyeR-scHönbeRGeR, ViKtoR, and KennetH cuKieR (2013): Big data: A revolution that will transform how we live, work, and think. Houghton mifflin Harcourt. [7] sinteF (2013, may 22): “big data, for better or worse: 90% of world’s data generated over last two years”, ScienceDaily. Retrieved november 13, 2016 from www.sciencedaily.com/releases/2013/05/130522085217.htm [8] scHWAb, KlAus, et al. (2011): Personal data: The emergence of a new asset class. An initiative of the World economic Forum. [9] mcAFee, AndReW, et al. (2012): “‘big data’. the management revolution”, Harvard Bus Rev., 90.10 - 61-67. [10] RiFKin, JeRemy (2014): La sociedad de coste marginal cero. Paidas, españa: barcelona. [11] cAstells, mAnuel (2009): “el poder en la sociedad red”, Comunicación y poder, 33-85. [12] dRucKeR, PeteR F. (1993): “We need to measure, not count”, Wall street journal, 13, A18. [13] dolAn, e. G. (1971): “tAnstAAFl (there Ain’t no such thing As A Free lunch)” the economic strategy for environmental crisis, new york, chicago, san Francisco, Atlanta, dauas, montreal, toronto, london, sydney. [14] sAVAGe, scott, and donAld m. WAldmAn (2013): “the value of online privacy”, Available at SSRN 2341311. [15] PReibuscH, söRen (2013): The value of privacy in Web search, the twelfth Workshop on the economics of information security (Weis). [16] stRAHileVitz, lioR JAcob, and mAttHeW b. KuGleR (2016): Is Privacy Policy Language Irrelevant to Consumers?. [17] KAPlAn, RobeRt s. and dAVid P. noRton (1996): The balanced scorecard: translating strategy into action. Harvard business Press. [18] beRGeR, PAul d. and nAdA i. nAsR (1998): “customer lifetime value: marketing models and applications”, Journal of interactive marketing, 12.1 17-30. [19] ARRoW, KennetH J. (1987): “Planning and uncertainty.” International Journal of Development Planning Literature, 2.2. [20] FisHeR, RonAld A. (1957): Statistical method and scientific inference, 64-66. [21] lAPlAce, PieRRe simon, and PieRRe simon (1951): A philosophical essay on probabilities, translated from the 6th French edition by Frederick Wilson truscott and Frederick lincoln emory.

526

AleX RAyón JeRez

[22] bReimAn, leo (2001): “statistical modeling: the two cultures (with comments and a rejoinder by the author)”, Statistical Science, 16.3 - 199-231. [23] RAnsbotHAm, sAm, dAVid KiRon, and PAmelA KiRK PRentice (2015): “the talent dividend”, MIT Sloan Management Review, 56.4 - 1. [24] cHAKRAboRty, GoutAm, and muRAli KRisHnA (2014): Analysis of unstructured data: Applications of text analytics and sentiment mining. sAs global forum. [25] AnAlytics mAtuRity Quotient FRAmeWoRK (2013): [online]. uRl: http://www.aryng.com/whitepaper/bgft/Aryng_AnalyticsmaturityQuotient_Whi tepaper.pdf [26] tHe diGitAl uniVeRse oF oPPoRtunities (2014): Rich Data and the Increasing Value of the Internet of Things. [27] mARR, beRnARd (2015): Big Data: Using SMART big data, analytics and metrics to make better decisions and improve performance. John Wiley & sons. [28] PAsQuAle, FRAnK (2015): The black box society: The secret algorithms that control money and information. Harvard university Press.