viernes, 15 de noviembre de 2013

Big Data: NO sin Gobierno, NO sin Gestión




Resumen: Para aquellos que no pudieron asistir a la ponencia sobre Big Data “en directo” y para los que sí que lo hicieron pero quieren refrescar ahora el tema expuesto, es que he preparado éste resumen detallado intercalando el texto escrito en el “Power Point”.

Muchas gracias a todos por las diferentes muestras de agrado que he recibido por la temática de la ponencia, en un momento que los escándalos del programa de espionaje PRISM de la NSA, basado en Big Data, está perjudicando tanto a dicho servicio. Yo soy del parecer que Big Data, bajo el control del gobierno de las empresas y organizaciones y velando por el cumplimiento legal y la privacidad, puede aportar un bien a las mismas y, por extensión, a toda la sociedad.

El objetivo de la ponencia es ayudar a entender un poco más Big Data y, a partir de ese conocimiento, poder gobernarlo y gestionarlo para obtener valor.

Gracias de corazón a la Organización de itSMF por su excelente labor y a todas y todos los que pudieron asistir en directo, confiando en haber sabido transmitirles el mensaje que da título a la ponencia: Big Data: NO sin Gobierno, NO sin Gestión.

Autor del artículo
Colaboración
JOSÉ LUIS COLOM PLANAS
Actualizado
15 de noviembre de 2013



Prefacio: Cada vez más los negocios, la economía y otros campos, hacen que sus decisiones se basen en datos y análisis, y menos en la intuición. Esa es la misión del Big Data que se abre paso rápidamente. Pero entraña riesgos.

Como cualquier Servicio de TI, Big Data debe ser gestionado en base a procesos y bajo el control del Gobierno corporativo para evitar que se escape de las manos. Sin olvidar las implicaciones en materia de protección de datos.

Estudiaremos un marco de Gobierno que incluya alineación estratégica con el negocio para entregar valor, Gestión de Riesgos, políticas...

Veremos que procesos “clásicos” inciden especialmente en la Gestión del Big Data desde el punto de vista del Servicio (ISO 20000:2011 y Cobit 5) y de la Seguridad de la Información (ISO 27001). Discutiremos si aparecen nuevos procesos específicos para Big Data.

Comentaremos los nuevos roles o desempeños profesionales que surgen a partir del Big Data y su relación con TI, ya que los expertos lo prevén como un generador de empleo.




ÍNDICE
1. INTRODUCCIÓN AL BIG DATA
1.1. Definición
1.2. Riesgos asociados
2. CARACTERÍSTICAS DE BIG DATA
2.1. Introducción
2.2. Volumen
2.3. Variedad
2.4. Velocidad
2.5. Variabilidad
2.6. Veracidad
3. ORÍGENES DE DATOS
4. ALGUNAS ÁREAS DE APLICACIÓN DE BIG DATA
5. TIPOS DE TÉCNICAS ANALÍTICAS
5.1. Clasificación
5.2. Aplicación
6. MODELO EbM (EVIDENCE BASED MANAGEMENT)
7. BIG DATA DEBE GESTIONARSE Y GOBERNARSE
8. GOBIERNO DE BIG DATA
8.1. Marco de gobierno de datos
8.2. Disciplinas fundamentales
8.2.1. Gestión de la calidad de los datos
8.2.2. Degradación de los datos
8.2.3. Gestión del ciclo de vida de la información
8.2.4. Seguridad y privacidad de la información
8.2.4.1. Seguridad de la Infraestructura
8.2.4.2. Privacidad de los datos
8.2.4.3. Gestión de los datos
8.2.4.4. Integridad y seguridad reactiva
9. GESTIÓN DE BIG DATA
9.1. Gestión de la capacidad y de la disponibilidad
9.2. Gestión del nivel de servicio
9.3. Gestión del riesgo y de la seguridad
9.4. Gestión de las relaciones con el negocio
9.5. Gestión financiera (Presupuesto y contabilidad de servicios)
10. ROLES RELACIONADOS CON BIG DATA
10.1. Específicos funcionales
10.1.1. Big Data Manager (Gestor)
10.1.2. Big Data Scientist (Científico de Datos)
10.1.3. Big Data Analyst / Explorer (Analista de datos)
10.1.4. Big Data Visualizer (Visualizador)
10.2. Específicos de infraestructura
10.2.1. Big Data Solutions Architect (Arquitecto de soluciones)
10.2.2. Big Data engineer (Ingeniero de sistemas)
10.3. De calidad de datos
10.3.1. Big Data Steward (Administrador)
10.3.2. Big Data Hygienist (Higienista)
10.4. De seguridad y privacidad
10.4.1. CISO (Chief Information Security Officer)
10.4.2. DPO (Data Protection Officer)


1. INTRODUCCIÓN

1.1. DEFINICIÓN

Sería una pobre simplificación hablar de Big Data refiriéndose exclusivamente a grandes volúmenes de datos.

Siempre han existido grandes corporaciones cuyas BB.DD. (Bases de Datos) cuentan con elevado volumen de información, y no por ello las consideramos Big Data.


Una analogía en el mundo “no digital” (como puede apreciarse en la diapositiva 5) sería una planta de reciclaje a la que llegan a toda velocidad camiones que depositan una gran cantidad de fardos compuestos por papeles prensados, procedentes de múltiples orígenes (colegios, oficinas, despachos profesionales, domicilios particulares…) y en los más variados formatos (hojas sueltas, cartulinas, periódicos, libretas, libros…) y tamaños (A4, A3, no estándar…). Tal variedad conforma un entorno de datos difícil de tratar con las infraestructuras y técnicas conocidas hasta ahora. Ése es el entorno de Big Data trasladado a su equivalente digital.

Si bien pueden encontrarse diversas definiciones del término Big Data, en general puede decirse que se trata de datos que no pueden ser capturados, almacenados ni analizados ni con la infraestructura, ni con el software tradicional que se han empleado hasta ahora.

Específicamente el término “Big Data” se refiere a las herramientas, procesos y procedimientos que permiten a las organizaciones generar, manipular y administrar grandes cantidades de datos, de múltiples orígenes y en diversos formatos, para explotarlos en su beneficio.

1.2. RIESGOS ASOCIADOS

El mundo está inmerso en la revolución de la información y el conocimiento, por lo que tiene una clara tendencia a centrarse en los datos.

Unos para obtener, de forma legítima, el máximo rendimiento y conocimiento de ellos (Big Data y técnicas analíticas) y, otros, para preservarlos y proteger la esfera de privacidad de las personas. En consecuencia, es esencial encontrar un equilibrio entre los beneficios de las tendencias innovadoras y los riesgos relacionados con la privacidad.

Es un concepto que introdujo Ann Cavoukian (Comisionada de información y privacidad de Ontario) que se conoce por PbD (Privacy by Design – Privacidad desde el Diseño), que busca una relación win-win (ganar-ganar) en los nuevos proyectos que, como Big Data, sean susceptibles de incorporar datos personales.


2. CARACTERÍSTICAS DE BIG DATA

2.1. INTRODUCCIÓN

Llegados a este punto ya sabemos que, únicamente con volúmenes elevados de datos, no podemos hablar de Big data. Hace falta algo más.

Hace falta disponer de volúmenes de datos suficientes para que los muestreos sean representativos, de varios orígenes para poder correlacionarlos y también de técnicas analíticas para poder obtener conocimiento. Si únicamente nos limitamos a almacenarlos no obtenemos provecho de ellos y es lo que se conoce como “Síndrome de Diógenes digital”.

Las diferentes propuestas parece que están inmersas en un conjunto de características, cuyos vocablos empiezan todos por la letra “V” (Volumen, Variedad, Velocidad, Variabilidad, Veracidad… Valor). O es una gran coincidencia o a los expertos les gusta jugar con las palabras…

La mayoría está de acuerdo, sin embargo, que para poder hablar de Big Data de todas ellas las sustanciales son las tres primeras (volumen, variedad y velocidad) sumadas al tratamiento analítico. Normalmente la velocidad es circunstancial ya que dependerá en alguna medida de las dos primeras.


2.2. VOLUMEN

Se define como el espacio requerido para almacenar los datos que, dada la naturaleza de Big Data, pueden ser de diferentes tipos (estructurados, semiestructurados o desestructurados).

Actualmente se está escalando en capacidad de Terabytes a Zetabytes, sin vislumbrarse un final.

2.3. VARIEDAD

Se define como los múltiples formatos de datos que pueden concurrir en Big Data procedentes de diversos orígenes de datos (Texto, datos de sensores, audio, video, data streams, Blogs, Redes Sociales, archivos de LOGs…). Esta complejidad imposibilita los medios tradicionales de almacenamiento y tratamiento.

2.4. VELOCIDAD

Tiene dos posibles interpretaciones:

·       Por un lado tiene que ver con “datos en movimiento” y se define como la cantidad de información por unidad de tiempo que debemos obtener simultáneamente de los diferentes orígenes de datos para almacenarla y/o tratarla.

·       Por otro puede interpretarse como la velocidad a la que los datos van a prescribir. A medida que aumentan los volúmenes, el valor de los datos individuales tiende a disminuir más rápidamente con el tiempo, por lo que las organizaciones deben estar en condiciones de analizar esta información prácticamente en tiempo real para, una vez extraído su valor, eliminarla. En términos de tecnología esto se denomina “Streams Computing”, en la cual es posible ejecutar procesos que se parecen a una “consulta continua”.

2.5. VARIABILIDAD

Podemos definirla como las diferentes formas en las que los datos pueden ser interpretados en función del contexto y de la consulta. Diferentes consultas pueden requerir diferentes interpretaciones.

2.6. VERACIDAD

La información debe ser verificada para poder apoyarse en ella en la toma de decisiones. La Integridad como atributo de seguridad deberá preservarse.


3. ORÍGENES DE DATOS

Big Data puede aglutinar diferentes orígenes de datos. Éstos pueden ir desde los más novedosos como pueden ser los procedentes de Social Media (feeds de twitter©, publicaciones en Facebook©…), hasta TI tradicional (BB.DD. procedentes de ERPs, CRMs…), pasando por lecturas biométricas o de sensores de máquinas (IoT – Internet of Things / Internet de las cosas).


4. ALGUNAS ÁREAS DE APLICACIÓN DE BIG DATA







5. TIPOS DE TÉCNICAS ANALÍTICAS

5.1. CLASIFICACIÓN
  • Las técnicas descriptivas se ocupan de lo que ha sucedido en el pasado, categorizando, caracterizando y clasificando datos históricos (generalmente estructurados).
  • Las técnicas predictivas utilizan la comprensión del pasado y el presente para predecir situaciones futuras.
  • Las técnicas prescriptivas proporcionan a los responsables de tomar decisiones alternativas sofisticadas (conocimientos creados con niveles sustanciales de velocidad, tamaño, validez, alcance y profundidad) para determinar cuáles son las mejores respuestas.




En base a ello, podemos atrevernos a ver las diferencias entre BI (Business Intelligence) y Big Data:
  • BI es una vista de retrovisor, un análisis de los datos del pasado para a partir de ellos intentar ver como se ha comportado la organización, un área funcional o cualquier aspecto de las mismas. En algunos casos dicho conocimiento nos permitirá intuir cómo evolucionará en el futuro. Normalmente utiliza datos de las BB.DD. estructuradas de la propia empresa. Utiliza técnicas analíticas descriptivas y en algún caso predictivas.
  • Big Data suele analizar datos del pasado y del presente, de las BB.DD. de dentro de la empresa pero también de fuera, como hemos visto es múltiples formatos. A partir de correlacionarlos podremos predecir la evolución futura o incluso nos prescribirá acciones recomendadas. Utiliza técnicas analíticas predictivas y prescriptivas.


5.2. APLICACIÓN

Con la atención puesta hoy en día en la transparencia y la responsabilidad en el gobierno y la gestión empresarial, toda la presión se traslada a cómo se toman las decisiones.

En consecuencia, la analítica ha de permitir a las empresas aprovechar las oportunidades subyacentes y afrontar las  situaciones que se vayan planteando, cada vez más complejas, con decisiones mejor sopesadas.  

La analítica debe convertirse en una competencia más de la Gestión y para construirla se requiere que las organizaciones se centren en cuatro imperativos estratégicos:
  • Orientación a resultados. Centrarse en los resultados para ir más allá de los problemas.
  • Gestión de la Información. Orientar la gestión de la información en torno a su aprovechamiento.
  • Disciplina analítica. Modelar e incorporar la disciplina analítica en los medios de gestión.
  • Uso analítico. Utilizar conocimientos derivados del análisis para cumplir objetivos específicos.


6. MODELO EbM (EVIDENCE BASED MANAGEMENT)

Una de las tendencias innovadoras, a nivel mundial,  en cuánto a la administración o la Gestión empresarial es la EbM (Evidence based Management) conocida en España como ABE (Administración basada en Evidencias) y que entre otros difunde el API (Advanced Performance Institute).

La idea no es nueva ya que originariamente ésta surgió en la Universidad de Sevilla durante el curso de doctorado Economía y Administración de empresas 1998-2000, donde se impartió un módulo titulado “Administración de organizaciones basada en la evidencia”, como parte del programa Dirección de Empresas y Gestión de Marketing.

Partiendo de la estrategia del negocio, se aplica un modelo basado en cinco fases:
  • DEFINIR los objetivos y necesidades de información
  • RECABAR la información adecuada
  • ANALIZAR la información y obtener conocimiento
  • PRESENTAR y comunicar el conocimiento
  • ADOPTAR decisiones basadas en la evidencia

Este ciclo continuado para asistir de forma rigurosa a la toma de decisiones empresariales, se apoya en la infraestructura de TI y en BI y Big Data como habilitadores.

Hago notar que la fase 1 (definir los objetivos y necesidades de información) no tiene flecha desde los habilitadores, ya que depende exclusivamente de la estrategia empresarial acordada por los órganos de gobierno corporativo. En otras palabras, en éste modelo EbM recurrimos a los habilitadores una vez tenemos claros los objetivos.  Esto será vital para permitirnos fijar unos SLA.

En consecuencia, Big Data no es un fin en sí mismo, sino un habilitador que permitirá administrar y gestionar diferentes áreas empresariales de forma más rigurosa en base a evidencias.


7. BIG DATA DEBE GESTIONARSE Y GOBERNARSE

Big Data y las técnicas analíticas, aunque es una iniciativa que surge del y para el negocio, requiere de TI para darle soporte. Debe integrarse en TI.

Podríamos considerarlo como otro u otros servicios que TI ofrece a los usuarios que, evidentemente, estarán adscritos y serán aprovechados por los demás departamentos y áreas funcionales de la empresa.

Por consiguiente, al igual que ésos servicios se gestionan en base a unas mejores prácticas y se les aplica la parte que les corresponde dentro de un marco de gobierno corporativo, al Big Data también.




Es imprescindible antes de abordar ésta parte de la ponencia, poner en común que entendemos por gobernar y que entendemos por gestionar. Ha de quedar claro que son conceptos muy diferentes.

También decir que el camino u hoja de ruta para ir de la situación actual hacia la visión de futuro que tiene la empresa, de entre los muchos posibles, es la estrategia.
  • Gobernar es asegurar unos objetivos, en base a la estrategia empresarial, a partir de unos recursos determinados y manteniendo el riesgo a niveles aceptables.
  • Gestionar es procurar por la eficacia y la eficiencia en los procesos que soportan a los servicios. En éste caso en los procesos de TI que soportan el servicio de Big Data.


Gobierno y Gestión no son capas aisladas, sino que deben dialogar entre ellas. Concretamente:
  • La capa de Gobierno se comunica hacia la capa de Gestión elaborando, aprobando y promulgando políticas.
  • La capa de Gestión se comunica con la capa de ejecución y operaciones, redactando y proporcionando mapas de procesos y procedimientos de cómo están definidos los procesos y como deben operarse mediante las tareas necesarias para cada actividad en función de una matriz de responsabilidades.

No debe permitirse que Big Data sea un “silo” más en la empresa. Para ello debe integrarse en la estructura de procesos de TI.

Cuánto mayor nivel de madurez tengamos en TI, menos complicado será lograr su integración de forma efectiva.

8. GOBIERNO DE BIG DATA


8.1. MARCO DE GOBIERNO DE DATOS

Partiremos del “IBM Data Governance Council Maturity Model” que se trata de un marco para el gobierno genérico de datos que puede ser también adaptado, con suma facilidad, al gobierno de Big Data.

Se divide en cuatro áreas:
  • Los OBJETIVOS, que persigue el marco de gobierno, alineados con los de la propia organización.
  • Unos HABILITADORES cuyo nivel de madurez facilitará la aplicación del propio marco de gobierno.
  • Unas DISCIPLINAS FUNDAMENTALES que, por consiguiente, tendrán una incidencia directa en la consecución de los objetivos.
  • Unas DISCIPLINAS DE APOYO, que también son necesarias.


Podemos ampliarlo diciendo:

Los objetivos del marco de gobierno, consisten en favorecer los resultados empresariales. Éstos pueden resumirse en dos:
  • Obtención de beneficios para todas las partes interesadas (Accionistas, empleados, clientes, proveedores y la sociedad en general, cada parte en su justa medida).
  • La permanencia en el tiempo de la empresa.

Recordemos que se gobierna para asegurar unos objetivos, en base a la estrategia empresarial, a partir de unos recursos.

Los habilitadores son las estructuras, y su madurez, de que dispone la empresa:
  • Estructuras y conocimiento organizacional (su EA (Arquitectura Empresarial), su Sistema de Gestión basado en procesos con su nivel de madurez y especialmente la Gestión del Conocimiento).
  • El sistema de administración de los recursos, ya que hemos visto antes que gobernar es asegurar unos objetivos a partir de unos recursos.
  • Gestión del riesgo relacionado con los datos. Hemos visto que se gobierna manteniendo el riesgo a niveles aceptables.
  • Políticas. Hemos visto que es mediante ellas que la capa de Gobierno se comunica con la capa de Gestión y si me apuráis con toda la empresa.

Las disciplinas fundamentales para la consecución de los objetivos son:
  • La Gestión de la calidad de los datos.
  • La Gestión del ciclo de vida de la información.
  • La seguridad y privacidad de la información.

Tampoco deben descuidarse otras disciplinas de apoyo:
  • Arquitectura de datos. Trata de la arquitectura que definiremos para los datos de Big Data y de las interfaces con los diferentes orígenes donde los obtendremos.
  • Metadatos y clasificación. Los metadatos serán esenciales para preservar los significados contextuales, ya que podríamos definir un metadato como un dato que describe a otro dato.  También es importante unificar un diccionario de datos con idénticas definiciones para toda la empresa, asegurando así la consolidación de información proveniente de diferentes orígenes y entre áreas funcionales de la compañía.
  • Auditorías de la información. Son la única forma rigurosa que la alta dirección tiene para verificar que el marco de gobierno está funcionando según los objetivos previstos.


8.2. DISCIPLINAS FUNDAMENTALES

8.2.1. Gestión de la calidad de los datos

Hay un dicho popular que aplica a la calidad de los datos: “Si a un sistema informático le entra porquería, también le saldrá porquería”.

Quiere ello decir que la gestión de la calidad de los datos será sustancial en Big Data y las técnicas analíticas asociadas, cuyo objetivo final será la toma de decisiones basadas en evidencias extraídas de la información. Si los datos no son de calidad, las conclusiones tampoco serán correctas.

NOTA DEL EDITOR: Aunque aquí hablamos de calidad de los datos en sentido estricto, en Protección de Datos Personales existe el llamado principio de la Calidad de los Datos que viene a ser un principio de principios. Se trata de una norma lo suficientemente amplia que incorpora otros principios, normas y criterios interpretativos que ayudan a determinar cómo se deben recabar, tratar y ceder (si procede) los datos de carácter personal. Dicho principio exige exactitud y corrección en los datos. También garantiza el derecho de acceso del titular a sus propios datos.

Puede consultarse en el TÍTULO II, Artículo 4. “Calidad de los datos” de la LO 15/1999, de 13 de diciembre, conocida como la LOPD.

Los datos deben ser:
  • Íntegros: Especifica que los datos, que deben conciliarse y proceden de múltiples orígenes, no pierdan su integridad (sean completos, precisos y protegidos de cambios no autorizados).
  • Completos: Especifica que los datos deben almacenarse sin truncamientos que los desvirtúen y si varios datos son complementarios, deben almacenarse vinculados.
  • Actuales: Especifica cuando la información fue dada de alta en el sistema y su posible/probable fecha de prescripción.
  • Consistentes: Describe la coherencia lógica de la información.
  • Válidos: Confiables y acordes a la situación actual. También describe la credibilidad de la fuente que proporciona el dato.
  • Precisos: Describe la exactitud de los datos de entrada independientemente de los orígenes.

Cada uno de estos atributos de calidad, y cualesquiera otros que podamos definir, tendrán mayor o menor impacto en la consecución de los objetivos.

Deben establecerse procedimientos para medir y así poder garantizar el nivel de calidad de los datos.

8.2.2. Degradación de los datos


Para poder gestionar la calidad de los datos, debemos conocer todo aquello que pueda favorecer su degradación. En la diapositiva 17 podemos ver diferentes limitadores y sus efectos sobre la calidad de los datos.

8.2.3. Gestión del ciclo de vida de la información

Los datos también están sujetos a un ciclo de vida. Concretamente:
  • Se CREAN
  • Se ALMACENAN
  • Se USAN
  • Se COMPARTEN
  • Se ARCHIVAN
  • Se DESTRUYEN




Cada fase deberá contar con medidas específicas para garantizar la seguridad y  privacidad necesarias.


8.2.4. Seguridad y privacidad de la información

Es intuitivo pensar que un entorno de éstas características planteará más dificultades que uno tradicional en la preservación de la seguridad y privacidad.

Para analizarlo nos basaremos en el documento publicado por la CSA (Cloud Security Alliance) titulado “Top ten Big Data security and privacy challenges” que traducido significa los 10 principales retos de privacidad y seguridad de Big Data.

En él se plantean cuatro dominios de actuación:
  • Seguridad de la Infraestructura
  • Privacidad de los datos
  • Gestión de los datos
  • Integridad y seguridad reactiva


8.2.4.1. Seguridad de la Infraestructura

En relación a la seguridad de la infraestructura, hemos de tener en cuenta que la mayoría de soluciones se plantean mediante una estructura de almacenamiento y entornos de programación distribuidos.

Como ejemplo veamos el flujo de trabajo típico mediante Hadoop:
Se cargan los datos hacia el cluster de nodos (escrituras HDFS – Hadoop File System)
  • Se analizan los datos (Map Reduce)
  • Se almacenan los resultados en el cluster de nodos (escrituras HDFS)
  • Se leen los resultados del cluster (lecturas HDFS)
Por defecto Hadoop hace 3 copias de cada bloque en nodos distintos del cluster, aunque esto puede ser configurado mediante el parámetro dfs.replication en el fichero hdfs-site.xml.

8.2.4.2. Privacidad de los datos

Cuando hablamos de privacidad debemos centrarnos en los datos de naturaleza personal.

Es imprescindible una clasificación de los mismos en función de su nivel de sensibilidad y dotarles de las medidas de seguridad adecuadas, como se recoge en el título VIII (De las medidas de seguridad en el tratamiento) del RD 1720/2007, de 21 de diciembre y que es el Reglamento de desarrollo de la LO 15/1999, de 13 de diciembre de protección de datos de carácter personal.

Hay dos puntos de riesgo relacionados con la privacidad en el Big Data:

·       Por un lado la posibilidad de obtener detallados perfiles de conducta de las personas en base al análisis continuado, a través de Internet de aspectos relacionados con la interacción de los afectados, por ejemplo, en las diferentes redes sociales.

·       Por otro, permitir el acceso granular a la información almacenada en Big Data, sin los oportunos controles de confidencialidad o de anonimización de contenidos.


El principio de limitación de la finalidad es uno de los más delicados en relación al Big Data. Paso a transcribir la traducción de parte de un comunicado de prensa del GT29 (Grupo consultivo de privacidad europeo conocido como “del artículo 29”) publicado en Bruselas, el 8 de abril de 2013:

“Las autoridades europeas de protección de datos clarifican el principio de limitación de la finalidad, reconociendo que protege a los interesados ​​mediante el establecimiento de límites en el recabado y posterior tratamiento de sus datos.

Cuando una persona proporciona sus datos personales a una empresa u otra organización, usualmente tiene ciertas expectativas acerca de la finalidad para la que sus datos serán utilizados. Hay un valor en honor a estas expectativas que es la preservación de la confianza y la seguridad jurídica. Por ello, el principio de limitación de la finalidad es una piedra angular de la protección de datos.

No obstante, los datos que ya han sido recogidos pueden ser realmente útiles para otros propósitos, que no han sido previstos inicialmente. Por lo tanto, también hay valor en permitir, dentro de límites cuidadosamente equilibrados, un cierto grado de uso adicional.

 El principio de limitación de la finalidad está diseñado para ofrecer un enfoque equilibrado:
  • Por un lado tiene como objetivo conciliar la necesidad de la previsibilidad y la seguridad jurídica en relación con los fines del tratamiento.
  • Por otro lado, la necesidad pragmática de proporcionar flexibilidad”.

Otro de los limitadores a la privacidad es, por la propia naturaleza de Big Data, la dificultad creciente de dar ágil cumplimiento a los derechos ARCO (Acceso, Rectificación, Cancelación y Oposición) de los afectados por dichos tratamientos, según el  título III (Derechos de acceso, rectificación, cancelación y oposición) del RD 1720/2007, de 21 de diciembre y que es el Reglamento de desarrollo de la LO 15/1999, de 13 de diciembre de protección de datos de carácter personal.

8.2.4.3. Gestión de los datos

En relación al volumen:

En las arquitecturas de Big Data los datos y los registros de transacciones se almacenan en medios de almacenamiento de múltiples niveles, normalmente constituidos en clusters por el sistema.

Tradicionalmente existía un movimiento planificado de los datos entre los diferentes niveles y tipos de almacenamiento de TI. El resultado era un control directo y exacto de TI sobre qué datos se mueven, dónde y cuándo.

Sin embargo, como en Big Data el tamaño del conjunto de datos no para de crecer de manera exponencial, en muchos casos para asegurar la escalabilidad y la disponibilidad se ha hecho necesario el auto-escalado (escalado automático) para su gestión.

Soluciones de auto-escalado no mantienen un registro de dónde se almacenan los datos, lo que plantea nuevos retos para asegurar el almacenamiento. Nuevos mecanismos son fundamentales para impedir el acceso no autorizado (confidencialidad),  manteniendo el sistema en modo 24/7 (disponibilidad).

En relación a la variedad:

No solo las dificultades de control están asociadas al volumen de los datos, sino también a la variedad.  La posibilidad de recabar datos de múltiples orígenes, distintos y dispersos, obliga a velar por su seguridad desde que se obtienen hasta que se utilizan, pasando por dónde se almacenan. En pocas palabras, a lo largo de todo su ciclo de vida.

Auditoría y control:

Las auditorías granulares, extremo a extremo, serán una buena práctica para detectar brechas en la seguridad de los datos tratados por los sistemas que soportan a Big Data.


8.2.4.3. Integridad y seguridad reactiva

Las validaciones y filtrados automáticos de “punto final” serán una eficaz medida para evitar el acceso a información sensible, con independencia de la lógica empleada en los “programas” de análisis y de sus posibles fallos.

Siguiendo la línea de la PbD (Privacidad desde el Diseño), y en base a un PIA (Análisis de Impacto en la Privacidad)  donde se analizan los riesgos asociados con la privacidad, deberán implementarse las medidas que ayuden a mitigarlos a niveles aceptables.

Aunque la mejor garantía, como ocurre en cualquier sistema de gestión de la seguridad, es la formación y concienciación de todas las personas intervinientes en el ciclo de vida de los datos (incluyendo quienes han de recibir los resultados de los análisis), junto a unos procedimientos de registro, comunicación y respuesta ante incidentes de seguridad.

La monitorización de la seguridad en tiempo real también será una buena práctica en los sistemas de Big Data, donde el volumen de los logs puede hacer que éstos sean intratables de forma manual.


9. GESTIÓN DE BIG DATA

Big Data y las técnicas analíticas no dejan de ser alguno de los servicios que proporciona TI a la organización. Por consiguiente, estarán integrados a la estructura de procesos de TI.

Estudiaremos aquí, sin embargo, aquellos procesos más significativos dadas las peculiaridades de Big Data, desde el punto de vista de la Norma ISO/IEC 20000-1:2011 y de COBIT 5.




9.1. Gestión de la capacidad y de la disponibilidad

Gestionar la capacidad y la disponibilidad manejando volúmenes ingentes de datos con crecimiento exponencial no es tarea fácil, pero resulta imprescindible para atender eficaz y eficientemente  las necesidades de información del negocio.

9.2. Gestión del nivel de servicio

La certificación ISO 20000-1 acredita la provisión de servicios de Big Data con una calidad constante, según se hayan acordado en los SLAs (Acuerdos de Nivel de Servicio), pese a su variabilidad en volumen.

9.3. Gestión del riesgo y de la seguridad

Si bien la seguridad de la Información ha de estar presente en todos los procesos del negocio, en entornos de Big Data el volumen, la variedad y la dispersión de los datos dificultan la gestión de la seguridad.

Debe velarse por preservar los siguientes atributos de la información tratada en el Big Data:

  • DISPONIBILIDAD: Garantizar que la información esté disponible y se pueda usar cuando se necesite.
  • CONFIDENCIALIDAD: Garantizar que la información esté disponible exclusivamente para personas autorizadas.
  • INTEGRIDAD: Garantizar que la información sea completa, precisa y protegida contra cambios no autorizados.

Es intuitivo que a mayor complejidad y volumen de la información, más difícil será protegerla de forma adecuada y proporcional al valor de la misma y a la evaluación de los riesgos asociados en base a:

·       Amenazas

·       Vulnerabilidades

·       Impacto para el negocio


9.4. Gestión de las relaciones con el negocio

Es importante entender que Big Data no es una iniciativa surgida del área de TI, sino del Negocio.

TI tiene que limitarse a gestionarlo como un servicio más y darle soporte tecnológico. Acordará un nivel de servicio en base a los requerimientos del Negocio. Por tanto costes y beneficios deberían estar pactados.

Lo que las empresas quieren es conocer mejor a sus clientes, las financieras solucionar temas de fraude y riesgo financiero, las Administraciones Públicas quieren saber cómo están funcionando los servicios al ciudadano…

Big Data está liderado desde el Negocio, aunque corresponda a TI proporcionarles soporte en Infraestructura y Software. En consecuencia las relaciones con todas las áreas del negocio serán sustanciales.

9.5. Gestión financiera (Presupuesto y contabilidad de servicios)

El crecimiento exponencial de los datos, los múltiples orígenes, la variedad de formatos, las consultas analíticas con determinado nivel de rendimiento, la infraestructura creciente….  Provoca que deba hacerse una previsión presupuestaria lo más afinada posible, a la vez que dotar de los mecanismos de auditoría para detectar a tiempo las desviaciones y la tendencia.


10. ROLES RELACIONADOS CON BIG DATA




10.1. Específicos funcionales

10.1.1. Big Data Manager (Gestor)

Se trata del gestor del/los servicio/s de Big Data. Normalmente gestiona y coordina al equipo constituido por científicos, analistas y visualizadores, pudiendo incluir a administradores e higienistas de datos.


10.1.2. Big Data Scientist (Científico de Datos)

Una vez capturados los datos desde determinados orígenes, el científico de datos debe involucrarse en ayudar a preparar los datos para ser utilizados cuando se precisen y sea posible. Puede incluso no saber las preguntas pertinentes a hacer sobre los datos antes de su análisis, ya que algunos de sus más valiosos descubrimientos destaparán estas preguntas.

Suele crear sofisticados modelos analíticos (estadísticos y predictivos) que aplicará sobre grandes conjuntos de datos en bruto para obtener conclusiones.


10.1.3. Big Data Analyst / Explorer (Analista de datos)

El Explorador de datos está más interesado en el descubrimiento iterativo a partir de conjuntos de datos concretos y más elaborados (aunque no siempre se disponen organizados de la mejor forma para tratarlos), que son más adecuados para tomar decisiones de negocio.

El explorador es por lo general más apropiado que el científico para poder ayudar a responder a las preguntas predefinidas del negocio, mediante herramientas analíticas y de  presentación de informes que le permiten acceder, investigar y analizar los datos.

10.1.4. Big Data Visualizer (Visualizador)

Hoy en día, la mayoría de quienes toman decisiones lo hacen basándose en la información que se les presenta en un formato muy visual (ya sea en cuadros de mando con alertas de colores y "diales", o mediante tablas y gráficos que se puedan entender fácilmente). Las organizaciones necesitan profesionales que puedan aprovechar los datos poniéndolos en contexto, usando representaciones intuitivas y un lenguaje común que ayuden a comprender lo que significan los datos y cómo afectarán a la compañía.


10.2. Específicos de infraestructura

10.2.1. Big Data Solutions Architect (Arquitecto de soluciones)

Las organizaciones que manejan Big Data necesitan profesionales que sean capaces de definir arquitecturas de datos y planear un esquema de cómo y cuándo diversos orígenes de datos y las herramientas analíticas estarán en línea, y cómo todas encajarán.


10.2.2. Big Data engineer (Ingeniero de sistemas)

Estas son las personas que diseñan la gran infraestructura, que soportará los datos y sus tratamientos, según los requerimientos del negocio y además hacen que funcione sin problemas en el día a día.


10.3. De calidad de datos

10.3.1. Big Data Steward (Administrador)

Cada byte de datos a lo largo de la empresa debe pertenecer a alguien. Idealmente a una línea de negocio. Los administradores de datos se aseguran que las fuentes de datos sean debidamente contabilizadas y también pueden mantener un repositorio centralizado como parte de la gestión de un repositorio de datos maestros, en el cual hay una “gold copy” de los datos empresariales a ser referenciados.


10.3.2. Big Data Hygienist (Higienista)

Su cometido es  asegurarse de que los datos que entran en el sistema sean íntegros, y se mantengan con el adecuado nivel de calidad durante todo el ciclo de vida. Todos los valores de los datos tienen que tener mismo formato para que las comparaciones sean posibles. Esta limpieza de datos comienza en el origen, donde los datos se capturan inicialmente, e involucra a todos los miembros del equipo que tocan los datos en cualquier fase de los procesos.


10.4. De seguridad y privacidad

10.4.1. CISO (Chief Information Security Officer)

El CISO no es un rol de Big Data, sino que existe en las organizaciones con el objetivo de asegurar la información empresarial. Entre sus atribuciones está la de supervisar el SGSI (Sistema de Gestión de la Seguridad de la Información, asesorar a los órganos de Gobierno corporativo sobre las políticas que deban aprobarse más adecuadas a la realidad de la seguridad de datos de la empresa y, caso de no existir un DPO, velar por el cumplimiento regulatorio en  materia de protección de datos.

10.4.2. DPO (Data Protection Officer)

Tampoco es un rol específico para Big Data. Su función es velar por el cumplimiento regulatorio en materia de protección de datos de la organización.

El borrador del nuevo RGPDUE (Reglamento general de protección de datos de la Unión Europea) lo contempla como una figura clave, que incluso podría ser obligatoria en grandes empresas y en aquellas que se justifique por el tipo de tratamientos que realicen con datos de naturaleza personal.




11. BIBLIOGRAFÍA RECOMENDADA

- Bernard Marr. “The Intelligent Company” – Five steps to success with Evidence-Based Management. 2010. John Wiley & Sons Ltd.

- Sunil Soares. “Big Data Governance” – An Emerging Imperative. October 2012. MC Press Online, LLC.

- ARTICLE 29 DATA PROTECTION WORKING PARTY. “Opinion 03/2013 on purpose limitation”. 2 April 2013. 00569/13/EN.
WP203 Limitación de finalidad

- CSA (Cloud Security Alliance). “Top Ten Big Data Security and Privacy Challenges”. November 2012.
CSA Top Ten

- ISACA. “Privacy & Big Data – An ISACA White paper”. August 2013.
ISACA White paper

- José Luis Colom. “Big Data, BDaaS y privacidad”. Febrero 2013. Blog “Aspectos Profesionales”.
Artículo de Big Data


12. DERECHOS DE AUTOR


Imágenes bajo licencia 123RF internacional. La licencia únicamente es válida para su publicación en este blog.

La presente obra y su título están protegidos por el derecho de autor. Las denominadas obras derivadas, es decir, aquellas que son el resultado de la transformación de ésta para generar otras basadas en ella, también se ven afectadas por dicho derecho.






Sobre el autor:




José Luis Colom Planas Posee un doble perfil, jurídico y técnico, que le facilita el desempeño profesional en el ámbito de los diferentes marcos normativos, especialmente del Derecho de las nuevas tecnologías y las normas ISO de adscripción voluntaria.

A nivel de especialización jurídica, ha realizado el postgrado de Especialista Universitario en Protección de Datos y Privacidad en la Facultad de Derecho de la Universidad de Murcia, disponiendo de la certificación  CDPP (Certified Data Privacy Professional) del ISMS Fórum Spain. También ha cursado el programa superior de Compliance Officer (Controller jurídico) en la Escuela Legal WKE y se ha especializado respecto a los delitos de blanqueo de capitales en la UOC, en colaboración con el Ilustre Colegio de Abogados de Barcelona (ICAB). Es experto externo en prevención de blanqueo de capitales, certificado por INBLAC.

A nivel de especialización técnica, ha cursado Ingeniería técnica de Telecomunicaciones en “la Salle BCN” estando adscrito a la AEGITT (Asociación Española de Graduados e Ingenieros Técnicos de Telecomunicación). Es Auditor e Implantador de SGSI (Gestión de la Seguridad de la Información) por AENOR (Asociación Española de Certificación y Normalización). Leader Auditor & Implanter ISO 27001 e ISO 22301 by BSI (British Standards Institution). Auditor del esquema de certificación STAR para prestadores de servicios de Cloud Computing (BSI + Cloud Security Alliance). Ha obtenido la certificación internacional CISA (Certified Information Systems Auditor) by ISACA (Information Systems Audit and Control Association). Dispone de las certificaciones ISO 20000 PMI (Process Management Improvement) e ITIL Service Management by EXIN (Examination Institute for Information Science).

Desempeña su labor profesional en GOVERTIS Advisory Services cómo Compliance, Management & IT Advisor, incidiendo en Compliance Penal, PBCyFT, asesoramiento respecto a cumplimiento normativo, privacidad  y gestión de la seguridad de la información.  Ha participado como lead implementer y lead auditor de diferentes sistemas de gestión basados en Normas ISO, individuales o integrados, y en la optimización de sus procesos. Ha realizado diferentes niveles de auditorías de cumplimiento legal ya sea para organizaciones sujetas a Derecho público o privado.

También colabora con BSI como auditor jefe de certificación e impartiendo formación para la obtención de la certificación de lead auditor, en diferentes marcos normativos. A partir de su dilatada experiencia, edita el Blog temático “Aspectos Profesionales”.

Convencido del valor que aportan las organizaciones profesionales, es asociado sénior de la APEP (Asociación Profesional Española de Privacidad), miembro de ISACA (Information Systems Audit and Control Association), miembro de ISMS Forum Spain (Asociación Española para el Fomento de la Seguridad de la Información), miembro de itSMF (IT Service Management Forum), ATI (Asociación de Técnicos de Informática), ENATIC (Asociación de expertos nacionales de la abogacía TIC), CUMPLEN (Asociación de Profesionales de Cumplimiento Normativo) y   asociado de INBLAC (Instituto de expertos en prevención del Blanqueo de Capitales),  habiendo sido ponente o colaborado en casi todas las referidas organizaciones. También lo es de la iniciativa del Observatorio Iberoamericano de Protección de Datos (OIPRODAT) habiendo obtenido, junto a algunos colaboradores del mismo, un premio compartido otorgado por la AEPD.



No hay comentarios:

Publicar un comentario