

Cómo el machine learning puede mejorar la ciberseguridad de tu empresa
El aprendizaje automático se erige como una técnica imprescindible para detectar ciberataques. Se trata de una herramienta en constante evolución que puede convertir la enorme cantidad de datos recopilada por las compañías en su mejor defensa

La ciberseguridad de las empresas se ha convertido en un asunto de vital importancia desde que la digitalización irrumpió en todo tipo de compañías, independientemente de su sector o modelo de negocio. Cualquier organización que haya digitalizado sus operaciones ha pasado a depender de sus sistemas de información, por lo que garantizar su seguridad se convierte en un imperativo.
Para esta tarea, el aprendizaje automático (machine learning) se erige como una técnica imprescindible, según señala el profesor de Esade Marc Torrens en un artículo publicado en Harvard Deusto. Su utilidad reside en la capacidad para identificar situaciones excepcionales susceptibles de ser ataques digitales. Es decir, revela contextos que se salen de lo habitual y avisa a la empresa para que reaccione del modo más oportuno.
El machine learning permite detectar situaciones anómalas en los sistemas y analizar vulnerabilidades
El combustible del aprendizaje automático son los datos. Su eventual eficacia dependerá de la calidad de la de la información recibida, y no tanto de la cantidad. Aplicado a la ciberseguridad en concreto, el machine learning se alimenta de datos obtenidos de las interacciones en los sistemas de información de la empresa, ya sean aplicaciones, sensores de red, computadores, protocolos... Dichas interacciones pueden ser externas o internas y afectar a cualquiera de los dispositivos conectados a la red de la organización.
De este modo, puesto que el sistema de aprendizaje automático ha sido entrenado para reconocer las interacciones habituales que se dan en el seno de la empresa, también estará capacitado para detectar patrones que escapen a la norma; es decir, posibles ciberataques.
"A partir de toda esa información, las técnicas de machine learning aprenden a detectar situaciones anómalas, analizando posibles vulnerabilidades en los sistemas de información de las empresas”, explica Torrens.
Demasiada información
Pese a todo, el auténtico reto del machine learning no tiene tanto que ver con los procesos de aprendizaje como con la gestión de los datos de los que aprende. Esta información puede llegar a gran velocidad y en una inmensa cantidad, por lo que el desafío reside en gestionar adecuadamente ese enorme torrente de datos.
Según el profesor de Esade, es por ese motivo que “el aprendizaje automático de la ciberseguridad tiene más que ver con la ingeniería de datos que con la ciencia de datos”.
El desafío reside en gestionar el enorme torrente de datos que alimentan el aprendizaje automático
Muchos de los datos capturados en las empresas no son explotados de ninguna forma. Es lo que se llama dark data o datos oscuros. En muchas organizaciones, una gran parte de esta información se almacena por razones regulatorias, pero nunca es analizada. Sin embargo, estos datos pueden resultar muy útiles para que el machine learning detecte posibles ciberataques.
Por otro lado, el coste de gestionar y almacenar gran cantidad de datos se ha reducido mucho en los últimos diez años. La implementación generalizada de la computación en la nube (cloud computing) se ha convertido en el gran aliado de las empresas para manejar esos datos oscuros, pues permite delegar en un proveedor externo la compleja y costosa arquitectura que requieren.
Aprender de los datos
De acuerdo con la clasificación de Torrens, existen dos enfoques de aprendizaje automático para entrenar a un sistema en la detección de ciberataques:
1. Aprendizaje supervisado.
En este caso, se requiere clasificar el conjunto de diferentes situaciones en dos categorías: las situaciones corrientes y las anómalas. Así, el modelo resultante es un clasificador que detecta qué situaciones son posibles vulnerabilidades del sistema. La dificultad de todo ello radica en construir y definir adecuadamente el conjunto de situaciones consideradas anómalas para que el algoritmo aprenda a clasificar correctamente.
De este modo, el modelo identificaría aquellas situaciones anómalas que tienen una cierta probabilidad de vulnerabilidad. Pero como es de esperar, existe un margen de error. Siempre puede ocurrir que el modelo se equivoque, bien porque identifica situaciones de vulnerabilidad que en realidad no lo son (falso positivo) o porque deja pasar situaciones de vulnerabilidad sin detectarlas (falso negativo).
2. Aprendizaje no supervisado.
En este caso, a diferencia del anterior, no se necesita un conjunto de situaciones etiquetadas. Con este modelo, el sistema simplemente identifica qué situaciones son diferentes a la mayoría de casos y, por lo tanto, son candidatas a deberse a las vulnerabilidades del sistema.
Sea como fuere, Torrens afirma que “el machine learning, tanto aplicado a la ciberseguridad como en cualquier otro ámbito, es una ciencia experimental y requiere una constante revisión”. El principal motivo es que las situaciones a analizar y los posibles ciberataques están en continuo cambio y evolución. Por ello, el desarrollo de estas prácticas requiere una constante recopilación de datos y actualización de los modelos.

Profesor titular, Departamento de Operaciones, Innovación y Data Sciences en Esade
Ver perfil- Compartir en Twitter
- Compartir en Linked in
- Compartir en Facebook
- Compartir en Whatsapp Compartir en Whatsapp
- Compartir en e-Mail
Únase a la comunidad Do Better
Regístrese gratuitamente y reciba nuestras recomendaciones y contenido personalizado.