Facebook presentaba Rosetta a finales de 2018 con la idea de entender mejor los millones de imágenes que se subían a la red social. El sistema es capaz de extraer texto y clasificar esas imágenes de forma autónoma, pero dichos avances —también usados en Google— se pueden aprovechar para fines preocupantes.
Por ejemplo, para averiguar y recolectar matrículas de coches de policía. Varios expertos han descubierto que toda esa información se puede extraer y filtrar, lo que puede representar una amenaza potencial para la privacidad de personas y entidades.
Google, Facebook y los riesgos de la extracción masiva de datos
Rosetta se concibió como un sistema para «entender el texto en imágenes y vídeos con aprendizaje automático«. Esta herramienta estaba orientada a «mejorar experiencias como una búsqueda de fotos más relevante o la incorporación de texto a lectores de pantalla que hagan Facebook más accesible para personas con discapacidades visuales».
La propuesta, afirmaban los ingenieros de Facebook en su descripción de Rosetta, también permitiría ayudar a identificar contenidos inapropiados o dañinos «y mantener nuestra comunidad a salvo». El sistema es capaz de analizar y extraer el texto a diario y en tiempo real más de mil millones de imágenes públicas de Facebook e Instagram e incluso de fotogramas de vídeo.
¿Qué se logra con algo así? Pues que a cada una de esas imágenes se le añadan metadatos que la describan y que permitan etiquetarla y clasificarla fácilmente. El peligro de esa clasificación es que acabe permitiendo usos potencialmente peligrosos.
Es lo que por ejemplo indican los expertos en ciberseguridad de Quantika14, que han indicado que es posible hacer una extracción masiva ed esos datos sin que Facebook pueda impedirlo. El sistema identifica cuántas personas hay en una foto —y cuántas están sonriendo—, si esas personas están de pie, si están en un carril bici o ya puestos si están con una manguera echando agua.
Toda esa información queda almacenada y registrada en los parámetros de la imagen, y esa información puede extraerse una vez clasificada por Facebook. Los responsables del informe indicaban además cómo esto podía ser usado para descubrir que cada foto de un coche normalmente tenía asociada en esos metadatos la matrícula.
Otro ejemplo, es el que enseño en el vídeo. ¿Cómo obtener las matriculas de coches de la @policia o de una empresa?
1. Accedo a su página (https://t.co/MKYcHgHBzT)
2. Descargo enlaces de sus imágenes
3. Descargo el análisis de textos pic.twitter.com/kJceDE6YGq— Gorgue de Triana (@JorgeWebsec) February 9, 2022
Como explicaba uno de los miembros del equipo, eso hace posible por ejemplo obtener las matrículas de los coches de la Policía o de una empresa. Basta con acceder a la página web en Facebook del objetivo, descargar los enlaces de esas imágenes y luego descargar el análisis de los textos asociados a esos textos.
El descubrimiento de Quanktika no es nuevo: la empresa de análisis competitivo Molfar ya descubrió esa opción y mostró cómo en ciertos casos permitía seguir a personalidades.
El reconocimiento e identificación de matrículas a partir de fotos también es aprovechado desde hace años por Google —que ofrece su Cloud Vision API para estos propósitos—, y los riesgos de aplicar este tipo de análisis a los datos son evidentes.
En Xataka nos hemos puesto en contacto con los responsables de Google y Facebook para aclarar más el funcionamiento de este tipo de sistemas y su alcance, y actualizaremos esta información si nos aportan nuevos datos.
–
La noticia
Facebook extrae información de millones de fotos. Y se puede aprovechar para sacar las matrículas policiales
fue publicada originalmente en
Xataka
por
Javier Pastor
.