El Laboratorio de Propulsión a Chorro de la NASA y DARPA quieren reparar sus archivos PDF. Así es cómo.
2 min readReunión JPL, PDF.
Mientras que la NASA Laboratorio de Propulsión a Chorro (JPL) es conocido por pilotar rovers en marte y desplegar naves espaciales para estudiar planetas del sistema solarEl último proyecto de JPL es más realista: ensamblar el archivo más grande del mundo de archivos PDF disponibles públicamente para la investigación de seguridad.
Los archivos PDF son la forma más popular de documento digital en el mundo. Y si bien pueden parecer copias escaneadas de documentos en papel, en realidad son colecciones de texto activo, imágenes, películas y guiones que no son tan seguros como deberían debido a su ubicuidad. Para abordar esta inquietud, JPL se asoció con PDF Association, una organización sin fines de lucro, para desarrollar el nuevo Archivo de archivos que ayudará a los investigadores a analizar amenazas potenciales en una gran biblioteca de archivos PDF reales.
Relacionado: La Fuerza Espacial de EE. UU. quiere que las empresas privadas ayuden a contrarrestar las “amenazas emergentes” en el espacio
El proyecto implica ensamblar aproximadamente 8 millones de archivos PDF con un total de más de 8 TB de datos de varias fuentes en línea. El esfuerzo es parte de una iniciativa de la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) llamada Documentos seguros (SafeDocs)cuyo objetivo es proteger los documentos digitales de códigos maliciosos y otros problemas de seguridad.
“Los archivos PDF se usan en todas partes y son importantes para contratos, documentos legales, diseños de ingeniería en 3D y muchos otros propósitos”, dijo Tim Allison, científico de datos del JPL, en un declaración. “Desafortunadamente, son complejos y pueden verse comprometidos para ocultar código malicioso o brindar información diferente para diferentes usuarios de manera maliciosa”. Para abordar estos y otros desafíos relacionados con PDF, se debe recopilar una gran muestra de PDF del mundo real de Internet para crear un recurso compartido y disponible gratuitamente para los expertos en software”.
Utilizando el depósito público de información de rastreo web disponible gratuitamente de Common Crawl como punto de partida, los investigadores del JPL identificaron archivos PDF para agregar a la colección, incluidos aquellos que estaban incompletos debido al límite de descarga. Luego, JPL accedió a estas URL de PDF directamente para descargar los documentos completos, lo que garantiza un archivo totalmente representativo de los tipos de PDF accesibles en la web.
Al poner la colección a disposición del público, el JPL espera que los investigadores puedan usar y analizar los archivos PDF para identificar mejores formas de proteger la información contenida en estos documentos.
“Increíble aficionado a la música. Estudiante. Empollón empedernido del café. Jugador. Especialista web aficionado. Pionero malvado de la cultura pop”.