Pregunta:
¿Dónde puedo encontrar muestras benignas con un alto potencial de falsos positivos?
NirIzr
2016-09-04 15:22:01 UTC
view on stackexchange narkive permalink

En la búsqueda y desarrollo de algoritmos de detección de malware, a menudo se requiere un gran conjunto de muestras tanto maliciosas como benignas. Tanto el aprendizaje automático como técnicas automatizadas similares, así como la generación de firmas manual o parcialmente manual, a menudo requieren un conjunto de ejemplos buenos y variados de muestras benignas que comúnmente se confunden con maliciosas.

Estas muestras generalmente se analizan automáticamente y luego se entrega a un ingeniero inverso para un mayor escrutinio, análisis y mejora de dicho algoritmo de detección de malware.

Aunque la búsqueda de muestras maliciosas se discute con frecuencia (consulte múltiples preguntas), parece faltar una discusión sobre las fuentes de muestras benignas.

¿Cuáles son los repositorios / feeds de muestras benignos, preferiblemente enfocados en muestras de falsos positivos potenciales / frecuentes? ¡También son bienvenidas otras fuentes o "métodos de recuperación" (raspado)!

Tres respuestas:
Nordwald
2016-09-05 11:37:31 UTC
view on stackexchange narkive permalink

Muestras maliciosas

Mi fuente favorita de muestras maliciosas es una base de datos que he creado yo mismo extrayendo regularmente los ejemplos gratuitos proporcionados por VirusSign. Por favor, estas muestras no requieren registro, pero vienen con informes que indican el tipo.

Puede que no haya mejor archivo para muestras maliciosas que VirusTotal. Si no obtiene acceso (de inteligencia) allí, aún puede probar alternativas abiertas como Open Malware.

Generalmente, una buena lista de lugares para encontrar muestras maliciosas es aquí: LENNY ZELTSER

Muestras benignas

En cuanto a las muestras benignas, propongo extraer ejecutables benignos de instalaciones de un SO nuevo. Simplemente puede instalar el objetivo en una máquina virtual y obtener un script para extraerlos.

Otra fuente son los sitios de rastreo como PortableFreeware. Asegúrese de comprobar si los ejecutables recopilados de esta manera funcionan en su entorno.

Posibles falsos positivos

La mayoría de los archivos de malware etiquetan sus muestras según la tasa de detección y las etiquetas proporcionadas por diferentes hormigas -productos de malware (como VirusTotal). Asumir que las muestras con una tasa de detección muy baja y etiquetas genéricas son falsos positivos es probablemente la mejor manera de hacerlo. Además, los datos recopilados de HoneyPots pueden producir tasas de falsos positivos relativamente más altas.

A menudo utilicé los ejecutables incluidos en Sysinternals Suite como una especie de ' falsos positivos'. Son binarios benignos que utilizan características cercanas al sistema para exponer datos internos del sistema.

En un sitio, tómese un tiempo para evaluar su conjunto de datos y encontrar sesgos ocultos en su interior. Mucha de la investigación actual adolece de conjuntos de muestras sesgados y resultados no reproducibles.

¡Gracias! Para que conste, solo pedía muestras blancas.
debray
2016-09-06 23:27:53 UTC
view on stackexchange narkive permalink

Puede encontrar algunas de las muestras de nuestro trabajo sobre desofuscación en hxxp: //www.cs.arizona.edu/projects/lynx-project/Samples/ (s / x / t / ). Los programas, una mezcla de binarios de Linux y Windows, son todos benignos (tendrá que creer en mi palabra :-), pero use una variedad de técnicas comúnmente utilizadas por el malware. Estas muestras formaron la base de los resultados informados en los siguientes artículos:

  • Yadegari et al , "Un enfoque genérico para la desofuscación automática de código ejecutable", Proc. Simposio IEEE sobre seguridad y privacidad , mayo de 2015. Estos consisten en programas ofuscados con herramientas como VMProtect, ExeCryptor y Themida; y varios que utilizan programación orientada al retorno.
  • Qiu et al , "Identificación y comprensión de las defensas de autocomprobación de suma en el software", Proc. Quinta Conferencia ACM sobre seguridad y privacidad de datos y aplicaciones (CODASPY), marzo de 2015. Se trata de una colección de programas que utilizan una variedad de técnicas, incluido el código de modificación automática, para implementar la antimanipulación basada en la suma de verificación automática .

Solíamos tener un enlace a estas muestras en la página web del proyecto, pero Google decidió que estábamos distribuyendo software malicioso y puso una gran advertencia roja junto a su enlace (hable de falsos positivos !), por lo que terminamos eliminando el enlace. Esta es también la razón por la que el enlace anterior se ha disfrazado con "hxxp".

¡Muchas gracias! ¿Sería tan amable de explicar el origen de las muestras? ¡También se aplicarán cantidades aproximadas!
El código ofuscado consta de varios programas pequeños que escribimos nosotros mismos (búsqueda binaria, clasificación de burbujas, multiplicación de matrices, etc.); y algunos cuasi-malware - código cuya fuente obtuvimos de VX Heavens y que luego ofuscamos usando Themida, etc. (los llamo "cuasi-malware" porque no tienen la carga útil maliciosa real). El código ROP es una colección de algunos programas pequeños que escribimos nosotros mismos (bubble-sort, factorial, fibonacci, matrix-multiply). Todos los programas de suma de autocomprobación se basan en un programa MD5 de código abierto. Consulte las publicaciones mencionadas para obtener más detalles.
¡Genial gracias! Votaré tu respuesta en unas horas, pero esperaré un poco más antes de aceptar cualquier respuesta.
@NirIzr:, mi alumno mencionó que pensaba que algunas de las muestras de VX Heavens todavía podrían tener un contenido cuestionable; pensó que tenía algunos problemas con algunas de ellas. Solo para estar seguro, eliminé todas esas muestras de ese sitio web, por lo que lo que queda son solo programas que escribimos nosotros mismos y de los que estamos seguros. Deseche lo que tomó anteriormente y vuelva a agarrarlo. Lo siento por eso.
NirIzr
2016-09-08 03:10:54 UTC
view on stackexchange narkive permalink

Algunas de las técnicas que también se me han ocurrido, en aras de la integridad (no aceptaré mi propia respuesta):

descargar desde github

Algo de Github Los repositorios tienen varios ejecutables, ya sea como utilidades necesarias o como salida de compilación. Escanear Github para aquellos que usan un GithubDownloader demostró ser lento pero efectivo, y es muy probable que los resultados sean benignos.

Recopile todos los ejecutables / hashes de máquinas accesibles

Dado que hago esto como parte de mi trabajo, puedo pedirle al departamento de TI que recopile valores hash y muestras de las múltiples máquinas que tenemos en mi oficina. Esta fue una buena manera de recopilar muchos ejecutables para múltiples versiones de sistemas operativos con facilidad. La recopilación de hashes y la descarga de los disponibles de VT también era una posibilidad (quizás después de un examen más detenido).



Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...