En la búsqueda y desarrollo de algoritmos de detección de malware, a menudo se requiere un gran conjunto de muestras tanto maliciosas como benignas. Tanto el aprendizaje automático como técnicas automatizadas similares, así como la generación de firmas manual o parcialmente manual, a menudo requieren un conjunto de ejemplos buenos y variados de muestras benignas que comúnmente se confunden con maliciosas.
Estas muestras generalmente se analizan automáticamente y luego se entrega a un ingeniero inverso para un mayor escrutinio, análisis y mejora de dicho algoritmo de detección de malware.
Aunque la búsqueda de muestras maliciosas se discute con frecuencia (consulte múltiples preguntas), parece faltar una discusión sobre las fuentes de muestras benignas.
¿Cuáles son los repositorios / feeds de muestras benignos, preferiblemente enfocados en muestras de falsos positivos potenciales / frecuentes? ¡También son bienvenidas otras fuentes o "métodos de recuperación" (raspado)!