b10.studio

A fondo 24 de mayo de 2026 · 9 min de lectura

El hashing perceptual, explicado: PDQ, vpdq y qué comparan de verdad Instagram y TikTok

Por el equipo de b10.studio

Cada vez que una plataforma te dice que un vídeo es un «duplicado», marca una coincidencia de derechos de autor o degrada en silencio un repost, debajo está la misma familia de tecnología: el hashing perceptual. Si trabajas en social, publicidad o contenido a escala, vale la pena entenderlo bien — no como una caja negra, sino como un número medible sobre el que razonar. Esta es esa explicación.

Hash criptográfico vs hash perceptual

Empecemos por el contraste, porque es toda la idea.

Un hash criptográfico (SHA-256 y compañía) está diseñado para que el cambio más pequeño en la entrada — un bit invertido — produzca una salida completamente distinta. Perfecto para "¿es exactamente el mismo archivo?" e inútil para "¿es el mismo contenido?". Vuelve a guardar un JPEG y su SHA-256 cambia por entero, aunque la imagen se vea idéntica.

Un hash perceptual está diseñado para la propiedad opuesta: entradas que se ven o suenan parecidas deben producir salidas parecidas. Cambios pequeños y poco perceptibles mueven el hash solo un poco. Eso es lo que permite a una plataforma reconocer tu vídeo después de recomprimirlo, redimensionarlo y recortarlo.

Cómo se construye un hash perceptual de imagen (PDQ)

PDQ es el algoritmo de hashing de imágenes de código abierto de Meta — muy usado y un buen modelo para toda la familia. Conceptualmente:

  1. Normalizar. Reducir la imagen y convertirla a luminancia (escala de grises). El detalle fino y el color se descartan a propósito — son las cosas que cambian entre casi-duplicados.
  2. Transformar al espacio de frecuencias. Una transformada de coseno discreta (DCT) separa la estructura amplia (bajas frecuencias) del detalle fino (altas frecuencias). La estructura amplia es lo que sobrevive a la compresión y el redimensionado.
  3. Cuantizar a bits. Los coeficientes de baja frecuencia se reducen a una cadena binaria de longitud fija — para PDQ, una huella de 256 bits.

El resultado es una cadena de bits compacta que captura la esencia de la imagen. Dos imágenes visualmente parecidas caen en dos cadenas de bits parecidas.

Comparar hashes: la distancia de Hamming

Los hashes perceptuales no se comparan por igualdad — se mide cuán cerca están. La métrica es la distancia de Hamming: el número de posiciones de bits en las que dos hashes difieren.

  • Distancia 0 → huellas idénticas bit a bit.
  • Una distancia pequeña → la plataforma las trata como el mismo contenido (una coincidencia).
  • Una distancia grande → tratadas como distintas.

Cada plataforma elige un umbral. Por debajo, eres un duplicado; por encima, eres nuevo. El número exacto es propietario y varía según la plataforma y la superficie, pero el modelo es universal: la detección de duplicados es "¿está la distancia de Hamming por debajo de T?". Todo tu trabajo, al reutilizar, es empujar esa distancia por encima de T manteniendo la creatividad intacta.

Vídeo: vpdq y la dimensión temporal

El vídeo añade tiempo. vpdq (PDQ de vídeo, también de Meta) lo aborda de la forma obvia: muestrear fotogramas a lo largo de la duración, calcular un hash PDQ por fotograma muestreado y representar el vídeo como el conjunto de esos hashes de fotogramas.

La coincidencia se convierte entonces en "¿qué fracción de fotogramas del clip A tiene una coincidencia cercana en algún lugar del clip B?". Por eso varias ediciones ingenuas no logran engañarlo:

  • Recortar los extremos elimina algunos fotogramas pero deja coincidiendo la mayoría — el centro compartido sigue puntuando como coincidencia.
  • Reordenar o cambiar la velocidad desplaza los fotogramas pero no cambia a qué se parecen la mayoría.
  • La recompresión mueve el hash de cada fotograma solo un poco, muy dentro del umbral.

Para mover de verdad la huella de un vídeo hay que desplazar los hashes por fotograma a lo largo de toda la línea de tiempo — es decir, cambio visual distribuido, a nivel de fotograma, no una sola edición en los bordes.

El audio también se identifica

El hashing visual es solo la mitad. El audio tiene su propia identificación perceptual (tipo Chromaprint/AcoustID), construida a partir de un espectrograma del sonido en vez de los bytes de la forma de onda. Un audio idéntico es una fuerte señal de duplicado, independiente — por eso dos ediciones visualmente distintas que comparten exactamente la misma pista de audio pueden quedar vinculadas. Una estrategia de repost completa debe tener en cuenta ambas huellas.

Por qué no funcionan los trucos ingenuos

Confronta las tácticas comunes de "hacerlo parecer nuevo" con el modelo y se desmoronan de forma predecible:

  • "Cambié el formato / lo recodifiqué." Recodificar cambia bytes, no píxeles normalizados. El hash apenas se mueve.
  • "Lo redimensioné / cambié la resolución." PDQ reduce primero — tu resolución se normaliza antes del hashing.
  • "Recorté un poco / corté la intro." Los recortes pequeños sobreviven a la normalización; los cortes dejan coincidiendo la mayoría de los fotogramas.
  • "Borré los metadatos." El hash se construye a partir de píxeles y audio. Los metadatos no son una entrada.

Las cuatro dejan la distancia de Hamming muy por debajo del umbral. Parecen cambios significativos porque cambian el archivo; no cambian la huella.

Qué sí mueve la distancia

Cambios distribuidos y poco perceptibles que tocan la señal normalizada en muchos sitios a la vez:

  • Desplazamientos de color, gamma y saturación (alteran la luminancia en cada fotograma)
  • Transformaciones geométricas fraccionarias — rotación, zoom, deformación (desplazan la estructura en el espacio de frecuencias)
  • Ruido y grano estructurados (perturban los coeficientes que PDQ cuantiza)
  • Re-temporización de audio, ajustes de tono/tempo y EQ (mueven la huella acústica)

El oficio es la calibración: lo suficiente para superar el umbral, lo bastante suave para que la fidelidad — cuán intacta se ve la creatividad — siga alta.

Mídelo en vez de adivinar

Lo bueno de que todo esto sea un número es que puedes medirlo directamente. Nuestro Risk Analyzer ejecuta PDQ real sobre imágenes y vpdq sobre vídeo, calcula la distancia de Hamming entre una fuente y una variante, añade una puntuación de fidelidad SSIM robusta al alineamiento y una coincidencia de audio Chromaprint — para que veas exactamente dónde se sitúa un archivo respecto a un umbral de coincidencia antes de publicar.

El hashing perceptual no es magia ni es invencible. Es una métrica de distancia bien definida con un umbral. Una vez que lo ves así, "¿pillarán este repost?" deja de ser una superstición y se convierte en algo que puedes comprobar.

Nuestro Risk Analyzer ejecuta PDQ / vpdq reales sobre cualquier archivo que le des e informa la distancia de Hamming — el mismo número sobre el que las plataformas fijan su umbral. Es gratis.

Prueba el Risk Analyzer

Preguntas frecuentes

Un hash criptográfico como SHA-256 cambia por completo si cambia un solo bit de la entrada, así que solo responde "¿es exactamente el mismo archivo?". Un hash perceptual está diseñado para que entradas que se ven o suenan parecidas produzcan salidas parecidas, lo que permite a una plataforma reconocer el mismo contenido tras recomprimirlo, redimensionarlo o recortarlo.

La distancia de Hamming es el número de posiciones de bits en las que dos hashes difieren. Los hashes perceptuales no se comparan por igualdad sino por cercanía: una distancia de Hamming pequeña significa que la plataforma trata los archivos como el mismo contenido, y cada plataforma fija un umbral por debajo del cual una subida cuenta como duplicado.

No. Algoritmos como PDQ reducen y normalizan la entrada antes de hashear, así que la resolución se normaliza antes de calcular la huella. Una versión 1080p y una 720p del mismo clip producen hashes casi idénticos.

vpdq es la versión de vídeo, de Meta, del hash de imagen PDQ. Muestrea fotogramas a lo largo de la duración, calcula un hash PDQ por fotograma muestreado y representa el vídeo como ese conjunto de hashes de fotogramas. La coincidencia mide entonces qué fracción de fotogramas tiene una coincidencia cercana en otro clip.

Seguir leyendo