fbpx

El futuro de la indexación de datos en Google

En diciembre de 2017 el equipo de investigación de Google y MIT publicó un interesante estudio sobre «El caso de las estructuras indexadas aprendidas» relacionado con el método de indexación de documentos en una base de datos.

Quiero destacar que en este estudio presentado por Google también ha participado Jeff Dean, uno de los ingenieros que está involucrado en diversas patentes de Google y detrás del desarrollo de Inteligencia Artificial (AI) del buscador.

Jeff Dean tiene gran experiencia en técnicas de optimización de programas completos para lenguajes de programación orientados a objetos, así como está detrás del desarrollo para mejorar la calidad de resultados de búsqueda del gran G.

Con el aumento en el número de publicaciones nuevas que tienen las páginas web actualmente, la indexación web también se está volviendo muy importante para todos los motores de búsqueda.

La tecnología para proporcionar una rápida indexación también debe avanzar ante este aumento de creación de documentos para indexar cada segundo.

La indexación de cosas

Los humanos utilizamos la indexación mucho antes que apareciera Internet.

Cuando por ejemplo, usamos un archivador bien organizado, estamos usando un sistema de indexación. Las enciclopedias de volumen completo podrían considerarse una estrategia de indexación.

La Biblioteca Real de Alejandría fundada a comienzos del siglo III a. C. por Ptolomeo I Sóter, ya contó con una indexación de documentos que fué encargada a Zenódoto de Éfeso, ayudado por el poeta Calímaco, la tarea de catalogación de todos los volúmenes y libros.

Cada vez que tenemos muchas cosas organizadas y etiquetadas dentro de un conjunto, podemos decir que utilizamos la indexación.

# Las entidades y su relación con el SEO moderno

Los mapas hash y los B-Trees

El estudio mencionado sugiere que podríamos, y quizás deberíamos, reemplazar las estructuras de índice tradicionales por el aprendizaje automático.

Y el argumento de ese artículo fue que al usar el aprendizaje automático podemos hacer el mapeo mucho mejor porque:

  1.  el modelo aprendido (en este caso, la red neuronal) es mucho más pequeño que un árbol b tradicional B-tree
  2.  el modelo aprendido puede predecir el valor CDF , que es mucho más preciso que un simple b-tree, lo que mejora el rendimiento.

Las estructuras de datos clásicas para la indexación: los mapas hash y los B-trees 

El objetivo de estos estudios es intentar reducir la sobrecarga de la memoria o de las tablas hash .

Las tablas hash son utilizadas para la indexación de bases de datos, el caché y para almacenar valores. Por ejemplo, en programación varios lenguajes dinámicos, como Perl , Python , JavaScript , Lua y Ruby , usan tablas hash para implementar objetos.

Estas tablas suelen ser más eficientes que los árboles de búsqueda o b-trees. Aunque estos últimos son muy utilizados para los sistemas de almacenamiento que leen y escriben bloques de datos relativamente grandes.

Resultados del estudio realizado por el equipo de Google y MIT

El estudio realizado por Google y MIT encontró que mediante el uso de redes neuronales se pueden superar a los B-Trees optimizados en caché hasta en un 70% , al mismo tiempo que se guarda un orden de magnitud en la memoria en varios conjuntos de datos del mundo real.

b-tree y hash

Debido a la importancia de los índices para los sistemas de bases de datos y muchas otras aplicaciones, se han optimizado mucho los árboles B y los mapas hash en los últimos años para que sean más eficientes en memoria, caché y CPU.

En términos de garantías semánticas, los índices ya son, en gran medida, modelos aprendidos, lo que hace que resulte sencillo reemplazarlos con otros tipos de modelos, como las redes neuronales.

En términos de rendimiento, observamos que cada CPU ya tiene potentes capacidades SIMD y especulamos que muchas computadoras portátiles y teléfonos móviles pronto tendrán una Unidad de Procesamiento de Gráficos (GPU) o Unidad de Procesamiento de Tensor (TPU).

Por ejemplo, tanto las TPU de Nvidia como las de Google, ya pueden realizar miles, o decenas de miles de operaciones de redes neuronales en un solo ciclo .

Para comprender un poco mejor estos sistemas de almacenamiento de información, existe un hilo común que conecta los servicios de Google, como son:

  • Búsqueda de Google
  • Vista de la calle
  • Fotos de Google
  • Traductor de Google

Todos ellos utilizan la Unidad de procesamiento del tensor de Google ( TPU ), para acelerar sus cálculos de redes neuronales.

tpu google

Según la investigación de Google el TPU es capaz de obtener de 30-80 veces mayor rendimiento por vatio que las CPU y GPU contemporáneas.

Qué puede suponer para la futura indexación de documentos

Los TPU hacen que las cargas de trabajo de aprendizaje automático sean más rápidas. Hablamos de que estos procesos de máquinas trabajan en nanosegundos ( ns ).

La indexación podría beneficiarse cada vez más de las estrategias de aprendizaje automático.

Estos sistemas abren una nueva via de investigación para una forma de indexar documentos a una mayor velocidad sin sobrecargar la memoria.

Los sistemas de aprendizaje automático y las redes neuronales pueden ayudar en este proceso de agilidad ante la creciente creación de contenidos a nivel mundial. Sin embargo, por ahora, parece más bien una mezcla entre los sistemas de tablas hash y aprendizaje automático lo que se trabaja.

Esta es una visión muy diferente de lo que podemos conocer dentro de un motor de búsqueda, pero creo que es lo suficientemente emocionante comprobar la evolución de los motores de búsqueda con el fin de ayudar al experto en SEO en sus tareas de optimización.

 

A tus seguidores les gustará:
  • 8
  •  
  •  
  •  
  •  
    8
    Shares
Categorías Google

Deja un comentario