fbpx

Minería de datos: Las palabras clave se han convertido en vectores

Stephen J. Emmott es director de computación científica en Microsoft Research y hace poco ha señalado lo siguiente:

la búsqueda se ha vuelto mucho más compleja debido a nuestras cada vez más complicadas vidas empresariales y online.

Ya cada vez somos mas conscientes de esta realidad de «conexión digital multicanal» con la mayoría de elementos que tenemos a nuestro alrededor.

Coches conectados a Internet, productos de hogar conectados a nuestros dispositivos, aplicaciones para cualquier cosa, la banca digitalizada, los dispositivos de voz inteligentes, etc .

Es una evolución digital que parece no tener freno, y los motores de búsqueda, Google, Microsoft, Yahoo, o los nuevos motores de búsqueda que van apareciendo en el horizonte como Elastic y Solr, juegan un papel muy importante.

En los primeros compases de la búsqueda en Internet, un buscador como Google analizaba «las palabras» o texto escrito por cada usuario para determinar qué tipo de información era la que estaba intentando encontrar.

Digamos que una computadora (un buscador) analizaba los caracteres alfanuméricos y de puntuación separados por espacios y a partir de ahí comenzaba a buscar dentro de sus archivos los resultados que mejor se adaptaran a la consulta.

Pero, ¿qué ocurre con las palabras vacías?

Todos los párrafos dentro de una página contienen términos linguisticos que no significan nada, son complementos de la oración, por tanto, una computadora como Google debía aprender a leer más que palabras «clave».

Hay que tener en cuenta que dentro de una página web hay palabras o términos que se repiten muchas veces y otras que se repiten muy poco.

Por ejemplo, palabras que se pueden repetir mucho en una página:

  • el, la, ha, de, más, y, que, se, un, como, etc.

Esta metodología ha ido evolucionando con los años conforme la world wide web ha ido creciendo, creándose algoritmos más complejos de extración de datos, archivo y muestra de la información más relevante.

Por ejemplo:

Sabemos que ahora no es tan importante como hace años utilizar la keyword exacta en un documento web, ya sea en el título, url o contenido de la página.

Esto no es tan necesario, por algo que Google ha implementado en sus algoritmos conocido como contexto.

Hay patentes publicadas sobre ello y no me voy a extender en ello aquí. Puedes encontrar información al respecto en estos enlaces:

Las palabras y sus relaciones semánticas es algo que hace años un motor de búsqueda no tenía implementado, por tanto, para entender un párrafo se extraía la información utilizando los caracteres alfanuméricos, pero esto traía consigo un gran problema: la ambiguedad de términos.

Diferencia entre textos populares y textos científicos

A la hora de extraer información en formato de texto por parte de una máquina, esta debe ser capaz de averiguar la calidad de la información, y para ello se está utilizando la Inteligencia Artificial (IA).

Por si te has perdido, esto está directamente relacionado con la calidad del contenido de una web 🙂

Un estudio reciente publicado en Nature donde casualmente interviene gente como Vahe Tshitoyan ingeniero de procesamiento del lenguaje natural en Google, se extrae lo siguiente:

las publicaciones científicas contienen un conocimiento valioso sobre las conexiones y relaciones entre los elementos de datos según lo interpretan los autores. 

Para mejorar la identificación y el uso de este conocimiento, varios estudios se han centrado en la recuperación de información de la literatura científica mediante el procesamiento de lenguaje natural supervisado

La IA está consiguiendo la extración de datos desde documentos web sea más rápida y efectiva.

Un ejemplo es lo conseguido por Vahe Tshitoyan,

extraer conocimientos que hasta ahora se encontraban dispersos y ocultos en millones de artículos científicos de manera efectiva gracias a un algoritmo de aprendizaje automático.

Como vemos, el tema de palabras clave en formato texto o caracteres es algo demasiado simple hoy en día e intentar seguir empeñados en posicionar solo «términos alfanuméricos» está obsoleto.

Las palabras clave se han convertido en vectores

En un principio las palabras se podían representar como símbolos individuales simples. Por ejemplo:

podríamos representar la palabra “sol” con id343 y “luna” con id432, pero esto era limitante y no proporcionaba la relación semántica que podría haber entre estos dos términos.

Entonces los ingenieros de la búsqueda encontraron la solución en » el modelo de espacio vectorial» .

ia ciencia

El modelo vectorial más eficiente: Word2vec

Los VSM pretenden representar las palabras como un vector en un espacio multidimensional de forma que las palabras similares o relacionadas entre si se encuentren representadas por puntos cercanos.

De esta forma se captura información semántica, puesto que, por ejemplo, palabras como “rojo”, “negro” y “blanco” se encontrarán en una misma zona de ese espacio multidimensional y lo mismo pasaría con palabras como “leon”, “tigre”, “leopardo”.

La extracción de datos de documentos web determina la calidad del contenido

Creo que ya vamos entendiendo mejor como funciona la minería de datos de un motor de búsqueda y vamos comprendiendo también que debemos utilizar términos estrechamente relacionados con un tema principal para conseguir posicionar una página web.

La IA no es más que el entrenamiento de una máquina pero a gran escala. La máquina puede aprender el contexto de dos palabras mucho más rápido de lo que se podía hacer antes.

A través de la IA se puede saber que dos palabras como «motor» y «transmisión» pueden tener contextos similares.

vectores contexto semantico

El Word2vec se utiliza en el filtrado de la información , recuperación de información , la indexación y la clasificación de relevancia.

Las empresas hoy dependen de Internet para funcionar

Volviendo un poco al principio, en este artículo he nombrado a otros tipos de motores de búsqueda como puede ser Elastic.

Elastic es utilizado por empresas fuertes en Internet como Tinder, eBay, Uber, Lyft o Netflix.

Esto significa que la respuesta a casi cualquier cosa está en Internet y que los motores de búsqueda deben adaptarse al comportamiento de los usuarios.

Las empresas que están ganando miles de millones de euros a través de Internet lo saben y utilizan la mejor tecnología para conseguir esta adaptación lo más rápido posible.

Hoy en día la búsqueda de información o la venta de un producto o servicio no solo es a través de un motor de búsqueda, sino que involucra otros canales como pueden ser aplicaciones, foros, webs de opiniones, vídeos en youtube, opiniones de expertos, canales de audio, etc.

La extracción de información se realiza en cualquier espacio al que un motor de búsqueda tenga acceso, incluido emails, aplicaciones de mensajería, aplicaciones de ocio, etc.

Los documentos y las consultas de búsqueda se transforman en vectores, y la similitud o la distancia entre los vectores se utiliza como medida de relevancia.

No debemos quedarnos solo pensando en colocar «palabras» en un documento web, sino pensar en como llegar a millones de usuarios utilizando todas las variantes de un motor de búsqueda.

Te puede interesar:

A tus seguidores les gustará:
  •  
  •  
  •  
  •  
  •  
Categorías Google

2 comentarios en “Minería de datos: Las palabras clave se han convertido en vectores”

    • Realmente el ver las palabras clave como vectores es algo que los motores de búsqueda llevan años haciendo. El problema es que no se ha mostrado o publicitado igual que las keywords ( a secas). Otra pregunta que surge aquí es si las herramientas de palabras clave podrían verse afectadas de algún modo.

Deja un comentario