Cómo escribir meta descripciones usando BERT
Si estás confundido acerca de las meta descripciones en SEO, por qué son importantes y cómo acertarlas con ayuda de la inteligencia artificial, este artículo es para ti.
Si estás ansioso por comenzar a experimentar con un escritor de inteligencia artificial, lee el artículo completo. Al final te daré un guión para ayudarte a escribir meta descripciones a escala usando BERT: el modelo de lenguaje pre-entrenado y sin supervisión de Google que recientemente ha ganado un gran renombre en la comunidad SEO después de que ambos Google y BING anunciaron que lo usan para proporcionar resultados más útiles.
Solía "‹"‹subestimar la importancia de las meta descripciones: después de todo, Google lo usará solo en el 35,9% de los casos (según un análisis de Moz del año pasado por el ilustre @dr_pete). En realidad, estos breves fragmentos de texto ayudan enormemente a atraer a más usuarios a tu sitio web e, indirectamente, pueden incluso influir en tu clasificación gracias a una mayor tasa de clics (CTR).
Si bien Google puede anular las meta descripciones agregadas en el HTML de tus páginas, si combinas correctamente:
- la intención principal del usuario (la consulta a la que se dirige),
- el título de la página y
- la meta descripción
hay muchas oportunidades de mejorar el CTR en las páginas de resultados de Google. En el curso de este artículo investigaremos los siguientes aspectos y, dado que es un artículo largo, siéntete libre de saltar a la sección que más te interese "“ el código está disponible al final:
- ¿Qué son las meta descripciones?
- ¿Qué tan largas deben ser tus meta descripciones?
- ¿En qué meta descripciones debemos centrarnos?
- Una introducción rápida al resumen de texto de un solo documento
- Extractivo vs. Abstractivo
- La huella de carbono del PNL y por qué prefiero los métodos de extracción para crear meta descripciones
- BERT: El poderoso transformador
- Larga vida a la IA, escalemos la generación de meta descripciones con nuestro adorable robot
- Pensamientos finales y trabajos futuros
¿Qué son las meta descripciones?
Por lo general, tiendo a pedirles a los "expertos" en línea una definición para comenzar, y con una consulta simple en Google, podemos obtener esta definición de nuestros amigos en WooRank:
Las meta descripciones son etiquetas HTML que aparecen en la sección principal de una página web. El contenido dentro de la etiqueta proporciona una descripción de lo que trata la página y su contenido. En el contexto de SEO, las meta descripciones deben tener alrededor de 160 caracteres.
¿Qué tan largas deben ser tus meta descripciones?
Queremos ser, como con cualquier otro contenido en nuestro sitio, auténticos, conversacionales y fáciles de usar. Dicho eso, en 2020, querrás apegarte al límite de 155-160 caracteres (esto corresponde a 920 píxeles). También queremos tener en cuenta que la longitud "óptima" puede cambiar según la consulta del usuario. Esto significa que realmente debes hacer tu mejor esfuerzo en los primeros 120 caracteres y pensar en términos de crear una cadena significativa al vincular la consulta, la etiqueta del título y la meta descripción. En algunos casos, dentro de esta cadena también es muy importante considerar el papel de las migas de pan. En el ejemplo anterior de WooRank, puedo ver rápidamente que la definición proviene de una página educativa de su sitio: esto encaja muy bien con mi solicitud de información.
¿En qué meta descripciones debemos centrarnos?
El SEO es un proceso: necesitamos establecer nuestras metas, analizar los datos con los que comenzamos, mejorar nuestro contenido y medir los resultados. No tiene sentido mirar un sitio web grande y decir: necesito escribir una gran cantidad de meta descripciones, ya que faltan todas. Simplemente sería una pérdida de tiempo.
Además del hecho de que, en algunos casos, podríamos decidir no agregar una meta descripción en absoluto. Por ejemplo, cuando una página cubre consultas diferentes y el texto ya está bien estructurado, podríamos dejar que Google cree el mejor fragmento de cada súper consulta (son súper buenos en eso 😉). Necesitamos mirar las páginas críticas que tenemos, no olvidemos que escribir una buena meta descripción es como escribir una copia del anuncio: generar clics no es un juego cualquiera.
Como regla general, prefiero centrar mi atención en:
- Páginas que ya están poscionadas en Google (posición> 0); agregar una meta descripción a una página que no está clasificada no hará la diferencia.
- Páginas que no están en las 3 primeras posiciones: si ya están altamente posicionadas, a menos que pueda ver algunas oportunidades reales, prefiero dejarlas como están.
- Páginas que tienen un valor comercial: en el sitio web de WordLift (la empresa para la que trabajo), no tiene sentido agregar meta descripciones a las páginas de destino que no tienen potencial orgánico. Prefiero centrarme en el contenido de nuestro blog. Esto varía, por supuesto, pero es muy importante para entender en qué tipo de páginas me quiero centrar.
Este criterio puede ser útil, especialmente si planeamos programar rastreos automáticos en nuestro sitio web y elegir dónde enfocar nuestra atención utilizando los datos de rastreo. Sigue leyendo y llegaremos allí, lo prometo.
Una introducción rápida al resumen de texto de un solo documento
El resumen automático de texto es una difícil tarea de PNL para proporcionar un resumen breve y posiblemente preciso de un texto largo. Mientras que, con la creciente cantidad de contenido en línea, la necesidad de comprender y resumir el contenido es cada vez más alta. En términos tecnológicos puros, el desafío de crear resúmenes bien formados es enorme y los resultados están, la mayoría de las veces, lejos de ser perfectos (o de estar a nivel humano).
El primer trabajo de investigación sobre el resumen automático de texto se remonta a hace 50 años y varias técnicas. Desde entonces, se han utilizado para extraer contenido relevante de texto no estructurado.
"Las diferentes dimensiones del resumen de texto generalmente se pueden clasificar en función de su tipo de entrada (documento único o múltiple), propósito (genérico, específico de dominio o basado en consultas) y tipo de salida (extractiva o abstractiva)".
"” A Review on Automatic Text Summarization Approaches, 2016.
Extractivo vs Abstractivo
Veamos rápidamente los diferentes métodos que tenemos para comprimir una página web.
"Los métodos de resumen extractivo funcionan mediante la identificación de secciones importantes del texto y su generación textual; [...] los métodos de resumen abstractivo tienen como objetivo producir material importante de una manera nueva. En otras palabras, interpretan y examinan el texto utilizando técnicas avanzadas de lenguaje natural para generar un nuevo texto más corto que transmita la información más crítica del texto original ".
"” Text Summarization Techniques: A Brief Survey, 2017.
Con palabras simples, con un resumen extractivo utilizaremos un algoritmo para seleccionar y combinar las oraciones más relevantes en un documento. Usando métodos de resumen abstractivo, utilizaremos técnicas sofisticadas de PNL (es decir, redes neuronales profundas) para leer y comprender un documento para generar oraciones nuevas.
En los métodos extractivos, un documento puede verse como un gráfico donde cada oración es un nodo y las relaciones entre estas oraciones son bordes ponderados. Estos bordes se pueden calcular analizando la similitud entre los conjuntos de palabras de cada oración. Entonces podemos usar un algoritmo como PageRank (lo llamaremos TextRank en este contexto) para extraer las oraciones más centrales en nuestro documento gráfico.
La huella de carbono del PNL y por qué prefiero los métodos de extracción para crear meta descripciones
En un reciente estudio, investigadores de la Universidad de Massachusetts, Amherst, realizaron una evaluación del ciclo de vida para entrenar varios modelos de IA grandes y comunes con enfoque en modelos de lenguaje y tareas de PNL. Descubrieron que entrenar un modelo de lenguaje complejo puede emitir cinco veces las emisiones de por vida del automóvil estadounidense promedio (¡incluido lo que sea necesario para fabricar el automóvil en sí!).
Si bien la automatización es clave, no queremos contribuir a la contaminación de nuestro planeta haciendo un mal uso de la tecnología que tenemos. En principio, el uso de métodos abstractos y técnicas de aprendizaje profundo ofrece un mayor grado de control al comprimir artículos en párrafos de 30 a 60 palabras, pero, teniendo en cuenta nuestro objetivo final (atraer más clics de la búsqueda orgánica), probablemente podamos encontrar un buen punto medio sin gastar demasiados recursos computacionales (y ambientales). Sé que suena un poco ingenuo, pero... No lo es y queremos ser sostenibles y eficientes en todo lo que hacemos.
¿Qué es BERT?
BERT: El poderoso transformador
Ahora, dado el hecho de que ya se ha gastado una cantidad significativa de energía para entrenar BERT (1,507 kWh según el documento mencionado anteriormente), decidí que valía la pena probarlo para ejecutar resumen de extracción.
También debo admitir que ha pasado bastante tiempo desde que me entretuve con el resumen automático de texto de contenido en línea y he experimentado con muchos métodos diferentes antes de ingresar al BERT.
BERT es un modelo de procesamiento de lenguaje natural no supervisado y previamente entrenado, creado por Google y lanzado como un programa de código abierto (¡sí!) que hace magia en 11 de las tareas más comunes de PNL.
BERTSUM es una variante de BERT, diseñada para el resumen de extracción que ahora es de última generación (aquí puedes encontrar el documento detrás de él) .
Derek Miller, aprovechando estos progresos, ha hecho un trabajo excelente para llevar esta tecnología a las masas (incluido yo mismo) al crear una biblioteca Python súper elegante y fácil de usar que podemos usar para experimentar el resumen de texto extractivo impulsado por BERT a escala. Un gran agradecimiento también para el equipo de HuggingFace ya que la herramienta de Derek usa su biblioteca de transformadores Pytorch.
Larga vida a la IA, escalemos la generación de meta descripciones con nuestro adorable robot
Así es como funciona todo en el código vinculado a este artículo.
- Comenzamos con un CSV que generé usando el rastreador de WooRank (aquí puedes modificar el código y usar cualquier CSV que te ayude a detectar en qué parte del sitio faltan las meta descripciones y dónde puede ser útil agregarlas); el archivo provisto en el código está a disposición en Google Drive (de esta manera siempre podemos ver los datos antes de ejecutar el script).
- Analizamos los datos del rastreador y construimos un marco de datos usando Pandas.
- Luego elegimos qué URLs son más críticas: en el código provisto, básicamente trabajo en el análisis del sitio web wordlift.io y me concentro solo en el contenido del blog en inglés que ya tiene una posición de clasificación. Siéntete libre de jugar con los filtros Pandas e infundir tu propio conocimiento y experiencia de SEO en el script.
- Luego rastreamos cada página (y aquí es posible que desees definir la clase CSS que el sitio usa en el HTML para detectar el cuerpo del artículo, evitando así que analice los menús y otros elementos innecesarios en la página).
- Le pedimos a BERT (con una configuración estándar que puedes ajustar) que genere un resumen para cada página y que lo escriba en un archivo csv.
- Con el CSV resultante, podemos regresar a nuestro querido CMS y encontrar la mejor manera de importar los datos (es posible que desees seleccionar las sugerencias de BERT antes de ponerlas en práctica, una vez más, en la mayoría de los casos podemos hacerlo mejor que la máquina)
Súper fácil, no demasiado intensivo en términos computacionales y... amigable con el medio ambiente 😇
¡Diviértete jugando con él! Siempre recuerda, es un amigo robot y no un reemplazo real de tu valioso trabajo. BERT puede hacer el trabajo pesado de leer la página y resaltar lo que más importa, pero aún así puede fallar en obtener la longitud correcta o en agregar el CTA adecuado (es decir, "lee más para encontrar ...").
Pensamientos finales y trabajos futuros
La belleza de la automatización y el SEO es, en general, que obtienes superpoderes sin perder el control total del proceso. La IA está lejos de ser mágica o de convertirse (al menos en este contexto) en un reemplazo para los escritores de contenido y SEO, más bien la IA es un asistente inteligente que puede aumentar nuestro trabajo.
Existen algunas limitaciones claras con el resumen de texto extractivo que están relacionadas con el hecho de que tratamos con oraciones y si tenemos oraciones largas en nuestra página web, terminaremos teniendo un fragmento que es demasiado largo para convertirse en una meta descripción perfecta. Planeo seguir trabajando para ajustar los parámetros para obtener los mejores resultados posibles en términos de expresividad y longitud, pero... hasta ahora solo un 10-15% es lo suficientemente bueno y no requiere ninguna actualización extra de nuestra inteligencia natural. La gran mayoría de los resúmenes se ven bien y son sustanciales, pero aún exceden los límites de 160 caracteres.
Hay, por supuesto, un gran potencial en estos resúmenes más allá de la generación de meta descripciones para SEO; por ejemplo, podemos crear un tipo de experiencia de "fragmento destacado" para proporcionar resúmenes relevantes a los lectores. Además, si el tono del artículo es lo suficientemente conversacional, el resumen también podría convertirse en un párrafo hablable que podemos usar para introducir el contenido en dispositivos habilitados para voz (es decir, "¿de qué trata el último artículo de WordLift?"). Entonces, si bien no podemos dejar que la máquina realmente ejecute el programa solo, existe un valor concreto al usar BERT para hacer resúmenes.
Créditos
Al llegar al final de este largo artículo, es hora de recordarnos a todos que nada de esto podría ser posible sin el trabajo de muchas personas y organizaciones ilustradas que están comprometidas con las tecnologías de código abierto y que permiten y alientan a los profesionales de todo el mundo para hacer (bueno, con suerte) la web un lugar mejor.
También es gracias a los rebeldes y SEOs con una mentalidad basada en datos como Paul Shapiro y Hamlet que me interesé en el tema y me preparé para experimentar con nuevas herramientas.
Prueba el código de Google Colab y envíame cualquier comentario o sugerencia a través de Twitter o LinkedIn.
¿Deseas ampliar tus esfuerzos de marketing con Woorank y el servicio de gestión de SEO de WordLift? ¡No puedo esperar para aprender más sobre tus desafíos!