Extraer contenido web utilizando Screaming Frog es posible. Web scraping (raspado de páginas web) consiste en la extracción de datos significativos de una web. Existen diferentes herramientas para scrapear datos web, pero en este caso nos centraremos en la oportunidad que nos ofrece Screaming Frog 🐸.
Screaming Frog es capaz de presentarnos toda esta información o incluso automatizar la extracción en un periodo de tiempo concreto.
¿Que datos web podemos extraer?
La información que podemos extraer es amplia y variada, pero puede ser útil para extraer datos que componen la arquitectura web de, por ejemplo, un e-commerce:
Número de categorías por producto
Número de productos por categoría
Seguimiento de precios
¿Cómo extraer contenido web?
Tenemos tres métodos disponibles para la extracción, usaremos el lenguaje XPath que busca dentro un documento XML.
CSS Path: nos permite consultar los selectores de ruta CSS.
XPath: nos permite consultar los elementos HTML.
Regex: expresiones para extraer HTML y Javascript.
Nos centraremos en XPath para extraer la información que nos interesa, entre otros elementos podemos extraer:
//title Title
//h1 H1
//h2 H2
//h3 H3
//meta/@content Meta description
//img/@src URL imagen
//img/@alt ALT imagen
//link/@href Enlace AMP
¿Cómo obtener Xpath desde Google Chrome?
Para obtener el Xpath con un elemento seleccionado hacemos clic en el botón derecho, inspeccionar. Volvemos a hacer clic en Copy / Copy Xpath.

De esta forma ya tenemos copiado en el portapapeles el elemento en XPath para utilizarlo en cualquier herramienta. Podemos utilizar la extensión Chrome Xpath Helper para comprobar que estamos extrayendo la información correcta.

Custom extraction Screaming Frog
Podemos generar la extracción a través de la funcionalidad Custom Extraction de Screaming Frog. Tenemos que seguir la siguiente ruta: Configuración / Custom / Extraction.

En el siguiente paso podemos añadir los campos incluyendo el XPath que nos interese extraer.

Una vez tengamos los campos seleccionados es hora de importar los datos y trabajar con ellos para analizar la información de una manera más gráfica.
