Extraer Datos del Website a Excel Automáticamente

Written by skieer2016 | Published 2020/04/10
Tech Story Tags: data-extraction | data-extraction-with-python | data-extraction-from-pdf | web-scraping | what-is-web-scraping | web-scraping-with-python | web-crawling | big-data

TLDR Para extraer datos de websites, puede usar las herramientas de extracción de datos como Octoparse. Puede extraer data de websites automáticamente y guardarlos in muchos formatos, como Excel, CSV, HTML o in su propia base of datos a través of the API. Octopars can be personalizadas and exportableableable data a muchos formats, such as Excel.via the TL;DR App

Para extraer datos de websites, puede usar las herramientas de extracción de datos como Octoparse. Estas herramientas pueden extraer datos de website automáticamente y guardarlos en muchos formatos, como Excel, JSON, CSV, HTML o en su propia base de datos a través de API. Solo toma unos minutos puede extraer miles de líneas de datos, la mejor es que no se necesita codificación en este proceso.
Tabla de contenidos
Tome Google Search como ejemplo. Si estamos interesados en información sobre el "smoothie" y queremos extraer todos los títulos, descripciones y URLs de los resultados de búsqueda. Para extraer datos de Google Search, puede usar una plantilla de web scraping.
La plantilla es un crawler preformateado que listo para usar sin ninguna configuración. Hay más de 50 plantillas para elegir. Verá todas las plantillas desde sitios web de comercio electrónico como Amazon y eBay hasta canales de redes sociales como Facebook, Twitter e Instagram. Octoparse también ofrece plantillas personalizadas.

Método #1: Extracción Sencilla con Las Plantillas de Web Scraping

Para usar la plantilla, necesita instalar Octoparse en la computadora. Seleccione el modo "Task Template". Vaya a la plantilla de web scraping de Google Search en la categoría "search engine",
Segundo: lee las instrucciones de la plantilla
Abre la plantilla. Consulte las instrucciones y la salida de muestra para asegurarse de que esta plantilla le proporcionará los datos que necesita. Puede pasar el cursor sobre los campos de datos para ver qué elementos de los sitios web se extraerán.
Consulte los parámetros para comprender mejor lo que necesita ingresar. Los parámetros variarían en diferentes plantillas, porque necesitan diferentes términos de búsqueda para continuar. Puede ser una URL, una palabra clave, una lista de URL/palabras clave , la cantidad de páginas que desea obtener, etc. En este caso, debemos ingresar el término de búsqueda "smoothie"
Tercero: Usa la plantilla y comienza datos extracción
Sigue haciendo clic en "use template", luego ingrese "smoothie" y presione "save and run". Si es una-vez proyecto, simplemente puede ejecutar el crawler en su computadora local. Mientras que, si está manejando un proyecto en curso, puede extraer datos en la  plataforma de la nube de Octoparse. Después de la extracción, puede exportarla a muchos formatos, como Excel, CSV y txt.
Acabamos de presentar cómo usar una plantilla de web scraping para extraer web datos de Google Search. También puede crear su propio crawler utilizando el "Modo avanzado". Es posible que necesita algunas configuraciones, pero es muy flexible en términos de extracción de datos.

Método #2: Extracción Personalizada con Modo Avanzado

Paso 1: Ingrese la URL de destino para crear un crawler
Si está tratando de extraer datos a gran escala, puede ingresar una lista de hasta 10,000 URL en el cuadro. En este caso, como solo estamos scraping solo un sitio web, peguemos la URL de destino en el cuadro y haga clic en "save URL" para continuar.
Paso 2: Crea un bucle de paginación
Cambie el navegador a Firefox 45. Ahora Octoparse ha cargado la página web en el navegador incorporado con éxito. Luego, debemos crear una paginación haciendo clic en el botón de página "Next" y seleccionando "Loop click next page" en el panel de Consejos de acción. Verá el bucle de paginación que acabamos de crear en el área de flujo de trabajo.
Paso 3: Extraer los datos e iniciar la extracción
Ahora podemos extraer los datos. Haga clic en el título de un resultado de búsqueda y haga clic en "select all". Después de seleccionar todos los títulos, se resaltarán en verde. Haga clic en "extract text of the selected element" para extraer todos los títulos. Hagamos una pausa por un momento para ver el flujo de trabajo. Como veis, acabamos de construir un bucle extracción dentro del ciclo de paginación. Todo el proceso de extracción funcionará de esta manera: el bot primero abrirá la página web, extraerá los títulos en la primera página uno por uno, y luego pasará a la página siguiente para repetir la extracción hasta que la extracción se detenga o se complete.
Además de Google, las herramientas de extracción de datos pueden extraer datos de muchos otros sitios web, y se utilizan ampliamente en todas las industrias. Por ejemplo, las compañías pueden extraer mapas de Yellowpages, Yelp y Google para generar oportunidades de ventas. Puede consultar otros usos y aplicaciones de extracción de datos.
Previously published at http://www.octoparse.es/blog/scrape-websites-sin-ser-bloqueado

Published by HackerNoon on 2020/04/10