#Pregunta sobre el scraping web
De: Roger
Pregunta:
¿Qué herramientas conoces sobre el scraping de páginas web?
Respuesta:
El aprendizaje automático requiere datos, muchos datos. Hay algunas herramientas de scraping que ofrecen de forma automatizada y escalable la recopilación de grandes cantidades de datos de cientos de miles de páginas web.
Las computadoras son capaces de distinguir la información nueva utilizando el conocimiento existente, hacen conexiones, combinan ideas y siguen una línea de pensamiento muy similar a como lo hacemos los humanos.
- Portia
Portia es una herramienta que permite rastrear visualmente sitios web sin necesidad de conocimientos de programación.
Con Portia puedes analizar una página web para identificar los datos que deseas extraer.
- import.io
Con esta herramienta puedes extraer automáticamente los datos de sitios web , crear flujos de trabajo que preparen los datos de la web para la integración con otros sistemas de la empresa.
- ParseHub
ParseHub es una herramienta gratuita de raspado de datos web.Podrás extraer datos de forma muy fácil y sencilla.
Puedes llegar a obtener datos de millones de páginas web, ingresando miles de palabras clave y la herramienta de scraping lo buscará todo automáticamente.
Otras herramientas de raspado de páginas web
Pitón:
- Scrapy.org
- Pyspider – Github
- chineking – Github
- BeautifulSoup – Github
Javascript:
- node-crawler – Github
- node-simplecrawler – Github
PHP:
- Goutte – Github
Espero que con alguna de estas herramientas de scrapeo de datos puedas extraer todo lo que necesitas de una web.
Te puede interesar:
Acerca del autor
SEO Mánager en ginesmayol.com . Ayudo a empresas y marcas a posicionarse en Google. Presidente de la Asociación de MKT Digital de la Región de Murcia. Creo estrategias de Adquisición de tráfico para empresas y marcas nuevas. Hago deporte a diario y me gusta todo lo relacionado con el medio ambiente y el estilo de vida sencillo y saludable.