Articles of web scraping

Cómo poner contenido raspado a html (Node.js, cheerio)

Necesito desechar algo de contenido y agregarlo a mi archivo html. var request = require(‘request’); var cheerio = require(‘cheerio’); setInterval(function () { request(‘https://2ch.hk/rf/res/1490589.html’, function (error, response, html) { if (!error && response.statusCode == 200) { var $ = cheerio.load(html); $(‘.post-message’).each(function (i, element) { var a = $(this).text(); console.log(a); }); } }); }, 5000); Ahora, tengo […]

Mejora en el flujo de control de node.js scraper para la salida JSON en un archivo grande

Soy nuevo en el flujo de control asíncrono de Node.js, mi raspador funciona, pero no puedo evitar pensar que debe haber una forma más óptima (¿elegante?) De hacerlo, estoy abierto al uso de otra biblioteca de nodos . Más específicamente: Siento que el flujo de control actual (con toda la callback) es difícil de leer, […]

Gestionando titiritero para la memoria y el rendimiento.

Estoy usando titiritero para raspar algunas páginas, pero tengo curiosidad sobre cómo administrar esto en producción para una aplicación de nodo. Estaré raspando hasta 500,000 páginas en un día, pero estos trabajos de raspado sucederán a intervalos aleatorios, por lo que no es una sola cola la que pueda hacer. Lo que me pregunto es: […]

Raspado dynamic utilizando nodejs y phantomjs

En primer lugar, he instalado con éxito PhantomJs y su interfaz npm phantom . He configurado el código para cargar mi página con la nueva syntax (todas las demás preguntas publicadas aquí se basaron en la syntax del código anterior o me falta algo). Esta es la fuente que estoy tratando de raspar . Ahora, […]

Haciendo click en una imagen con pesadillas.

He estado luchando durante unos días en este tema. Estoy usando pesadillas para hacer clic en una imagen en una página de listado de productos de Ebay. Cuando se hace clic, la versión de tamaño completo de la imagen aparece en una caja de luz. ¡Nightmarejs no hará clic en esta imagen! Puedo hacer clic […]

¿Cómo obtener el estado de respuesta 404 en casper.js dentro de thenOpen en lugar de indefinido?

¿Alguna idea de por qué el código a continuación no captura 404 en la var de response o en el evento http.status.404 ? Ejecuto esto con phantomjs 1.9, casperjs 1.0.2 y Windows 7 var casper = require(“casper”).create(), utils = require(‘utils’); casper.start(); casper.thenOpen(‘http://www.google.com/sadfafsdgfsd’, function(response) { casper.capture(‘test.png’); utils.dump(response); }); casper.on(‘http.status.404’, function(resource) { this.echo(‘wait, this url is 404: […]

Raspado de un sitio web que requiere autenticación mediante node.js

Estoy intentando descartar este sitio web https://www.erobertparker.com/entrance.aspx requiere autenticación. Estoy utilizando el módulo de solicitud para autenticarme de esta manera. request({ url:”https://www.erobertparker.com/login.aspx”, method:”POST”, form:{UNENTRY:”username”,PWENTRY:”password”} }, function(error,response,body){ }) pero no puedo autenticar lo que estoy haciendo mal. Alguien puede guiarme. Soy nuevo en el mundo del raspado web :).

Raspe la información con el formulario enviado usando Phantom

Quiero hacer raspado web de este sitio . He visto que las API están disponibles pero, según lo sugerido por duraid en mi pregunta anterior , no es recomendable usarlas. Así que intenté usar Node.js y Phantom.js con Phantom . Este es mi código: var phantom = require(‘phantom’); // object of methods var methods = […]

Raspado Google Translate

Me gustaría raspar el Traductor de Google con NodeJS y la biblioteca cheerio: request(“http://translate.google.de/#de/en/hallo%20welt”, function(err, resp, body) { if(err) throw err; $ = cheerio.load(body); console.log($(‘#result_box’).find(‘span’).length); } Pero no puede encontrar los elementos necesarios del cuadro de traducción (result_box). En el código fuente del sitio web se ve así: hello world Así que creo que podría […]

NodeJS Web Scraping – Envío de formulario

Estoy tratando de usar X-Ray para hacer lo siguiente, no estoy familiarizado con el web scarping, y estoy buscando una tecnología para mi uso. Vaya a una página, asigne un formulario específico en ella, establezca algunas vars y envíelo. A continuación, obtener la otra página, y así sucesivamente … ¿Cuál es la mejor solución basada […]