Santo Domingo. Según, ESET, compañía líder en detección proactiva de amenazas Web scraping, es el acto de interactuar con un sitio web o servicio y recopilar información específica. Por ejemplo, si alguien necesita obtener el valor de cotización en dólares diariamente a una hora determinada: para obtener esta información basta con ir a un sitio web oficial que tenga cotizaciones de monedas extranjeras o consultar en algún buscador, como Google. Ahora, si además es necesaria la información de 14 monedas extranjeras más y 9 criptomonedas específicas.
El web scraping es útil para optimizar el proceso de búsqueda y, con uno o dos clics, recopilar toda la información posible. Cualquier usuario puede realizar web scraping porque es un sistema automático que accede a un sitio web para “ver” una información, sin embargo, según ESET Los delincuentes utilizan el web scraping para configurar bases de datos con fines de intercambio/venta.
“Un caso ejemplo de su utilización sucedió hace algún tiempo cuando una gran tienda hizo una promoción en la que solicitó los datos de registro de sus clientes, pero la página tenía pública la información. Los delincuentes analizaron este sitio y encontraron que también era posible ver esta misma página con los datos de otros clientes, con esta información en la mano fue posible crear un raspador que la recopile y almacene. Varias filtraciones de las que tenemos noticias se llevan a cabo mediante el uso de web scraping, pero el uso también puede ser no malicioso. Para que una colección de información no tenga características maliciosas, es interesante entender cómo darle forma”, menciona Camilo Gutiérrez Amaya, jefe del Laboratorio de Investigación de ESET Latinoamérica.
Según ESET, las soluciones de web scraping a través de la línea de comandos tienden a obtener información más rápido, pero si no se parametrizan correctamente, pueden generar una cantidad tan grande de solicitudes que pueden interpretarse como un ataque DDoS y haber un bloqueo temporal o permanente de la IP que está escaneando. Dependiendo de los sistemas de protección del sitio, la IP de origen puede colocarse en una lista negra y otros sitios pueden rechazar conexiones de la fuente que inició el web scraping.