Usando wget en Linux : El poder de descargar web’s

wget: Bajando sitios enteros facilmente

Unos trucos para lograr bajar automaticamente los sitios que necesites desde el internet a tu pc.

Wget es una herramienta que viene en cualquier linux, es usada para bajar archivos desde internet. Su forma basica de uso es: wget http://www.guatewireless.org/crack.exe

Esta es la manera en la cual wget se utiliza normalmente, pero tambien puede ser utilizado recursivamente, esto es su poder escondido. wget puede conectarse a los sitios y recursivamente bajar todas las paginas (imagenes y otro tipo de datos) que esten linkeadas en la pagina principal:

wget -r http://www.guatewireless.org/

Sin embargo, existen muchos sitios los cuales nos deniegan poder bajar el sitio completo. Para prevenir esto, los sitios verifican la identificacion de los navegadores. Para evitar estas molestias wget tiene la opcion -U.

wget -r -p -U Mozilla http://www.guatewireless.org/

Seria bueno que agregaran las opciones –limit-rate= y –wait=. Lo anterior es para hacer pausa entre cada pagina, ya que de lo contrario el dueno del sitio puede darse cuenta que con un simple comando wget le estamos bajando el sitio completamente. Sin embargo, nadie se dara cuenta si limitan la velocidad de descarga y hacen pausa entre archivos.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla http://www.guatewireless.org/

Use –no-parent

–no-parent esta opcion garantiza de que wget no descargara archivos por debajo del directorio que deseamos descargar.

Otra herramienta alternativa y disponible para todas las plataformas (Win32 y Linux) es httrack, un navegador Offline. Te permite descargar páginas web en el disco duro para luego poder navegar por ellas sin tener que estar conectado a Internet.

Otra manera de usarlo:

wget -r -l 4 http://sitioweb.com

-r ya saben que es para que baje recursivamente, pero si usamos tambien -l # solo bajara esa cantidad de niveles, en el ejemplo baja solo 4 niveles sobre la pagina que le hemos dado.

Y una mas, a pedido de mi amigo Surate…descargar solo un tipo de archivo de un sitio web o pagina, por ejemplo descargar todas las imagenes de un sitio, o descargar todos los videos, etc etc, se hace asi:

wget -r -A=.jpg,.png http://sitioweb.com

Con ese comando estariamos bajando todos los archivos .jpg y .png de el sitio. Si quisieramos bajar todos los mp3 de un sitio usariamos -A=.mp3

Seguramente se preguntan si hay una interface grafica para wget….pues obvio! Se llama Gwget y pueden encontrarla en los repositorios, no voy a explicar como funciona porque es muy intuitiva.

wget –random-wait –limit-rate=20k -r http://sitioweb.com

–random-wait significa que entre un archivo y otro espere un periodo de tiempo aleatorio, asi el sitio de donde estamos bajando los archivos no se dara cuenta de nada

–limit-rate=20k indica que estamos limitando las descargas de los archivos a una tranferencia maxima de 20k, esto tambien es para evitar que nos baneen la IP mientras estamos bajando.

One comment on “Usando wget en Linux : El poder de descargar web’s
  1. oswaldo dice:

    Espero me puedan ayudar porque es para el lunes 3 de diciembre del 2012

    Es para un examen que tengo y no se como hacerlo, puedo hacer el primer paso pero los siguientes no se como.

    Reubicacion de un sitio web ajustando las referencias href.
    1.-Considerando un sitio Web, descargar el sitio completo a un directorio local mediante el comando wget. Y mediante un script de su autoría realizar las siguientes operaciones:

    1.1.-Crear un directorio independiente para cada tipo de contenido: imágenes gif, imágenes jpeg, etc, vídeos avi, vídeos mpg, etc, audio mp3, audio wav, etc., contenido web (HTML, javascript, etc).

    1.2.-Una vez que se ha reubicado cada uno de estos contenidos, llevar a cabo el ajuste de las referencias hacía las ubicaciones locales de cada recurso del sitio.

    1.3.-Activar un servidor Web, y configurar el directorio raíz en donde se encuentra el respaldo del sitio Web como el directorio root del servidor Web local.

    1.4.-Nota: el comando wget solo se podrá usar con las opciones siguientes:
    –recursive
    –domains
    –page-requisites
    Si por alguna razón son necesario mas comandos, utilizar los necesarios.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

Más noticias llegaran...

Únete a otros 37 seguidores

diciembre 2016
L M X J V S D
« Dic    
 1234
567891011
12131415161718
19202122232425
262728293031  
Estadísticas
  • 197,197 VISITAS