Pregunta ¿Cómo puedo descargar un sitio web completo?


¿Cómo puedo descargar todas las páginas de un sitio web?

Cualquier plataforma está bien.


314


origen


Revisa serverfault.com/questions/45096/website-backup-and-download en Server Fault. - Marko Carter
@tnorthcutt, estoy sorprendido también. Si no recuerdo muy mal, mi respuesta Wget solía ser la aceptada, y esto parecía una cosa arreglada. Sin embargo, no me quejo; de repente, la atención renovada me dio más que la recompensa de la recompensa. :PAG - Jonik
¿Has probado IDM? superuser.com/questions/14403/... Mi publicación está enterrada. ¿Qué encontró faltante en IDM? - Lazer
@joe: Podría ayudarme si me dieras detalles sobre cuáles son las características que faltan ... - Ilari Kajaste
browse-offline.com puede descargar el árbol completo del sitio web para que pueda ... explorarlo sin conexión - Menelaos Vergis


Respuestas:


HTTRACK funciona como un campeón para copiar los contenidos de un sitio completo. Esta herramienta puede incluso tomar las piezas necesarias para que un sitio web con contenido de código activo trabaje fuera de línea. Estoy sorprendido de las cosas que puede replicar fuera de línea.

Este programa hará todo lo que requiera de él.

¡Feliz cacería!


302



He estado usando esto por años, muy recomendado. - Umber Ferrule
También puedes limitar la velocidad de descarga para que no uses demasiado ancho de banda en detrimento de los demás. - Umber Ferrule
¿Copiaría esto el código ASP real que se ejecuta en el servidor? - Taptronic
@Optimal Solutions: No, eso no es posible. Necesitarás acceso a los servidores o al código fuente para eso. - Sasha Chedygov
Después de probar tanto httrack como wget para sitios con autorización, tengo que inclinarme a favor de wget. No pude hacer que httrack funcione en esos casos. - Leo


Wget es una herramienta clásica de línea de comandos para este tipo de tareas. Viene con la mayoría de los sistemas Unix / Linux, y puedes obtenerlo para ventanas también. En una Mac, Homebrew es la forma más fácil de instalarlo (brew install wget)

Harías algo como:

wget -r --no-parent http://site.com/songs/

Para más detalles, ver Wget Manual y es ejemplos, o p. estas:


240



No hay mejor respuesta que esto: wget puede hacer cualquier cosa: 3 - Phoshi
+1 para incluir el --no-parent. definitivamente use --mirror en lugar de -r. y es posible que desee incluir -L / - relativo a no seguir enlaces a otros servidores. - quack quixote
Como también pedí httrack.com, ¿esta herramienta de línea de cmd obtendría el ASP? código ¿o simplemente obtendría la representación del HTML? Tengo que intentar esto. Esto podría ser un poco preocupante para los desarrolladores si lo hace ... - Taptronic
@optimal, la salida de HTML, por supuesto, obtendría el código solo si el servidor estaba mal configurado - Jonik
Desafortunadamente no funciona para mí: hay un problema con los enlaces a los archivos CSS, no se cambian a relativo, es decir, se puede ver algo como esto en los archivos: <link rel = "stylesheet" type = "text / css" href = "/ static / css / reset.css" media = "screen" /> que no funciona bien localmente, a menos que haya un waz para engañar a firefox y pensar que cierto directorio es una raíz. - gorn


Use wget:

wget -m -p -E -k www.example.com

Las opciones explicadas:

-m, --mirror            Turns on recursion and time-stamping, sets infinite 
                          recursion depth, and keeps FTP directory listings.
-p, --page-requisites   Get all images, etc. needed to display HTML page.
-E, --adjust-extension  Save HTML/CSS files with .html/.css extensions.
-k, --convert-links     Make links in downloaded HTML point to local files.

123



+1 para proporcionar las explicaciones para las opciones sugeridas. (Aunque no creo --mirror es muy autoexplicativo. Aquí está de la página man: "Esta opción activa la recursión y el sellado de tiempo, establece la profundidad de recursión infinita y mantiene listas de directorios FTP. Actualmente es equivalente a -r -N -l inf --no-remove-listing") - Ilari Kajaste
Si no desea descargar todo en una carpeta con el nombre del dominio que desea duplicar, cree su propia carpeta y use la opción -nH (que omite la parte del host). - Rafael Bugajewski
¿Qué pasa si se requiere la autenticación? - Val
Intenté usar tu wget --mirror -p --html-extension --convert-links www.example.com y acaba de descargar el índice. Creo que necesitas el -r para descargar todo el sitio. - Eric Brotto
para aquellos preocupados por matar un sitio debido al tráfico / demasiadas solicitudes, use el -w seconds (esperar un número de segundos entre las solicitudes, o --limit-rate=amount, para especificar el ancho de banda máximo a usar durante la descarga - vlad-ardelean


Deberías echarle un vistazo a Álbum de recortes, una extensión de Firefox. Tiene un modo de captura en profundidad.

enter image description here


8



Ya no es compatible con Firefox después de la versión 57 (Quantum). - Yay295


Administrador de descargas de Internet tiene una utilidad Site Grabber con muchas opciones, que le permite descargar por completo cualquier sitio web que desee, de la manera que lo desee.

  1. Puede establecer el límite en el tamaño de las páginas / archivos para descargar

  2. Puede establecer el número de sucursales para visitar

  3. Puede cambiar la forma en que se comportan los scripts / popups / duplicates

  4. Puede especificar un dominio, solo debajo de ese dominio se descargarán todas las páginas / archivos que cumplan con la configuración requerida

  5. Los enlaces se pueden convertir a enlaces sin conexión para navegar

  6. Tienes plantillas que te permiten elegir la configuración anterior para ti

enter image description here

El software no es gratuito, sin embargo, verifique si se ajusta a sus necesidades, use la versión de evaluación.


8





chupa - ese es el nombre del programa!


7





Voy a abordar el almacenamiento en búfer en línea que utilizan los navegadores ...

Por lo general, la mayoría de los navegadores usan una memoria caché de navegación para mantener los archivos que descarga de un sitio web un poco, para que no tenga que descargar imágenes estáticas y contenido una y otra vez. Esto puede acelerar las cosas bastante bajo algunas circunstancias. En términos generales, la mayoría de las cachés de navegador están limitadas a un tamaño fijo y cuando alcanza ese límite, eliminará los archivos más antiguos en la caché.

Los ISP tienden a tener servidores de almacenamiento en caché que guardan copias de sitios web comúnmente accedidos como ESPN y CNN. Esto les ahorra el problema de golpear estos sitios cada vez que alguien en su red va allí. Esto puede representar un ahorro significativo en la cantidad de solicitudes duplicadas a sitios externos al ISP.


5





me gusta Explorador fuera de línea.
Es un shareware, pero es muy bueno y fácil de usar.


5





No he hecho esto en muchos años, pero todavía hay algunos servicios públicos por ahí. Es posible que desee probar Serpiente web. Creo que lo usé hace años. Recordé el nombre de inmediato cuando leí tu pregunta.

Estoy de acuerdo con Stecy. Por favor, no martilleen su sitio. Muy mal.


5





WebZip es un buen producto también


4





Tratar Navegador BackStreet.

Es un navegador fuera de línea potente y potente. Una alta velocidad, multi-threading   sitio web de descarga y programa de visualización. Al hacer múltiples simultáneas   solicitudes del servidor, BackStreet Browser puede descargar rápidamente todo   sitio web o parte de un sitio que incluye HTML, gráficos, Applets de Java,   sonido y otros archivos definibles por el usuario, y guarda todos los archivos en su   disco duro, ya sea en su formato nativo o como un archivo ZIP comprimido   y ver fuera de línea.

enter image description here


3