Die Macht von wget ist, dass Sie Websites rekursiv herunterladen können, was bedeutet, dass Sie auch alle Seiten (und Bilder und andere Daten) auf der Titelseite verlinkt bekommen: Sie sollten vorsichtig sein, um zu überprüfen, ob .html-Erweiterungen für Ihren Fall funktioniert, manchmal möchten Sie, dass wget sie basierend auf dem Inhaltstyp generiert, aber manchmal sollten Sie vermeiden, dass sie generiert werden, wie es der Fall ist, wenn Sie hübsche URLs verwenden. github.com/webjay/webtography/blob/master/lib/wget.js#L15-L26 ich versuchte einmal mit wget und ich schaffte es, die Website selbst herunterzuladen, aber wenn ich versuche, eine Datei von ihm herunterzuladen, gibt es eine Datei ohne Erweiterung oder Namen. Wie kann ich das beheben? Der Download kann mit einem rekursiven Durchlaufansatz oder dem Besuch jeder URL der Sitemap erfolgen. wget -U “Mozilla/5.0 (iPhone; CPU iPhone OS 12_3 wie Mac OS X) AppleWebKit/605.1.15 (KHTML, wie Gecko) Version/12.1.1 Mobile/15E148 Safari/604.1” wget wird eine Auflistung in einer robots.txt-Datei respektieren, die wget anweist, Teile einer Website oder irgendetwas überhaupt nicht herunterzuladen, wenn das das ist, was die robots.txt-Datei fragt. wget respektiert robots.txt, auch wenn Sie den User-Agent überschreiben. Für dieses Handbuch erfahren Sie, wie Sie diesen Linux-Blog herunterladen: Ein weiterer Ansatz besteht darin, eine rekursive Durchquerung der Website zu vermeiden und alle URLs herunterzuladen, die in der Website sitemap.xml vorhanden sind. Falls Sie einen beträchtlichen Teil einer Website mit jedem genannten Vorteil herunterladen möchten, aber ohne rekursives Crawling, hier ist eine andere Lösung. Wget kann eine Liste von Links akzeptieren, die für die Offline-Nutzung abgerufen werden können. Wie Sie auf diese Liste kommen, liegt bei Ihnen, aber hier ist eine Idee. Dies ist nur mit wget, schauen Sie einfach nach, wie man wget zu verwenden. Es gibt tonnenweise Beispiele online.

–no-clobber: Überschreiben Sie keine vorhandenen Dateien (wird für den Fall verwendet, dass der Download unterbrochen und fortgesetzt wird). Wget hat eine sehr praktische -U-Option für Websites, die wget nicht mögen. Verwenden Sie -U My-browser, um der Website mitzuteilen, dass Sie einen allgemein akzeptierten Browser verwenden: Ein weiteres Beispiel, um eine ganze Website mit wget herunterzuladen: wget –mirror –convert-links –adjust-extension –page-requisites –no-parent example.org Sie müssen die Website möglicherweise vollständig spiegeln, aber seien Sie sich bewusst, dass einige Links wirklich tot sein können.

Wget ganze seite herunterladen