News

Wayback Machine: Internet Archive ignoriert künftig robots.txt

Mit der "Wayback Machine" bietet das "Internet Archive" ein Archiv des Internets an - das zeigt, wie Internetseiten früher aussahen. Immer öfter wird das aber durch Einträge in der robots.txt unterbunden - das Archiv steuert nun dagegen.

In der robots.txt sollten Administratoren eigentlich darauf hinweisen, wo Inhalte lediglich doppelt stehen oder wo vor allem die Algorithmen von Suchmaschinen einzelne Seiten aus verschiedenen Gründen nicht durchforsten sollen. Das sei aber inzwischen zum Problem geworden, begründet die gemeinnützige Organisation den Entschluss, diese Vorgaben künftig noch stärker ignorieren zu wollen. Bereits seit einigen Monaten archiviert die Wayback Machine des Internet Archive schon Internetseiten der US-Regierung und des US-Militärs, auch wenn das durch die robots.txt untersagt ist.

Link zu Wayback Machine

 

Alle News gibt es hier zu sehen, eine Suche lässt sich hier starten und zur Startseite geht es hier mit einem Klick!