使用wget進行全站抓取的命令:
wget -mkp -e robots=off -U "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6" "
http://www.example.com/"
含義:
-m, --mirror, 表示命令用於鏡像, 設置一些遞歸參數什麼的.
-k, --convert-links, 轉換網頁中的鏈接. 如果沒用這個參數, 鏈接還是指向源網站的.
-p, --page-requisites, 把正確顯示網頁所需的圖片, 樣式表什麼的一併保存下來.
-e robots=off, 忽略robots.txt, 有些網站使用robots.txt禁止抓取.
-U "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6" , --user-agent, 把自己爲裝成瀏覽器. 有些網站只允許瀏覽器訪問.