用Scrapebox裡提供的採集功能來提取自己網站所有被收錄的頁面 (這裡只針對wordpress類型的網站)

1、具體方式是在Harvest模組中選中Custom Footprint
在keywords輸入框中輸入 site:yourdomain,你可以輸入很多個功能變數名稱一起採集,掛代理開啟多執行緒採集
採集完成後 去掉重複的URL 然後將list匯出
這些就是網站中被收錄的頁面。 但是這些頁面中會有一些除首頁和文章頁以外的頁面,我們需要過濾一下
非文章頁面的URL一般都有統一的特徵: /about/ ; wp-login.php; /tag/;
/page/ 等等 需要把他們所在的URL行都刪除掉
具體方法是可以用一些編輯器用規則運算式來匹配這些URL 然後批量替換掉,比如Editplus,Dreamweaver等
這種用Scrapebox採集已收錄頁面的方法的優點:支持多網站一起采,採集起來超級快
缺點是:會採集一些非文章頁面,需要自己過濾
2. 為採集來的URL指定關鍵字並且生成ScrapeBox可發的websites.txt
URL採集來之後就要給他們指定關鍵字了,但是如果一個一個手動寫依舊是會累死人。。。
懶人方法:使用火車頭採集一遍這些URL列表,並且生成scrapebox可發的Websites格式
簡單說下操作,採集來的URL list導入火車頭,火車頭需要採集保存兩個欄位, URL和關鍵字
關鍵字項可以根據你網站URL的實際情況來採集原始程式碼中的
在採集的時候可以針對採集後的結果做一些字串替換操作,直接就生成scrapebox可發的格式Post或者Trackback
採集完之後匯出csv,大致檢查一下,複製裡面內容保存為文本就可以分發到Scrapebox裡面了
沒有留言:
張貼留言