Wi-Earn: Sb群發方法收集之採集自己網站中已收錄的文章頁面

2013年6月7日星期五

用Scrapebox裡提供的採集功能來提取自己網站所有被收錄的頁面 (這裡只針對wordpress類型的網站)

1、具體方式是在Harvest模組中選中Custom Footprint

在keywords輸入框中輸入 site:yourdomain，你可以輸入很多個功能變數名稱一起採集，掛代理開啟多執行緒採集

採集完成後去掉重複的URL 然後將list匯出

這些就是網站中被收錄的頁面。但是這些頁面中會有一些除首頁和文章頁以外的頁面，我們需要過濾一下

非文章頁面的URL一般都有統一的特徵: /about/ ; wp-login.php; /tag/; /page/ 等等需要把他們所在的URL行都刪除掉

具體方法是可以用一些編輯器用規則運算式來匹配這些URL 然後批量替換掉，比如Editplus，Dreamweaver等

這種用Scrapebox採集已收錄頁面的方法的優點：支持多網站一起采，採集起來超級快

缺點是：會採集一些非文章頁面，需要自己過濾

2. 為採集來的URL指定關鍵字並且生成ScrapeBox可發的websites.txt

URL採集來之後就要給他們指定關鍵字了，但是如果一個一個手動寫依舊是會累死人。。。

懶人方法：使用火車頭採集一遍這些URL列表，並且生成scrapebox可發的Websites格式

簡單說下操作，採集來的URL list導入火車頭，火車頭需要採集保存兩個欄位， URL和關鍵字

關鍵字項可以根據你網站URL的實際情況來採集原始程式碼中的

在採集的時候可以針對採集後的結果做一些字串替換操作，直接就生成scrapebox可發的格式Post或者Trackback

採集完之後匯出csv，大致檢查一下，複製裡面內容保存為文本就可以分發到Scrapebox裡面了

Wi-Earn