長腿蜘蛛-CTspider采集 詳細教程
如何安裝
首先去長腿蜘蛛-CTspider官網下載插件
- 然后到WordPress插件頁面點擊上傳,安裝啟用即可。
- 如果使用FTP上傳,請使用二進制上傳協議。
如何授權
登錄長腿蜘蛛-CTspider官網注冊賬號(PS:注冊賬號需要郵箱驗證激活碼,請認真填寫郵箱賬號)。
- 點擊用戶中心->添加授權域名(PS:目前每位用戶可以授權3個域名)。
- 得到授權碼后,點擊CTspider插件->系統配置->授權碼配置->填入授權碼->保存配置->驗證授權
最近有很多網友問:為什么點擊采集后顯示沒有任何數據只有兩種可能
- 采集規則沒有設置好。
- 如果確定采集規則沒問題,請查看當前采集的網址是否是Ajax動態渲染加載(PS:目前長腿蜘蛛-CTspider?
不支持動態渲染加載采集
)
新建項目 / 基本配置
接下來我們詳細說下如何采集一個項目
我們使用新浪科技為示例:
首先基本配置
- 任務名稱:新浪科技(PS:自定義即可)
- 更新時間:默認60分鐘(PS:當前任務60分鐘自動執行一次)
- 字符集:默認選項就可以(PS:如果出現亂碼情況,請針對當前web網頁字符集選擇即可)
- 隨機IP:開啟(PS:開啟隨機IP會在每次采集的時候自動更換IP,減少服務器IP被封的幾率)
- 多線程采集:開啟 (PS:開啟后可提高采集速度)
- 多線程數量:默認10(PS:根據自己服務器配置酌情使用)
列表設置
- 列表URL: http://roll.tech.sina.com.cn/internet_all/index.shtml (PS:如需多個,可換行添加)
- 列表區域選擇器:
.contList>ul>li
?(PS:【完全和CSS選擇器用法一樣
】【可填,可不填
】如果采集當前頁面有多個相同列表DOM節點就要填寫,確保采集精準度)用谷歌瀏覽器右鍵審查元素,可以看出當前列表數據都在.contList>ul>li
下面
- 列表縮略圖:如果有圖可以直接填寫當前縮略圖CSS選擇器
- 文章網址匹配:
a
?(PS:由于上面區域選擇器已經定位,我們可以直接填入a標簽
即可,如果區域選擇器沒有定位則設置:.contList li a
?或者.contList a
?具體根據你采集頁面dom結構自己分析) - 添加來源網址到自定義字段:
source_url
(PS:【自定義】可開啟或不開啟,設置后會在每天文章添加一個自定義字段source_url
并且會把當前采集到網址鏈接賦值給該字段用于前臺調用顯示)如:?get_post_meta('source_url')
?可調用該字段的值。
點擊列表測試可以查看當前項目列表配置情況
文章設置
標題匹配規則:h1
文章內容設置:#article_content
可以看到標題在h1
標簽下,也可使用.main-title
來獲取標題
正文內容看上去有好多?class和id
?如果有id屬性盡量采用id,畢竟id是唯一性,定位精準。
我們還可以增加規則來采集TAG標簽
長腿蜘蛛-CTspider 提供了6總規則添加采集,并且可以自定義字段規則(PS:自定義字段規則可以添加多個)
點擊采集測試
采集結果完美呈現(原文:標題:TAG)正確顯示
但是我們發現結果中出現了a鏈接
和一些多于的css屬性
和id屬性
還有span標簽
我們可以利用長腿蜘蛛-CTspider
強大的內容過濾
模塊進行數據清洗工作
內容過濾
- 首先刪除數據中所有
a鏈接
但不刪除a標簽內容 - 刪除數據中
span標簽
并且也不刪除內容 - 刪除數據中無用的
class
屬性和id
屬性
具體設置如下圖:
最后在進行采集測試(得到純凈的數據)
暫無評論...