長腿蜘蛛-CTspider采集 詳細教程

如何安裝

首先去長腿蜘蛛-CTspider官網下載插件

  1. 然后到WordPress插件頁面點擊上傳,安裝啟用即可。
  2. 如果使用FTP上傳,請使用二進制上傳協議。

如何授權

登錄長腿蜘蛛-CTspider官網注冊賬號(PS:注冊賬號需要郵箱驗證激活碼,請認真填寫郵箱賬號)。

  1. 點擊用戶中心->添加授權域名(PS:目前每位用戶可以授權3個域名)。
  2. 得到授權碼后,點擊CTspider插件->系統配置->授權碼配置->填入授權碼->保存配置->驗證授權

最近有很多網友問:為什么點擊采集后顯示沒有任何數據只有兩種可能

  1. 采集規則沒有設置好。
  2. 如果確定采集規則沒問題,請查看當前采集的網址是否是Ajax動態渲染加載(PS:目前長腿蜘蛛-CTspider?不支持動態渲染加載采集

新建項目 / 基本配置

接下來我們詳細說下如何采集一個項目

我們使用新浪科技為示例:

首先基本配置

  1. 任務名稱:新浪科技(PS:自定義即可)
  2. 更新時間:默認60分鐘(PS:當前任務60分鐘自動執行一次)
  3. 字符集:默認選項就可以(PS:如果出現亂碼情況,請針對當前web網頁字符集選擇即可)
  4. 隨機IP:開啟(PS:開啟隨機IP會在每次采集的時候自動更換IP,減少服務器IP被封的幾率)
  5. 多線程采集:開啟 (PS:開啟后可提高采集速度)
  6. 多線程數量:默認10(PS:根據自己服務器配置酌情使用)

列表設置

  • 列表URL: http://roll.tech.sina.com.cn/internet_all/index.shtml (PS:如需多個,可換行添加)
  • 列表區域選擇器:.contList>ul>li?(PS:【完全和CSS選擇器用法一樣】【可填,可不填】如果采集當前頁面有多個相同列表DOM節點就要填寫,確保采集精準度)用谷歌瀏覽器右鍵審查元素,可以看出當前列表數據都在.contList>ul>li下面

  • 列表縮略圖:如果有圖可以直接填寫當前縮略圖CSS選擇器
  • 文章網址匹配:a?(PS:由于上面區域選擇器已經定位,我們可以直接填入a標簽即可,如果區域選擇器沒有定位則設置:.contList li a?或者.contList a?具體根據你采集頁面dom結構自己分析)
  • 添加來源網址到自定義字段:source_url(PS:【自定義】可開啟或不開啟,設置后會在每天文章添加一個自定義字段source_url并且會把當前采集到網址鏈接賦值給該字段用于前臺調用顯示)如:?get_post_meta('source_url')?可調用該字段的值。

點擊列表測試可以查看當前項目列表配置情況

文章設置

標題匹配規則:h1

文章內容設置:#article_content

可以看到標題在h1標簽下,也可使用.main-title來獲取標題

正文內容看上去有好多?class和id?如果有id屬性盡量采用id,畢竟id是唯一性,定位精準。

我們還可以增加規則來采集TAG標簽

長腿蜘蛛-CTspider 提供了6總規則添加采集,并且可以自定義字段規則(PS:自定義字段規則可以添加多個)

點擊采集測試

采集結果完美呈現(原文:標題:TAG)正確顯示

但是我們發現結果中出現了a鏈接和一些多于的css屬性id屬性還有span標簽

我們可以利用長腿蜘蛛-CTspider強大的內容過濾模塊進行數據清洗工作

內容過濾

  1. 首先刪除數據中所有a鏈接但不刪除a標簽內容
  2. 刪除數據中span標簽并且也不刪除內容
  3. 刪除數據中無用的class屬性和id屬性

具體設置如下圖:

最后在進行采集測試(得到純凈的數據)

 

版權聲明:admin 發表于 2020-02-29 17:00:23。
轉載請注明:長腿蜘蛛-CTspider采集 詳細教程 | 贏在起跑線

暫無評論

暫無評論...