| 基本信息 |
| 節點名稱 |
此節點的名稱 |
| 父節點 |
可選擇上級節點,主要方便管理,比如你可以把所有新聞的采集都歸到一個父節點里。 |
| 采集頁面地址 |
要采集的頁面列表,如果是多個列表用回車格開。 |
| |
采集頁面為直接內容頁:說明填寫的地址為直接內容頁面地址。 |
| 采集頁面地址方式二 |
由系統自己生成列表,但必須是有數字規律的。 |
| 如:“http://www.phome.net/index.php?page=[page]”([page]則為頁碼的范圍) |
| 內容頁地址前綴 |
信息頁鏈接的地址前綴。如地址前面沒域名的話,系統會加上此前綴。 如:http://www.phome.net+/news/2006/1.html |
| 圖片/FLASH地址前綴 |
新聞內容的圖片/FLASH地址為相對地址時使用。(針對newstext字段,遠程保存時有效) |
| 入庫欄目 |
采集的數據要入庫的欄目。如本節點不是采集節點,請不選。(只列出屬于此系統模型的欄目) |
| 入庫專題 |
采集的數據要入庫的專題。 |
| 節點生效時間 |
“開始時間”與“結束時間”這個目前可隨意設置。這主要是以后版本擴展之用。 |
| 備注 |
備注或說明 |
| 選項 |
| 默認相關關鍵字 |
截取標題前幾個字符作為相關鏈接的“關鍵字”,推薦設為0,這樣入庫效率更高。 |
| 采集記錄數 |
可設置只采集前多少條記錄。("0"為不限,系統會從頭采到頁面尾) |
| 遠程保存圖片到本地 |
選擇后入庫時系統會遠程保存圖片到本地,還可設置是否加水印。(針對newstext字段) |
| 遠程保存FLASH到本地 |
選擇后入庫時系統會遠程保存FLASH到本地。(針對newstext字段) |
| 標題圖片設置 |
可設置選擇遠程保存第幾個圖片作為標題圖片及生成縮圖設置。 |
| 每組列表采集個數 |
采集列表頁每組記錄數,單采集列表頁請填1。 |
| 每組信息采集個數 |
采集信息頁數據每組記錄數 |
| 每組入庫數 |
如果要遠程保存圖片/FLASH則請設小,如設為1。(為防止入庫超時,系統推薦將php的超時設為360以上) |
| 每組采集時間間隔 |
針對部分網站限制了頁面刷新時間間隔而設置的項 |
| 附加選項 |
| 頁面編碼轉換 |
頁面編碼的轉換設置。 |
| 是否重復采集同一鏈接 |
可設置同一鏈接是否重復采集。 |
| 是否隱藏已導入的信息 |
推薦選隱藏。否則入庫后的記錄依然會顯示到入庫列表里。 |
| 采集后自動入庫 |
可設置采集后自動入庫,不需要人工去入庫。但有可能入庫超時中斷。 |
| 入庫后自動刪除已導入的信息:入庫后同時刪除備份的驗證記錄。 |
| 整體頁面過濾正則 |
格式:“廣告開始[!–pad–]廣告結束”。多個可用“,”格開。 |
| 針對整個頁面代碼進行過濾。 |
| 對整個頁面字符替換 |
原字符多個請用","格開,如果是新字符是多個,可以用","格開,系統會一一對應進行替換。 |
| 過濾選項 |
| 采集關鍵字 |
標題包含關鍵字的信息才會采集。如不限制,請留空。多個請用","格開 |
| 替換 |
原字符多個請用","格開,如果是新字符是多個,可以用","格開,系統會一一對應進行替換。 |
| (針對標題與內容) |
| 過濾廣告正則 |
格式:“廣告開始[!–ad–]廣告結束”,多個請用","格開。(針對newstext字段) |
| 內容為空不采集 |
如果newstext內容為空不采集設置項。 |
| 過濾相似 |
可設置不采集標題相似超過多少個字符的信息。如不限制請填"0"。 |
| 可設置不采集標題完全相同的信息 |
| 截取內容簡介 |
如果信息簡介(smalltext)沒有值的話,系統會依此設置截取新聞內容(newstext)多少字符作為簡介。 |
| 列表頁正則 |
| 信息鏈接區域正則 |
通常不需要設置。一般是設置只采集頁面某一區域的鏈接或縮小采集范圍才設置的 |
| 在要采集鏈接區域的代碼地方加上“[!–smallurl–]” |
| 信息頁鏈接正則 |
采集“內容頁鏈接”的正則(列表頁里) |
| 在信息頁鏈接的地方加上“[!–newsurl–]” |
| 標題圖片正則 |
采集“標題圖片地址”的正則,可設置遠程保存與地址前綴(列表頁里,如圖片在內容頁,請留空) |
| 在標題圖片地址的地方加上“[!–titlepic–]” |
| 內容頁分頁采集設置:(如沒有分頁請留空,針對newstext字段) |
| 說明:如果是全部列表式,則只需看第一頁的頁面HTML代碼。 |
| 入庫是否保留原分頁 |
如果選擇“不保留分頁”則入庫后的信息都不分頁。 |
| 分頁形式 |
有“上下頁導航式”與“全部列出式”兩種形式。(一般全部列出式用的比較多) |
| "全部列出"式正則設置 |
分頁區域正則([!–smallpageallzz–]) |
| 分頁鏈接正則([!–pageallzz–]) |
| "上下頁導航"式正則設置 |
分頁區域正則([!–smallpagezz–]) |
| 分頁鏈接正則([!–pagezz–]) |