火車采集器即火車頭采集器,是一款功能強大的網頁數據采集工具,它廣泛應用于網頁采集,網站采集,數據采集等等,可以批量把網上的文字、圖片、文件采集到本地,同時還具備采集-發布的功能,讓建站變的十分簡單!功能強大】配置靈活是它的特點,只要你看上的網頁都可以批量采集。通常來說,火車采集器免費版功能已經足夠大家使用!

火車采集器軟件特色
1、通用性強
無論新聞、論壇、視頻、黃頁、圖片、下載類網站,只要通過瀏覽器能看到的結構化的內容,通過指定匹配規則,都能采集到您所需要的內容。
2、穩定、高效
五年磨一劍,軟件不斷更新進步,采集速度快,性能穩定,占用資源少。
3、擴展性強、適用范圍廣
自定義web發布,自定義主流的數據庫的保存和發布,自定義本地php及.net外部編程接口處理數據,讓數據都能為你所用。
火車采集器菜單功能

1.新建分組
新建一個任務分組,選擇所屬分組,確定分組名稱和備注。
2.新建任務
確定所屬分組,新建一個任務,填寫任務名稱并保存。
3.Web發布配置
Web發布配置定義了如何登陸一個網站以及向該網站提交數據。
主要涉及到登錄信息的獲取,網站編碼設定,欄目列表的獲取,以及使用數據測試發布效果。

4.Web發布模塊
可以定義網站登錄,獲取欄目列表,獲取網頁隨機值,內容發布參數,以及上傳文件,構造發布數據等高級功能。

5.數據庫發布配置
數據庫發布配置定義了數據庫鏈接信息的設置以及數據庫模塊的選擇。
6.數據庫發布模塊
用于編輯數據庫的發布模塊,方便我們將數據發布到配置好的數據庫中。
火車采集器可選mysql、sqlserver、oracle、access四種數據庫類型,在文本輸入框中填寫sql語句
(需有數據庫相關知識),并可使用標簽替換相應數據。也可在采集器模塊文件夾中加載某一模塊進行編輯。

7.計劃任務
設置列表中采集任務的啟動計劃,可每間隔、每天、每周、僅一次、或自定義Cron表達式,
(Cron表達式的寫法可參考相關術語中的介紹)。保存設置后,任務即可按照設置執行。

8.插件管理
插件是可以用來擴展火車采集器功能的程序
火車采集器V9支持PHP源碼、C#源碼、C#類庫三種類型的插件,
可用于擴展http請求、內容處理和文件下載的功能,并可以分別進行測試。
9.http二級代理
網絡中的服務器,可以讓網絡用戶去取得所需要的網絡信息。
代理的功能有可以突破自身ip的訪問限制訪問國外站點,訪問一些單位或團體內部資源,
突破電信的ip封鎖和隱藏真實的ip等。
火車采集器V9支持http代理、socket4和socket5代理。

10.http模擬請求
可以設置如何發起一個http請求,包括設置請求信息,返回頭信息。并具有自動提交的功能。
火車采集器基本功能
1.規則自定義——通過采集規則的定義,可以搜索幾乎任何類型的網站采集信息。
2.多任務,多線程-可以同時獲取多個信息,每個任務可以使用多個線程。
3.所見即所得-任務采集過程中所見即所得,過程中遍歷的鏈接信息.采集信息.錯誤信息等將及時反映在軟件界面上。
4.數據保存——數據在采集的同時自動保存到相關數據庫中,數據結構可以自動適應。該軟件可以根據采集規則自動創建數據庫,以及表和字段,也可以通過導庫靈活地將數據保存到客戶現有的數據庫結構中。
5.斷點續采-信息收集任務可在停止后從斷點開始繼續收集,從此您不再擔心您的收集任務意外中斷。
6.網站登錄-支持網站Cookie,支持網站可視化登錄,即使登錄時需要驗證碼的網站也可以收集。
7.計劃任務——通過這個功能,您可以定期、定量或循環地執行您的采集任務。
8.采集范圍限制——采集范圍可根據采集深度和網站標識進行限制。
9.文件下載-可以將采集到的二進制文件(如圖片、音樂、軟件、文檔等)下載到本地磁盤或采集結果數據庫中。
10.結果替換-可以根據規則將收集到的結果替換為您定義的內容。
11.條件保存——那些信息保存和過濾可以根據某些條件來決定。
12.過濾重復內容-軟件可以根據用戶設置和實際情況自動刪除重復內容和重復網站。
13.特殊鏈接識別-使用該功能可以識別JavaScript動態生成的鏈接或其他更奇怪的連接。
14.數據發布-可以通過自定義界面將收集到的結果數據發布到任何內容管理系統和指定數據庫中。目前支持的目標發布媒體包括:數據庫(access、sqlserver、mysql、oracle)、靜態htm文件。
15.預留編程接口-定義多個編程接口,用戶可以在事件中使用PHP和C#語言進行編程,擴展采集功能。
火車采集器特色功能
1、支持所有網站編碼:完美支持采集所有編碼格式的網頁,程序還可以自動識別網頁編碼。
2、多種發布方式:支持目前所有主流和非主流的CMS,BBS等網站程序,通過系統的發布模塊能實現采集器和網站程序間的完美結合。
3、全自動:無人值守工作,配置好程序后,程序將依據您的設置自動運行,完全無需人工干預。
4、本地編輯:本地可視化編輯已采集的數據。
5、采集測試:這是其它任何同類采集軟件所不能比的,程序支持直接查看采集結果并測試發布。
6、管理方便:使用站點+任務方式管理采集節點,任務支持批量操作,再多的數據管理也很輕松。
更新日志:
V10.1正式版
1.修復:添加了HTTP請求的頭信息之后,再添加多頁,頭信息的所屬頁會全部清空。
2.新增:表格類型數據自動分析,自動添加字段,也可以刪除字段。自動勾選循環。
3.修復:復制規則之后,規則排重庫處為空白,無法建立新的排重庫。
4.完善:刪除任務的時候,同時刪除該任務的所有數據,并且在提示信息框加上提示信息。
5.修復:文件下載jpeg格式自動轉換jpg。
6.優化:提取json時若提取表達式里面屬性不存在導致其他數據提取失敗。
V10.0正式版
1.數據獲取中支持調用其他標簽的值作為截取條件。
2.數據獲取支持CSS selector,很多網頁的css 的屬性唯一,此功能更利于批量從網頁中提取數據。
3.增加關聯區域功能,可以截取網頁中指定區域內容進行采集處理。
4.批量網址增加區間變化的網址增加方式,適應更多的網頁地址變化方式。
5.批量設置增加新增加功能的批量設置。
6.運行統計日志設置添加默認關閉功能,可在設置中選擇開啟或關閉。
7.oss相關問題修復。
8.網址空格問題導致列表頁標簽錯誤問題修復。
9.下載相關問題修復。
10.修復“任務數據批量處理”中刪除為空記錄無效的問題。
11.文件下載插件增加文件下載后處理接口。
用戶評價:
火車采集器,一款專業的互聯網數據抓取、處理、分析,挖掘軟件,可以靈活迅速地抓取網頁上散亂分布的數據信息,并通過一系列的分析處理,準確挖掘出所需數據。火車采集器歷經十年的升級更新,積累了大量用戶和良好口碑,是目前最受歡迎的網頁數據采集軟件。