网页信息收集器是一款网站站长会非常喜欢的网页信息抓取工具。如果你是一名网站站长,那么这款网页信息收集器相信你一定不会错过的~该软件可以很方便的针对某个网站的信息内容进行收集。需要的快来gz85下载站下载使用吧!
1、执行任务
根据已建立的任务信息保存、提取网页,也可通过“双击”某项任务启动此功能
2、新建、复制、修改、删除任务
新建、复制、修改、删除任务信息
3、默认选项
设置默认工作路径(默认为当前程序目录下的WorkDir文件夹)
设置默认提取测试数(默认为10)
设置默认文本分隔符(默认为*)
4、新建、编辑任务信息
任务名称:在默认的工作文件夹下生成以此命名的文件夹。
登录地址:针对某些需要登录才能查看其网页内容的网站,填写登录页面地址。在执行任务时,软件会打开此登录页面让您登录该网站
序数格式类型网页、非序数格式类型网:
这里的序数格式、非序数格式主要是指提取地址是否仅仅是数字的变化。例如类似于:
①http://xxx.com/1.html和http://xxx.com/2.html就属于序数格式
②http://xxx.com/abc.html和http://xxx.com/def.html则属于非序数格式
列表地址:在类型为“非序数格式类型网”时,第一页列表的链接地址
提取地址:由实际保存的网页地址共同部分+*号组成。
例如要提取:
①http://xxx.com/1.html和http://xxx.com/2.html则提取地址为http://xxx.com/*.html
②http://abc.xxx.com/abc.html和http://test.xxx.com/def.html则提取地址为http://*.xxx.com/*.html
翻页地址:为列表网页上的“下一页”链接地址,将其中变化的部分用*号代替。
页数起始:要开始提取的页数
页数截止:要停止提取的页数
当前页数:当前已经提取到的页数
已保存网页数:已经保存的网页数
任务详细描述:该任务的详细描述信息