
常用软件类: |
|杀毒安全 | |联络聊天 | |网络软件 | |多媒体类 | |系统工具 | |图形图像 | |系统工具 | |应用软件 | |行业软件 |
开发设计类: |
|动画制作 | |图像处理 | |3D设计 | |操作系统 | |站长学院 | |网络相关 | |WEB设计 | |数据库类 | |程序开发 |
采集管理
采集系统可以直接深入到站点及其网页的所有内容,将网页中的有效数据采集出来(而不仅是网页或链接),并保持数据之间的逻辑关系。对一个新闻站点,它可以将每个新闻的标题、正文等信息单独采集出来,分别作为字段存储在系统中。
采集项目管理
单击左侧管理导航的“采集管理”,出现采集的管理项目:
·文章采集:用于采集设置好的采集项目。
·项目管理:用于建立、管理和复制采集项目。
·过滤管理:用于过滤采集中的标题和正文的字符。
·历史记录:已采集的记录历史,避免重复采集。
·导入|导出:用于共享迁移采集项目。
·定时设置 | 启动定时:用于设置定时采集
·区域采集管理:就是采集网站页面的某个固定区域,并将采集得来的区域代码保存为内联页提供给模板调用,刷新区域采集就可时时更新。
文章采集
1.单击后台左侧管理导航的“采集管理”->“文章采集”,出现“采集系统项目管理”界面:
参数说明:
·选择:选择您要采集的项目,可多选用于批量采集操作。
·状态:如果采集项目没有通过审核,则选择框的颜色为灰暗并不可选,其状态栏显示×。您要必须在“项目管理中”连续通过“采样测试”->“设置属性”这两步,才能通过审核。通过审核的采集项目状态栏显示√。
·上次采集:显示最新的采集日期。
黑色:表示上一次采集的时间。如:2005-5-8 14:45:44。
红色:表示当天采集的时间。如:2005-5-10 11:31:32(如果过了当天时间则会变成黑色)。
·文章采集选项:系统提供了三种采集的样式,包括
->不录入数据库,只测试采集功能是否正常
->采集过程中预览文章内容
->不采集本系统中已经存在相同标题的文章(网站文章超过2万篇以上,请慎用此项)
这几个是多选选项,您可以选择您自己想要的方式,如果都不选择那就是直接把采集的文章写入到数据库中。
·采集模式:提供“稳定采集”、“快速采集”、“链接采集”和“断点采集”四种模式。
->稳定采集:是针对一台服务器有多个动易系统时建议选此项,每采集一篇文章让服务器休息3秒。这样当一台服务器多个动易系统同时采集的时候服务器不受采集影响。
->快速采集:是针对用户拥有一台独立的服务器或配置非常好的服务器使用的采集模式。快速采集将发挥采集的最快速度,采集的效率最高。
->链接采集:就是只采集对方网站的链接,不采集正文。
->断点采集:就是为了采集过程中突然中断提供的一种采集模式,当您上一次采集的时候突然中断后,在您再一次打开采集的时候,断点采集按钮就从灰色不可用转变成为可用按钮,您只要单击按钮就可以从上一次采集断开那一点开始继续采集。减少系统再次检测的时间。
·历史记录:采集项目具有采集统计功能,显示该项目采集成功数和失败数,点击成功失败可看到具体的历史记录信息,并提供采集统计功能。
·采集选项:提供“测试采集”和“正文预览”两项,分别是来测试建立项目成功后是否有效。
·每页项目数:您可以下拉选择每页显示的页数,用于批量采集,比如一次采集20个项目或更多。
·开始采集:勾选了相应采集项目前的选择框,再单击本功能按钮,系统开始进行项目采集与测试。
项目管理
单击后台左侧管理导航的“采集管理”->“项目管理”,出现“采集系统项目管理”界面:
参数说明:
·管理导航:系统提供采集管理导航操作。
->管理首页:链接到采集系统项目管理首页。
->添加新项目:单击本功能链接添加新的采集项目。
·“操作”列功能链接说明:
->编辑:修改您指定的采集项目。
->测试:测试您的采集项目是否正确,如果显示采集的正文页证明成功,否则会提示您第几步错误。
->属性:设置您采集到的文章,放在那个频道中,那个栏目中,相对应的属性设置。
->复制:如果所采集网站的模板相同,可利用本功能复制多个项目,以提高采集效率。
如果导入采集项目后,就需要审核,是否是正确的采集项目,您必须点要审核项目的,
!采集项目只有通过测试和属性这连续两项后方可通过审核。测试:保证采集项目正确;属性:制定采集后的储存位置。
·操作按钮:系统提供将已选定的项目“批量删除”或“批量设置”二个操作按钮。
->批量删除:选择您要删除的采集项目(可多选),选择后单击“批量删除”按钮即可删除选定的采集项目。
->批量设置:选择您要设置的采集项目(可多选),选择后单击“批量设置”按钮,则可批量修改项目属性。
具体项目属性设置请参阅后章“项目管理”的“属性设置”。
下面请认真阅读采集步骤说明,建立您要采集的项目。单击顶部的“添加新项目”功能链接,开始添加新的采集项目。
基本设置
“添加新项目--基本设置”的界面参数说明:
1.基本设置:
·管理导航:如果是编辑项目,可任意点击所属的项目链接。
·添加项目名称:填写自定义项目名称。
·网站名称:填写自定义网站名称。
·新闻列表网址:填写采集网站的的栏目列表页(即标题较多的列表网页,不是首页)。
·网页编码格式:提供GB2312、UTF-8和Big5三种编码格式。国内的网站基本都是GB2312,(默认选项可不选)
如果是香港,台湾网站请采用 Big5编码,如果是采集海外网站用UTF-8编码。
·项目备注:填写自定义备注信息。
2.登录设置:
·网站登录:选择不需要登录或设置参数(如果网站需要登录后才能浏览信息刚要选择此选项)设置参数中填写登录地址、提交地址、用户参数和密码参数。
详细设置:
登录地址: 用户要网站要登录的网页例如 :http://www.xxxx.com/UserLogin.asp
提交地址: 指用查看网页源代码方式查看登录地址的Form 表单提交的地址
比如上面输入登录地址为http://www.xxxx.com/UserLogin.asp 打开后查看网页源
代码
在源代码中发现他的form 代码是 <form action='/User/User_ChkLogin.asp'
那么提交地址就是 http://www.xxxx.com/User/User_ChkLogin.asp
用户参数: 用户文本框名称就是查看网页源代码登录表单的用户文本框名称 例如:
<input name='UserName'
它的用户文本框名就是 UserName
用户名称就是您要登录对方网站的注册用户名
密码参数:密码文本框名称就是查看网页源代码登录表单的密码文本框名称 例如:
<input name='UserPassword'
它的用户文本框名就是 UserPassword
密码名称就是您要登录对方网站的注册用户密码
失败信息: 这里获取地址的最简单方法是,在对方网站登录时随便输入一个错误的用户名和密码,
点登录后,这时一般都会出现一个提示登录不正确的页面,把这个页面提示登录不正确
的字符复制下来填写到这里就可以了(注意复制的字符要求在提示登录不正确页面的唯
一字符,就是没有重复的字符).
->填写好相关参数后,单击“下一步”按钮,进行采集列表项目信息设置。
列表设置
本步骤界面中,将显示基本设置中填写的采集目标新闻列表页的信息,并设置采集的列表的相关代码:
1.网页预览:显示采集目标列表网页预览效果。
2.代码预览:可以设置是否查看列表网页的源码。
3.基本设置:设置详细的列表采集信息。
·列表的开始代码和列表的结束代码:填写上部采集目标源码框中显示的采集列表代码的开始和结束的代码。
!填写的代码必须保证是当前列表页唯一的,可单击右侧的“测试代码”按钮是测试填写的代码是否唯一。 
·链接开始代码和结束代码:填写获得链接的代码。
如果列表分页正确后,就获得的一排列表标题代码。链接代码就要获得标题的URL链接,注意是要获得标题到正文的Url链接。
->使用例举1:
一个新闻标题的代码为“<td class='listbg'><a class='listA' href='/Help/Admin/others/394.html' title='文章标题:如何去掉图片随鼠标而放大或缩小的功能 作 者:壮志 更新时间:2005-5-13 20:04:23' target='_self'>如何去掉图片随鼠标而放大或缩小的功能</a><img src='/images/new.gif' alt='最新文章'></td>”
则链接开始代码和链接结束代码填写的信息为:
链接开始代码“<a class='listA' href='”
链接结束代码“' title='”
->使用例举2:
一个新闻标题的代码为<td valign="top"><a href="/chinese/SPORT-c/859117.htm" class="ty5" target="_blank">汉堡大师赛冷门迭爆 阿加西不敌非种子选手出局</a><span class="ty6">(05/11)</span></td>
则链接开始代码和链接结束代码填写的信息为:
链接开始代码“<a href="”
链接结束代码“" class="ty5" target="_blank">”
这时获得的字符正好为可运行的链接“/Help/Admin/others/394.html”和“/Help/Admin/others/394.html”。在这里,如何获得有效的链接是关键。![]()
·链接特殊处理:填写对链接的特殊处理定义。如果选择“重新定位”选项,则出现“绝对链接字符”内容框。
绝对链接字符:同列表重新定向原理一样,就是当有的栏目页用的是js代码运算,获得的URL而不是地址。但如果运算它并出现最后成功的页面,则可认为是正确的。把正确的URL添在下面以针对js处理的栏目页。
当链接代码是一些非常特殊的JS函数调用代码时,请设置此选项。
例如:列表中的链接代码形如:<a href='#' onclick='opennews(137)'>,对应的opennews(id)函数的代码为:window.open('http://www.xxxx.com/xxx/news.asp?id='+id,'','****')。
则链接开始代码设置为: <a href='#' onclick='opennews(,链接结束代码为:)'>,
此处“重定向URL”设置为:http://www.xxxx.com/xxx/news.asp?id={$ID}({$ID}是系统规定的标签)
->填写好相关参数后,单击“下一步”按钮进行采集正文的相关设置。
4.分页设置: