| 网站首页 | 文章中心 | 电子书下载 | 矢量图库 | 视频教程 | 素材下载 | 程序代码下载 | JS代码 | 论坛 | 
常用软件类:
|杀毒安全 |联络聊天 |网络软件 |多媒体类 |系统工具 |图形图像 |系统工具 |应用软件 |行业软件
开发设计类:
|动画制作 |图像处理 |3D设计 |操作系统 |站长学院 |网络相关 |WEB设计 |数据库类 |程序开发
动易采集教程之采集管理
作者:佚名    文章来源:网络    点击数:    更新时间:2007-1-1
 

 

·正文分页设置:在设置正文分页时通常所在页面没有分页,那么这样选择显示视图网页的上部有个下拉菜单,记录的当前列表分页的所有标题,在其中选择有正文分页的正文页。
·当正文里出现有分页的时候,就要用到这个设置,先看下这篇文章的分页情况:

下面是代码里的“下一页”代码段部分

这样我们就可以截取代码了,如图示:

对于这个分页设置里的第三个选项:设置分页标签----这里的设置是选取区域段的全部的分页代码,如上面的图中的 “1”<----->“10” 区域,我们再看下此正文页的这段区域代码:

那么我们截取的代码就如下图所示:

设置好了,点“下一步”,我们会看到正确打开的页面里对分页地址正确获取得到了

->填写好相关参数后,单击“下一步”按钮进行采样测试。

采样测试

本步骤界面中,将测试显示采集的效果是否正常。如果有分页请注意下面的小红色文字的提示。

->采集所有测试页为内联页显示方便用户浏览和防变形,增加采集错误反馈机制,单击“下一步”按钮对采集的文章进行进行属性设置。


属性设置

本步骤为采集的最后一步,设置所采集文章在本网站中详细的属性,如所属栏目、专题、阅读点数、文章属性等信息,并可设置过滤选项、采集数量和采集属性。

1.基本设置:

·文章频道:就是要指定您现在要采集的文章是属于那一个文章频道中。
·栏目/专题:指定您现在要采集的文章是属于哪一个栏目和专题。
·文章状态:是确定您正要采集的文章的状态,包括草稿、待审核、终审通过。
·立即生成:如果您把这个勾选上,在采集完成后就把您所要采集的文章生成html。

2.属性设置:

·内容页分页方式:推荐选择手动分页,以对方正文分页为基础。注:如果选择自动分页,分页的字符数绝不能为0,否则在生成html时会出现问题。
其他具体设置可以参阅添加文章相应部分内容。

3.收费设置:

请参阅添加文章的相关收费部分。
4. 采集设置:

参数说明:
·过滤选项:过滤采集正文页中的HTML字符。
Iframe:过滤内联。
Object:过滤Falsh和控件。
Script:过滤js、vbs等脚本。
Class:过滤类。
Div:过滤层。
Span:过滤。
Table、Tr、Td:过滤表格属性。
Img:过滤图片。注意如果选择过滤图片采集过来的数据中将不会有图片
Font:过滤字体定义。
A:过滤链接,可防止用户点击链接为其它网址。
HTML:过滤。注意如果选择过滤HTML采集过来的数据将以纯文本形式显现
·采集数量:系统提供了三个选项
 ->采集列表中的所有文章
 ->采集列表中的N篇文章后停止采集
 ->采集列表中的N个分页后停止采集
·采集图片设置:
->保存远程图片
->自动给图片增加水印
->自动为第一张图片创建缩略图
->将文章内容中的Flash和图片的地址保存到根目录中的CollectionFilePath.txt文件中,以方便网际快车等软件批量下载
·文章采集顺序:正序采集或者倒序采集。而系统推荐用的就是倒序采集。
!如果您要启用立即发布,发布后要记得生成相应的JS文件。
->填写好相关参数后,单击“完成”按钮,出现成功信息,完成本采集项目设置。

 

采集信息操作

在添加好采集项目后,下面就可以开始进行信息采集的操作了操作的步骤非常管理,您可以在点击之间完成大量数据的录入。

 

1.单击后台左侧管理导航的“采集管理”->“文章采集”,出现“采集系统项目管理”界面:

2.在选择相应项目后,单击您要选择的采集方式按钮开始采集信息。
!在采集前,您可以先勾选“不录入数据库,只测试采集功能是否正常”,以测试建立的采集项目采集信息是否有效。
3.系统出现信息采集过程界面:
在这个界面中,顶部显示了信息采集的运行过程与统计信息,单击“停止采集”按钮可终止本次采集过程。
每一个采集的页面都显示了标题、作者、来源、关键字、页面地址和其它分页、图片等信息:

系统信息采集完成后,出现成功采集的提示信息:

系统自动返回“采集系统项目管理”界面,并在当前采集项目的“上次采集”列显示红色的最新采集日期。
4.在信息采集完成后,您可以进入相应的文章功能频道,查看采集的信息。如果您在采集项目的“属性设置”中没有勾选“通过审核”,您要审核后采集的信息才能显示在前台。

上一页  [1] [2] [3] 


  • 上一篇文章:

  • 下一篇文章:
  • 相关文章
    文章列表标签GetArticleList自定义CSS控制参数说明
    让动易在Win2003下正常运行
    如何打开动易所在目录的读写权限
    ACCESS数据库防下载方法
    动易2006版在SQL2005下的安装方法
    安装了动易组件出现组件加载失败问题
    动易系统简介和iis设置