| 网站首页 | 文章中心 | 电子书下载 | 矢量图库 | 视频教程 | 素材下载 | 程序代码下载 | JS代码 | 论坛 | 
常用软件类:
|杀毒安全 |联络聊天 |网络软件 |多媒体类 |系统工具 |图形图像 |系统工具 |应用软件 |行业软件
开发设计类:
|动画制作 |图像处理 |3D设计 |操作系统 |站长学院 |网络相关 |WEB设计 |数据库类 |程序开发
动易采集教程之采集管理
作者:佚名    文章来源:网络    点击数:    更新时间:2007-1-1
 

 

从源代码中获取下一页的URL:
·开始代码或结束代码至少有一个在网页中是唯一的,才能保证可以正确采集到相关内容。因为每个列表页的代码都可能不同,所以需要您分析多个列表页并找到相同的开始代码和结束代码,才能保证可以从所有列表页中准确采集到所需内容。
·列表索引分页:如果列表网页中有象“上一页”、“下一页”这样的分页,则要设置索引分页。
->不作设置。注:当前采集的列表页不分页。
->设置标签。若采集的列表分页中有“下一页”和“上一页”的分页内容,则要获取分页开始与结尾的代码。
>>下页开始和结束标记:填写下一页开始和结束标记代码。
例:“共 82 篇新闻  首页 上一页 下一页 尾页”,这是某列表页的分页链接。
1.首先我们就要得到“下一页”的链接URL。
例:以下是网页中的“下一页”的URL代码“<a href='/news/List/List_2_2.html'>下一页</a>”,那么我们就要得到:下页开始标记“<a href='”,下页结束标记“'>下一页</a>”。
!请注意:开始和结束标记再加上中间采集到的代码,正好是一个完整的网络URL地址,这就是我们要设置的。
2.要正确的得到下一页URL地址关键是/news/List/List_2_2.html(如果是相对路径也不用担心,系统会自动转换为绝对路径),您还要单击右侧“测试”按钮以确认唯一性。
!因为下一页代码少,所以不可能全部唯一,但只要有一处代码为唯一就可以了。
>>索引分页重定向:系统能智能分析网站的相对路径,如果特殊情况分析不对,请按上述步骤使用此功能。一般不会用到,如果采集分页很纵深,并且下一页代码是相对路径。在下一步链接设置分析到的下一页列表的URL和实际不符,应用此功能。在列表设置捕获相对路径,如果是动态页捕获ID。
例:在索引分页中填写实际路径
http://www.xxxxx.com/xxx/xx/xxx/news/{$ID} {$ID}就是列表捕获的相对路径或动态ID。

批量指定分页URL代码 :如果分页的代码都是数字,就可用批量生成自动控制分页。
>>原字符串:例:
http://www.xxxxx.com/news/index_1.html 它的分页都为http://www.xxxxx.com/news/index_2.html,即有数字规律,则可在原字符串中这样填写:
“http://www.xxxxx.com/news/index_{$ID}.html”
其中{$ID}代表分页数。
>>生成范围:可写1-10或10-1,意思是采集1到10页或10到1页倒序采集。

手动添加分页URL代码:
如果对方网页分页实在是没有头绪,则可用手工添加方式添加各个分页的URL。
!注:一行一个分页URL地址。事实证明这种效率并不高,为无奈之举,因为无头绪的分页中列表分页也未必是有头绪的。
5.列表缩略图:

·缩略图开始代码和结束代码:填写获得缩略图地址的代码。
适用于截取一些列表页有缩略图的网站。列表缩略图就要获得缩略图的地址。
->使用例举:
一个网站列表缩略图的代码为
以下是引用片段:
<td vAlign=top width=108 rowSpan=2><IMG height=62 src="/Skin/200508/index_001.gif" width=75></td>
则缩略图开始代码和缩略图结束代码填写的信息为:
缩略图开始代码
以下是引用片段:
<IMG height=62 src="
链接结束代码
以下是引用片段:
" width
这时获得的地址正好为缩略图的地址“/Skin/200508/index_001.gif”。
在这里,需要注意的是“缩略图开始代码”的代码设置,不能设置为:“src="”。这里要把您采集的缩略图的代码它们共同代码一起设置上,不然会出现和正文不对应的现象。

 

正文设置

本步骤界面中,将显示所采集正文的信息,并设置标题、正文、时间、作者、来源、关键字等信息:
1.网页预览 :显示采集目标内容页的预览效果。

!上面显示“请选择测试的正文页”下拉选择框,可以选择相应的正文页面作为测试页。
2.代码预览:可以设置是否查看列表网页的源码。

3.基本设置:

·标题开始标记和结束标记:对网页正文的标题进行设置。
->使用例举1:
源码框中显示的标题信息为“<title>如何去掉图片随鼠标而放大或缩小的功能</title>”,则标题开始标记和标题结束标记中填写的信息为:
  标题开始标记“<title>”
  标题结束标记“</title>”
->使用例举2:
源码框中显示的标题信息为“<b><font size='4'><br>这是文章标题</font></b>”,则标题开始标记和标题结束标记中填写的信息为:
  标题开始标记“<b><font size='4'><br>”
  标题结束标记“</font></b>”
这时获得的字符正好为我们想要的标题“如何去掉图片随鼠标而放大或缩小的功能”和“这是文章标题”。
·正文设置操作如上
!在这里,如何获得有效的链接是关键。就会得到我们想要的标题。

4.选项设置:

·更新时间、文章作者、文章来源、文章关键字、文章简介:
这些内容的设置与上述设置方法相同。
->使用例举:
源码框中显示的时间、作者、来源信息为“<td colspan="2" class="Article_tdbgall">作者:<a href='#' title='壮志'>壮志</a> 文章来源:本站原创 点击数:<script language='javascript' src='/Help/GetHits.asp?ArticleID=394'></script> 更新时间:2005-5-13</td>”
则填写的时间、作者、来源信息为:
时间开始标记“> 更新时间:”
时间结束标记“</td>”
作者开始标记“作者:”
作者结束标记“ 文章来源”
来源开始标记“文章来源:”
来源结束标记“点击数:”
·您可以指定作者设置、来源设置和关键字词的自定义文字。
在关键字词设置中,如果想让关键字是正文的标题,关键词操作:
->可选择将标题打散为关键词(默认) 打散的字数可以指定
->也可以指定网页中截取的关键词
如:关键字:|如何|何去|去掉|掉图|图片|片随|随鼠|鼠标|标而|而放|放大|大或|或缩|缩小|小的|的功|功能|能|
·文章简介可指定从获取内容前的多少字符为简介

5.自定义设置:

这里显示您所设置的自定义字段。自定义字段设置请参阅本书自定义字段管理说明。
6.分页设置:

上一页  [1] [2] [3] 下一页


相关文章