| 网站首页 | 文章中心 | 电子书下载 | 矢量图库 | 视频教程 | 素材下载 | 程序代码下载 | JS代码 | 论坛 | 
常用软件类:
|杀毒安全 |联络聊天 |网络软件 |多媒体类 |系统工具 |图形图像 |系统工具 |应用软件 |行业软件
开发设计类:
|动画制作 |图像处理 |3D设计 |操作系统 |站长学院 |网络相关 |WEB设计 |数据库类 |程序开发
ASP技术网站静态页面生成及网站数据采集的攻防
作者:佚名    文章来源:网络    点击数:    更新时间:2006-12-19
 


  二、页面代码规则防采集对策
  如果说我们的内容页面无代码规则,那么别人就无法从你的代码中提取他们所需要的一条条内容。
  所以我们要的这一步做到防采集,就要使代码无规则。
  实现方法:
  使对方需要提取的标记随机化
  1、定制多个网页模板,每个网页模板里的重要HTML标记不同,呈现页面内容时,随机选取网页模板,有的页面用CSS+DIV布局,有的页面用 table布局,此方法是麻烦了点,一个内容页面,要多做几个模板页面,不过防采集本身就是一件很烦琐的事情,多做一个模板,能起到防采集的作用,对很多人来说,都是值得的。
  2、如果嫌上面的方法太麻烦,把网页里的重要HTML标记随机化,也可以。
  做的网页模板越多,html代码越是随机化,对方分析起内容代码时,就越麻烦,对方针对你的网站专门写采集策略时,难度就更大,在这个时候,绝大部分人,都会知难而退,因为这此人就是因为懒,才会采集别人网站数据嘛~~~再说一下,目前大部分人都是拿别人开发的采集程序去采集数据,自己开发采集程序去采集数据的人毕竟是少数。
  还有些简单的思路提供给大家:
  1、把对数据采集者重要,而对搜索引擎不重要的内容用客户端脚本显示
  2、把一页数据,分为N个页面显示,也是加大采集难度的方法
  3、用更深层的连接,因为目前大部分采集程序只能采集到网站内容的前3层,如果内容所在的连接层更深,也可以避免被采集。不过这样可能会给客户造成浏览上的不便。
  如:
  大多网站都是 首页----内容索引分页----内容页
  如果改成:
  首页----内容索引分页----内容页入口----内容页
  注:内容页入口最好能加上自动转入内容页的代码
  其实,只要做好防采集的第一步(加密分页文件名规则),防采集的效果就已经不错了,还是建议两条反采集方法同时使用,给采集者增加采集难度,使得他们知难页退。
  至此,全文完,欢迎大家在此讨论与此相关技术,谢谢!

上一页  [1] [2] [3] [4] 


相关文章