|
这个网站中的东西,我在生活常识网经常采集,呵呵。今天把采集规则放出来,只写了一个“职场礼仪”--“玩味职场”的动易采集规则,需要采集其他栏目的请自己修改地址,他站里的结构基本是一致的。
项目名称:点击南开采集玩味职场 网站名称:欧迪办公 网页编码:GB2312 列表页URL:http://etiquette.asiaec.com/zhichang/wanwei/index17.html
列表开始代码:<td width="477" height="20">· 列表结束代码:</table><TABLE style="MARGIN-BOTTOM: 10px" cellSpacing=0 cellPadding=0 width=600 链接开始代码:<A HREF= 链接结束代码: target=_blank> 分页设置选择“手动添加分页URL代码” URL列表: http://etiquette.asiaec.com/zhichang/wanwei/index17.html http://etiquette.asiaec.com/zhichang/wanwei/index16.html http://etiquette.asiaec.com/zhichang/wanwei/index15.html http://etiquette.asiaec.com/zhichang/wanwei/index14.html http://etiquette.asiaec.com/zhichang/wanwei/index13.html http://etiquette.asiaec.com/zhichang/wanwei/index12.html http://etiquette.asiaec.com/zhichang/wanwei/index11.html http://etiquette.asiaec.com/zhichang/wanwei/index10.html http://etiquette.asiaec.com/zhichang/wanwei/index9.html http://etiquette.asiaec.com/zhichang/wanwei/index8.html http://etiquette.asiaec.com/zhichang/wanwei/index7.html http://etiquette.asiaec.com/zhichang/wanwei/index6.html http://etiquette.asiaec.com/zhichang/wanwei/index5.html http://etiquette.asiaec.com/zhichang/wanwei/index4.html http://etiquette.asiaec.com/zhichang/wanwei/index3.html http://etiquette.asiaec.com/zhichang/wanwei/index2.html http://etiquette.asiaec.com/zhichang/wanwei/index1.html http://etiquette.asiaec.com/zhichang/wanwei/index.html
标题开始代码:<h4> 标题结束代码:</h4> 正文开始代码:article_content> 正文结束代码:来源 过滤选项:选定以下内容过滤 Iframe: 过滤内联页。 Object: 过滤Falsh广告,控件等。 Script: 过滤js、vbs等脚本。 Div: 过滤层。 Span: 过滤行内元素Span容器。 Img: 过滤图片。 A: 过滤链接 (字留下链接去掉)
本规则2007-05-25测试通过,需要的朋友尽快吧,如果那位站长改页面布局就不是我的问题了,呵呵。 切记本规则一定要使用倒序采集哦。文点击南开www.nkcn.net,转载注名出处。 |