代理加盟

● 2023全新代理计划，一站式模板建站，铜牌代理低至699元送终身VIP，独立代理后台，自营贴牌。

欢迎来访麦站，优质网站模板提供商！
手机版
微信

登录/注册

您现在的位置：麦站网 > 织梦大学 > 织梦采集 >

阿里云主机、西部数码虚拟主机渠道价

云优原创模板
多城市分站站群系统: 立即查看

Pbootcms模板
免费可商用程序: 立即查看

热门标签

溶剂艺术培训户外装修宠物装备教育培训门窗五金紧固验车 IT招生 spa 更多>>

会员源码
商业源码

相关阅读

扫一扫，有好礼

DeDeCMS织梦后台自带采集器采集教程案例分享

来源：本站原创发布时间：2019-04-13 18:54:45热度： ℃我要评论（0）

麦站模板建站平台（10年经验），服务数万家企业，固定透明报价。域名注册、主机/服务器、网站源码一站式服务。实体公司，专业团队，值得选择！超过1000套模板已登记版权，合规合法建站，规避版权风险！【点击获取方案】

前面几篇文档，我们介绍了织梦自带采集器使用教程，但是不是每个用户都可以用都好，总之采集这个东西要实站积累经验才行，因为目标站代码不同，只有碰到不同的问题积累起来才能上手操作。

第一步、我们打开织梦后台点击采集——采集节点管理——增加新节点

第二步、新增节点-配置网址索引

填写要采集的网站的列表相关规则，

查看采集站点的编码和网站源码

我们右键单击，点击查看源码，在源码的开头位置，找到一个写有charset=某一编码的meta标签，比如charset="gb2312",这个就是所说的网站编码了

选择采集站点的编码

第三步、新增节点-配置文章网址匹配规则

我们查看采集站点的列表页源码，找到文章列表开始html和结束html标签，分别把它们复制到增加采集节点->文章网址匹配规则的"区域开始的HTML"和“区域结束的HTML”输入框中。你不一定选择右键查看源码来找到文章列表开始标签，你可以在文章开始的地方右键单击，审查元素(chrome浏览器,firefox是查看元素)，这样就更方便的找到文章列表开始和结束的标签了。

设置之后我们点击"保存信息并进入下一步设置"

第四步：网址获取规则测试

如果在测试结果发现有无关的网址信息，说明的第五步中的网址过滤规则有误或者没有填写过滤规则。如果发现采集有误，你可以返回上一次修改，没有就点击“保存信息并进入下一步设置”。

第五步：内容字段获取规则

我们查看采集站点的文章源码，找到相关选项的开始和结束html标签，填写入指定位置，开始和结束标签以"[内容]"分格。

设置完毕，我们点击"保存配置并预览"

第六步：过滤规则

在第七步中的匹配规则后面，都有一个过滤规则，这个过滤规则是用来过滤无需采集的内容。

比如，网易每篇文章都有一个放置广告的iframe标签，我们要采集网易的文章，不可能采集回来之后，一篇一篇得去删除这个广告。但是如何去除呢?去除方法就是那个过滤规则，我们点击常用规则，就会弹出一个小窗口，列出了常用的过滤规则，我们只需点击要们要过滤的规则即可，要过滤网易文章中的iframe标签，我们就点击iframe即可。

测试内容字段设置

因为网易有的文章开头是<div id="endText">,有的文章开头是<div id="endText" class="end-text">，所以会出现采集出错的情况。

如果你现在就要采集，你可以点击保存并采集。这里我选择仅保存

采集内容（一）

回到采集节点管理的界面，也就是第一步中的界面，我们选择节点，点击采集

采集内容（二）

查看已下载

可以在采集界面(即第十步中的界面)的右上角，点击“查看已下载”。也可以在“采集节点管理”的界面里点击“查看已下载”。这里以第二个方法为例。

导出内容

选择要导入到的栏目，数据量，是否生成html文件，随机推荐数量

最终结果

转载请注明来源网址：https://www.xiuzhanwang.com/dedecms_cj/1636.html

上一篇：火车头织梦文章图集采集采集+附加自定义字段完整教程

下一篇：阿里云虚拟主机.htaccess设置防盗链代码写法

相关阅读

发表评论

评论列表（条）

网站首页 | 新手指南 | 支付购买 | 售后服务 | 关于我们 | 版权合规 | SiteMap | 网站地图 | TAG聚合

Copyright © 2009-2023 合肥秀站网络科技有限公司官网已申请<计算机软件著作权><美术作品登记>

秀站网络科技有限公司旗下品牌：麦站麦站云麦站米（域名抢注）

皖公网安备 34010402703520号 ICP备案号：皖ICP备12018676号

售前客服
售前客服
立即加盟
免费建站

: 加微信，不迷路

VIP限时特惠