• 人民网评:异地医保的步子还需更大一些 2019-07-18
  • 敢想敢拼的邹市明:用奥运精神助推青少年体育事业发展 2019-07-13
  • 改革开放40年——从全国糖酒会看酒业跌宕起伏酒业 中国 2019-07-13
  • 这三个史无前例,让美国有点懵了 2019-07-11
  • 文创大咖齐聚成都 共话“一带一路”文化交流 2019-07-06
  • 农历五月初二 唐代高僧雪峰义存禅师圆寂纪念日 2019-07-06
  • 山西与腾讯公司签署战略合作协议 2019-07-04
  • 山西:“四好农村路” 致富添门路 2019-07-02
  • 【专题】社会主义核心价值观主题微电影优秀作品展示 2019-07-02
  • 《钟馗捉妖记》杨旭文为魔族惨烈“献身” 2019-06-10
  • 个税法迎第七次大修 起征点由每月3500元提高至5000元 2019-06-10
  • 摄影师捕捉超强EF3龙卷风 巨大云团画面惊险壮观 2019-05-26
  • 农民夜校成十九大精神宣讲重要课堂 2019-05-25
  • 拆迁款分配引冲突 儿子推倒八旬老父致其死亡 2019-05-25
  • 2017年邵逸夫奖在港颁奖 5位科学家获此殊荣 2019-05-23
  • 代理加盟 2019全新代理计划 赚钱+省钱双管齐下,独立平台,丰厚利润!

    您现在的位置: 11选5任四包赚不赔40注 > 织梦大学 > 织梦采集 >

    11选5任2神号期期必中:DeDeCMS织梦后台自带采集器采集教程案例分享

    来源:未知 发布时间:2019-04-13热度: ℃我要评论
    前面几篇文档,我们介绍了 织梦自带采集器使用教程 ,但是不是每个用户都可以用都好,总之采集这个东西要实站积累经验才行,因为目标站代码不同,只有碰到不同的问题积累起来才能上手操作。 第一步、我们打开织梦后台点击采集采集节点管理增加新节点 第二步、新增节点-...

    11选5任四包赚不赔40注 www.zo-n.com 织梦模板秀站淘宝店开业,好礼送不停

    前面几篇文档,我们介绍了织梦自带采集器使用教程,但是不是每个用户都可以用都好,总之采集这个东西要实站积累经验才行,因为目标站代码不同,只有碰到不同的问题积累起来才能上手操作。

    第一步、我们打开织梦后台点击采集——采集节点管理——增加新节点

     

    第二步、新增节点-配置网址索引

    填写要采集的网站的列表相关规则,

    查看采集站点的编码和网站源码

    我们右键单击,点击查看源码,在源码的开头位置,找到一个写有charset=某一编码的meta标签,比如charset="gb2312",这个就是所说的网站编码了

     

     

    选择采集站点的编码

     

     

    第三步、新增节点-配置文章网址匹配规则

    我们查看采集站点的列表页源码,找到文章列表开始html和结束html标签,分别把它们复制到增加采集节点->文章网址匹配规则的"区域开始的HTML"和“区域结束的HTML”输入框中。你不一定选择右键查看源码来找到文章列表开始标签,你可以在文章开始的地方右键单击,审查元素(chrome浏览器,firefox是查看元素),这样就更方便的找到文章列表开始和结束的标签了。

    设置之后我们点击"保存信息并进入下一步设置"

     

     

    第四步:网址获取规则测试

    如果在测试结果发现有无关的网址信息,说明的第五步中的网址过滤规则有误或者没有填写过滤规则。如果发现采集有误,你可以返回上一次修改,没有就点击“保存信息并进入下一步设置”。

     

    第五步:内容字段获取规则

    我们查看采集站点的文章源码,找到相关选项的开始和结束html标签,填写入指定位置,开始和结束标签以"[内容]"分格。

    设置完毕,我们点击"保存配置并预览"

     

    第六步:过滤规则

    在第七步中的匹配规则后面,都 有一个过滤规则,这个过滤规则是用来过滤无需采集的内容。

    比如,网易每篇文章都有一个放置广告的iframe标签,我们要采集网易的文章,不可能采集回来之后,一篇一篇得去删除这个广告。但是如何去除呢?去除方法就是那个过滤规则,我们点击常用规则,就会弹出一个小窗口,列出了常用的过滤规则,我们只需点击要们要过滤的规则即可,要过滤网易文章中的iframe标签,我们就点击iframe即可。

    测试内容字段设置

    因为网易有的文章开头是<div id="endText">,有的文章开头是<div id="endText" class="end-text">,所以会出现采集出错的情况。

    如果你现在就要采集,你可以点击保存并采集。这里我选择仅保存

    采集内容(一)

    回到采集节点管理的界面,也就是第一步中的界面,我们选择节点,点击采集

     

    采集内容(二)

     

     

    查看已下载

    可以在采集界面(即第十步中的界面)的右上角,点击“查看已下载”。也可以在“采集节点管理”的界面里点击“查看已下载”。这里以第二个方法为例。

    导出内容

    选择要导入到的栏目,数据量,是否生成html文件 ,随机推荐数量

    最终结果

     

    本文地址://www.zo-n.com/dedecms_cj/1636.html

      发表评论

      评论列表(条)

      • 人民网评:异地医保的步子还需更大一些 2019-07-18
      • 敢想敢拼的邹市明:用奥运精神助推青少年体育事业发展 2019-07-13
      • 改革开放40年——从全国糖酒会看酒业跌宕起伏酒业 中国 2019-07-13
      • 这三个史无前例,让美国有点懵了 2019-07-11
      • 文创大咖齐聚成都 共话“一带一路”文化交流 2019-07-06
      • 农历五月初二 唐代高僧雪峰义存禅师圆寂纪念日 2019-07-06
      • 山西与腾讯公司签署战略合作协议 2019-07-04
      • 山西:“四好农村路” 致富添门路 2019-07-02
      • 【专题】社会主义核心价值观主题微电影优秀作品展示 2019-07-02
      • 《钟馗捉妖记》杨旭文为魔族惨烈“献身” 2019-06-10
      • 个税法迎第七次大修 起征点由每月3500元提高至5000元 2019-06-10
      • 摄影师捕捉超强EF3龙卷风 巨大云团画面惊险壮观 2019-05-26
      • 农民夜校成十九大精神宣讲重要课堂 2019-05-25
      • 拆迁款分配引冲突 儿子推倒八旬老父致其死亡 2019-05-25
      • 2017年邵逸夫奖在港颁奖 5位科学家获此殊荣 2019-05-23
      • 云南快乐十分一定牛走势图 黑龙江时时彩开奖结果2 北京pk10如何单吊 上海天天彩选4开奖号 1more一波中特 体彩网排列三开机号 能换真钱的棋牌游戏 彩经网黑龙江时时彩 皇冠网搜狐彩票 雪缘园足彩胜负彩比分直播 永久固定公式规律出肖 广东省福彩票中心地址 三张牌游戏叫什么名字 金乡福利彩票销售中心 广东彩票兑奖时间