|
本帖最后由 源码技术 于 2024-12-3 12:30 编辑
20.织梦教程采集设置
hello,大家好,今天我来给大家讲解一下织梦网站的采集管理。我们点击后台,点击采集、点击采集节点管理。
然后这个界面的话就是可以添加新节点,然后去采集目标节点的文章或者图片。我们点击添加新节点,然后这里的选择模型的话,就是可以选择采集普通文章或者说采集图片集。
我今天以普通文章为例,为大家讲解一下,点击普通文章,点击确定。然后这个节点基本信息的话,就是可以填入我们的一个114源码。因为今天我们以114ym源码论坛为例,给大家进行一个采集,然后目标页面的一个编码。那我们就来到我们114源码,鼠标右键点击查看页面源代码。然后大家可以看到这里是utf8。
然后这里的目标页面编码的话,我们就选择一个utf8,
这里的话千万别选错了,选错了的话就会采集不了。
接下来的话就是它的一个匹配网址。匹配网址的话,就是选择我们的一个列表页。我们把上面的网址给它复制一下,然后给它放到这里,然后我们把这个s给它去掉。
然后大家就可以看到它下面这里就是有一个例子,然后就是当我们匹配很多页的时候,那我们就需要输入一个括号星号。我们可以把这个一给它替换掉,下面这里就是星号是从第几页到多少页的一个页码,或者说一个规律的一个数字,然后我这里就写个第四页吧。然后我们可以点击这个测试 ,然后大家就可以看到这里匹配的网址,就是从一到四,然后这就是我们批量生成地址的一个设置。
然后下面这里就是添加文章网址匹配的一个规则,就是我们的这个列表页,
然后我们点击查看,我们的这个common,他的话就是单独的这一个,那我们就需要找到它的父级,它的父级是这一个那我们继续往上面找,我们需要找到最大的这个这个盒子,然后就是这个对不对?就是这个盒子它已经包含了这里面的这个,那我们就把这个I D给它给它复制一下。然后我们鼠标右键点击查看页面源码。
然后我们C T R L加f,然后把我们刚刚复制的一个id给它放到这里。然后大家就可以看到这个就是我们所需要的一个标签,然后我们把这个标签给它复制一下。那我们回到我们的后台
我们就把刚才复制的标签给它放到这个区域开始的H T M L里面,放进去以后,然后大家可以看到它还有一个区域结束标签对吧?然后就是它的一个结束标签,那我们这里就手写一下,然后杠T A B L E。下面这里就是如果链接中包含有图片,我们是不处理,还是采集为缩略图。
然后这个大家根据自己的需求来进行一个选择。然后下面必须包含的一个网址进行一个再筛选。然后我们这里就填写一个H T M L,然后点击保存信息,并进入下一步。
现在大家可以看到网址获取规则测试。然后这里的话就是已经测试到了,它已经采集到了我们的一个网址,以及一个标题下面的还有一个图片。 然后我们点击保存信息并进入下一步设置。
然后这个预览网址的话,这个就是我们的一个详情页。那我们就点击这篇文章的一个详情页。大家可以看到它的一个网址和这里的这个网址是相同的。
然后下面这里就是关键词的一个过滤规则。还有一个摘要的一个过滤规则。然后我们就可以在这里进行一个填写。比如说我要过滤掉哪些,我就可以在这里进行一个过滤,下面这里文章标题。然后文章标题下面的一个匹配规则就是一个title,然后中间是我们的一个内容。
内容的话就是我们的一个标题。所以说后面的一个文章作者,我们也是可以这样写。然后我们只需要把我们内容两边的这个标签给它去掉。然后我们去找到我们文章作者两边的一个标签,我们点击114源码论坛。然后大家可以看到这里,这个就是我们的一个作者,然后我们鼠标右键点击检查。
然后我们就把作者的这个名字给他复制一下。然后我们鼠标右键点击查看页面源代码,然后C T R L加f。然后搜索我们的这个关键词,关键词搜索出来以后,
然后大家现在可以看到我们的作者是包含在这个标签里面的,我们就需要对这个标签进行一个复制。复制以后然后我们就在内容的前面放入它的一个开始标签,然后再把后面的这个结束标签给它复制一下,然后给给它放到内容的后面,然后这就是我们的一个作者,然后这里的这个内容就是我们的一个文章作者,然后我们可以在这里添加一些常用的一个过滤规则。那我把这些都选上吧,然后大家可以根据自己的需求来进行一个填写。
然后下面的文章来源和发布时间的匹配规则以及过滤规则都是和上面的这个文章标题文章作者是相同的,然后大家就可以自行测试,下面的这个文章内容, 回到我们114源码,我们找到我们的一个文章内容,我们文章内容从这里开始,对吧?那我们就鼠标右键点击查看,这个名称给它复制一下,然后回到我们的一个网页源代码页面,
然后现在大家可以看到,我们的下面的这些都是它的一个文章内容,对吧?就是把这个大盒子的这个标签给它复制一下,复制完成以后,我们就把它的匹配规则给它放到这里,,然后再输入一个内容。然后后面的话就是还要输入一个结尾的标签。就是</div>,下面过滤规则的话,大家就根据自己的需求来进行一个填写。
我这里给它全部选上,然后点击确定,当我们把上面的这些内容都设置完成以后,我们点击保存配置并预览。这个预览的话就是我们的一个采集到的一个内容,进入当上面的这些内容设置好当上面的这些当上面的这些内容设置好了以后,我们点击保存配置并预览。
现在大家看到的就是我们预览到的一个文章的一个内容。我们这里的话就是可以点击保存,并开始采集。然后我们这里的话就输入一个间隔时间输入一个3秒。
附加选项这里有三个选项就是,监控采集模式就是当我们的目标网站发布了新文章。新图片以后,它会自动的去进行一个采集,重新下载全部内容,就是全部给它下载一遍。
就是你之前不管采没采集,它都是会重新的进行一个下载,
下载种子网址未下载的内容就是,之前如果我们已经对这篇文章采集过了,现在的话,它就不会对这篇文章进行重新的一个采集。然后这里大家就根据自己的需求来进行一个选择。
然后我们就可以点击采集网页,
当我们采集完成以后,大家可以看到我们下面的这里节点的种子网址。大家可以看到这里就是采集到的标题。我们在这里点击反选,然后点击上面的一个导出数据。
然后我们在这里选择它的一个栏目。
然后下面发布选项,这里的话就是分为普通文档或者说保存为草稿,
然后每次导入,大家可以根据自己的需求来进行一个填写。
附带选项这里的话就是有三个大家就根据自己的需求来进行一个填写。
然后中间的这个我们给它打上勾,然后我们点击确定。大家现在可以看到,就是它正在导入我们的一个数据。
大家可以看到它现在的话就是已经导入完数据了。然后我们点击浏览栏目,大家可以看到我们采集的文章已经发布了
然后我们可以点击这篇文章,点击这篇文章以后,这里就是有一个标题啊,
然后下面的话就是我们的一个文章。这就是我们织梦的一个采集。
织梦基础教程合集:https://www.114ym.com/thread-3549-1-1.html
|
|