【采集器】是对其他站点的内容信息的采集,在这里功能目前只是实现对标题和内容的简单采集功能。 ## **流程** 1. 添加节点 2. 测试采集 3. 采集网址 4. 采集内容 5. 导入栏目 ***** ## **添加节点** 添加节点是为要被采集的信息做的准备工作,主要填写的是: 1. 被采集列表网页的URL。 2. 被采集页面的编码在源代码中的 head 标签中可以看到。 3. 在【获取网址】中填写获取内容列表的起始代码和结束代码,**这代码在源代码中是要有唯一性,不能有相同的存在** 4. 在【内容规则】中对标题、时间和内容做与第3步一样的开始和结束代码的匹配。 ![](https://img.kancloud.cn/aa/05/aa05c7d062b339fe4406362185ae9553_1088x863.png) ***** ## **测试采集** 测试采集是对【节点】编辑完后的简单测验是否能获取正确信息数据,对代码的匹配的一种验证。 ***** ## **采集网址** 采集网址是采集列表(包括其他页码中的列表)中所有内容页的地址,并对已经录入过的内容页的网址做唯一性的过滤检测。 ***** ## **采集内容** 采集内容是对所有已入库的内容页网址,做已采集内容与未采集内容的网址做区分,并对未采集的网址进行内容的采集和入库的工作。 ****** ## **导入栏目** 将已经采集到内容导入到指定的栏目中。