ygbook采集规则编写教程_网络资料

ygbook采集规则编写教程

xiaoxuancc 网络资料 0条留言 581 次浏览 6年前 (2020-05-11) [编辑]

首先ygbook分为单列表和多栏目匹配方式

单列表：http://www.biquge.com.tw/
多栏目：https://www.snwx8.com/

区别就是多栏目有分页，可显示全部小说。

先以单列表：http://www.biquge.com.tw/ 举例
前面的什么图片本地化  目标网站域名编码都不用多说了，都看得懂。其中单列表监控页面为首页，[cate]对应情况取源站顶部分类要中文的，比如玄幻小说  修真小说到最后恐怖小说依次对应本站如果分类出入太大的可自行在后台建分类再对应，最大页码为 1.
规则列表页码这个很好理解比如 1|1|200 的意思就是从第一页开始到 200 页，每次增加 1 页。
无缩略图标志一般为 nocover，如果不是你看下源站是什么自行改即可。
列表页：链接 CSS 选择器和列表页：标题 CSS 选择器这个怎么选我们打开首页看到最近更新列表先取大区域：#newscontent 再取一个区域 .l 区别于下方最新入库的的.r  最后我们再取我们真正要的区域.s2 a 结束组合就是#newscontent .l .s2 a，很多人喜欢这个样子写就跟提示差不多 #newscontent li a 有些站是可以的，但是要分清楚。
文章页的各个选项，如果是有 360 结构化的站那么以下是通用的，标题 CSS 选择器：meta[property=og:novel:book_name]|content  作者 CSS 选择器  meta[property=og:novel:author]|content  缩略图 CSS 选择器  meta[property=og:image]|content 内容 CSS 选择器一般为#intro 因为源站简介源码一般为<div id=”intro”>，如果不是自行修改 intro 即可，完结标志不用多说了。
章节目录页：区域 CSS 选择器一般为：#list  自行查看源码就知道了  章节目录页：采集规则也看源码如 biquge.com.tw 为<dd><a href=”/19_19161/8850765.html”>第 1 章工匠大师系统</a></dd>，那么写成<dd><a href=”[link]”>[title]</a></dd>即可。
如果有这样子的：<span class=”swbt”><a  title=”字数：3155  更新时间：2017-11-06 08:26:14″>第九章第二次交手</a></span>  你写成<span class=”swbt”><a href=”[link]”[string]>[title]</a></span>，把不要的用[string]代替掉即可。
最后章节内容页：内容 CSS 选择器一般为#content 为什么上面也提到过自行查看源码就明白了。

通用替换 {filter replace=’hostloc’}笔趣阁{/filter} 如果不替换只删除的话删除 hostloc 即可。

这就完了然后测试修正即可。

多栏目以：https://www.snwx8.com/ 为例这就不解释那么多了，累。。。
规则列表页面为：https://www.snwx8.com/[cate]/
.html
[cate]对应情况以网址为准如：sort1 sort2 sort3 对应玄幻修真都市页码自己填
列表页：链接 CSS 选择器列表页：标题 CSS 选择器为#newscontent .l .s2 a
此站没有 360 结构化所以文章页：标题 CSS 选择器为 h1 一般都是这个
文章页：作者 CSS 选择器为.infotitle i 并在文章页：源码预过滤规则填入{filter replace=”}作者：{/filter}，多栏目无需写分类。
文章页：内容 CSS 选择器为 .intro 这有个问题我没解决 .intro 虽然可获取但是获取的值太多后面的值是不想要的提示也说了可用|分割过滤但没搞懂。
文章页：缩略图 CSS 选择器为#fmimg img|src fmimg 为值 img|src 为图片
后面就不讲了，和上面差不多

最后如果你有很多采集规则的话我不清楚批量采集会不会重复，但是按 ID 采集肯定会重复。

其实网上的小说站基本都是杰奇网址都是按 ID 的，作者完全可以优化为编写好采集规则后填入最小 ID-最大 ID 系统自动生成链接然后后台慢慢采集即可。然后还有就是去重问题，建议作者增加对比小说名和作者来进行去重，如果相同则不增加小说但增加节点等。。。

设置Tag是个好习惯

评论列表

发表评论:

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。

你好，朋友

点击下方注册一个账号写点什么吧完全免费！

控制面板

您好，欢迎到访网站！
游客注册

站点信息

文章总数:86
页面总数:1
分类总数:62
标签总数:0
评论总数:5
浏览总数:61772

网络笔记