/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
善肯网页TXT采集器是一款非常好用的网页文字采集工具,也可以叫做小说采集工具,有了善肯网页TXT采集器可以帮你一键进行小说的下载工作,将喜爱的小说下载到本地慢慢看。
善肯网页TXT采集器是一款非常好用的网页文字提取器,可以帮助你一键提取网页中的所有文字,同时还拥有专业的正则表达式筛选,可以去除掉网站中不必要的内容,并且软件还支持各大网站的网页小说采集,非常的好用,欢迎有需求的用户前来下载使用。
1、规则设置:
①在规则设置窗口,在网站中随便找一篇文,不写任何规则,先点击实时预览,看看能不能获取网页源代码,能获取则再写规则,不能获取就没必要继续了。
②规则设置使用的是正则表达式匹配内容,有一定基础最好,没基础也可以参考给的范例,简单学习下,不需要深入学习正则。
③规则设置的时候,目录页和内容页需要分开预览,也就需要两个链接,一个目录页链接、一个内容页链接。
④关于替换,有通用替换和定制替换,这里目前不需要正则,普通替换就好,需要注意的是必须要输入值,空格也行。删除:选中整行,再按住delete键就行。内置\n再作为替换数据的时候代表换行。
⑤编码,目前只设置有GBK和UFT-8,差不多大多数网站就是这两种编码其中之一。
2、解析与下载
①解析请按解析地址2按钮,1按钮目前任性不想删,后面要开发其他功能,
②支持单章节下载和全文下载。
③支持添加章节数【有的小说没有章节数的时候就可以勾上】
④支持在线看,但是需要联网,此功能只是辅助,并非专业的看小说软件。
⑤下载进度和总需时间显示,内置多线程。
其实只要.exe就行,规则全是自己添加,commonrule.xml里面是通用替换规则。网站规则在rule文件夹下。我这边在里面放了两个网站的规则,主要是测试的时候是用的。其他网站规则,大家可以自己添加,或者支持开发者也行。
修复第一章不能点击的bug。
新增功能使之提取网页链接的方式更加灵活。
数据采集软件有哪些?数据采集软件顾名思义是一款可以帮助用户快速将想要的相关数据快速搜集整理的辅助工具。各行各业都需要进行数据的采集,淘宝需要采集买家的数据信息,互联网也需要才采集用户的信息,现在是大数