有妹子才有动力,先上几张图片压压精,正好也可以让大家先预览一下,我们待会要爬的都是什么样的图。。。
嗯,差不多就是这样的一类风格了,大多数都是loli+白丝+黑丝的一类腿照。怎么说,我现在鸡儿有点梆硬。。。
废话不多说了,直接进入正题,首先我在Gayhub上面看到了这个项目:
https://github.com/jrhu05/jerryWebSpider
一个用Java写的爬虫,可以爬到很多我喜欢的妹子图,然后我兴致冲冲的看了下运行的说明,dalao一句“项目打包及服务器部署运行请自行搜索”省略了太多太多,顿时让我感到有点为难,可能dalao并不觉得这个步骤有多么重要,但是我觉得很有必要,所以我决定就dalao不想说明的这部分水一篇文章。
首先我们安装一个IDEA,下载地址:
https://www.jetbrains.com/idea/download/#section=windows
下载社区版,社区版=乞丐版=免费版,反正我又不是程序员,之前也就只是偶尔学下python的时候用了一下jetbrains的pycharm,感觉jetbrains做的开发工具确实要比其他同类产品好用很多,扯远了:
然后需要安装JDK8,也就是java开发的工具包:
https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
同意软件协议并选择适合你系统版本的:
然后我们把项目下载到本地解压,打开IDEA选择导入:
这个项目用的MAVEN,所以这里选中这个pom.xml点OK就行:
然后弹出这个按如图选择一下:
选中如图所示的项目:
然后添加我们之前安装的JDK8,这里应该是IDEA会自动给你添加上去的:
最后一个界面点击Finish就完成项目的导入了。接着现在看到IDEA的主界面,打开pom.xml,在如图所示的地方加入一段:
<skipTests>true</skipTests>
位置如图:
这样做的目的是为了等下打包的时候跳过TEST,因为我们在本地没有安装MySQL,而打包测试的时候会去尝试连接MySQL,如果MySQL一直连接不上就无法成功打包。偷懒+节约时间吧,我闲的蛋疼还在本地装MySQL。。。
现在我们打开IDEA自带的这个Maven工具:
现在在你的IDEA面板右侧应该可以看到下面这个界面:
先双击clean,然后再双击package,IDEA就会自动帮你把这个项目打成jar包了,如果一切正常,你可以在Run界面看到类似如图的回显:
现在打开你项目根目录下的target目录,如箭头所指的就是我们打出来的jar包:
现在我们将这个jar包和程序需要用到的配置文件application-dev.yml一并使用FlashFXP传到服务器上:
服务器操作系统我这里使用的是CentOS7,所以我们先在服务器上安装一个java环境:
yum -y install java-1.8.0-openjdk*
再安装一个screen:
yum -y install screen
因为程序需要用到MySQL,所以我们现在还需要去安装一个MySQL5.7,注意是5.7,这个.sql文件的语法不兼容5.5。这里我实在是装不动了,偷了个懒用的宝塔面板,如果你还没在服务器上安装,请执行下面的命令安装一下:
yum install -y wget && wget -O install.sh http://download.bt.cn/install/install.sh && sh install.sh
这条命令是安装的宝塔5.9版本,目前官方最新的是6.x,但是我个人觉得6.x很SB,想用的舒服的话还是建议5.9。
面板装完后就还是老样子安装一个LNMP环境,主要这里用到phpmyadmin可以可视化的对数据库进行操作。
先用phpmyadmin新建一个数据库,命名为:my_spider,然后导入项目db目录下的my_spider.sql
回到shell中先把防火墙关了:
systemctl stop firewalld.service
新建一个用来存放妹子图的目录:
mkdir -p /root/leshe
然后编辑程序需要用到的配置文件:
nano application-dev.yml
数据库连接地址:
url: jdbc:mysql://10.1.1.174:3306/my_spider?useUnicode=true&characterEncoding=utf-8&autoReconnect=true
更改为:
url: jdbc:mysql://127.0.0.1:3306/my_spider?useUnicode=true&characterEncoding=utf-8&autoReconnect=true
然后下面这个填写你的数据库root账号和密码:
然后这里我们选择爬Leshe这个站,因为Tuwan这个站作者自己已经爬了而且打包到百度网盘了,我们就不去爬了。所以这里我们把Leshe的图片保存路径修改为之前我们创建的路径:
imageStorePath: /root/leshe
如图所示:
这样配置好了之后保存,然后我们使用screen创建一个持久化的终端:
screen -S spider
现在我们就可以运行爬虫程序了:
java -jar jerry-web-spider-0.0.1-SNAPSHOT.jar
如果一切正常,你将可以看到类似下图的回显:
现在我们使用浏览器,打开如下地址进行入库:
http://你的服务器公网IP:8088/lesheSpider/startSpider
如果正常可以看到类似如图回显:
其实这一步可以省略的吧,因为作者给我们准备的数据库里面的信息就是目前最新的了,除非Leshe这个站又有更新我们才需要进行这一步操作。
现在我们就可以把自己喜欢的妹子图给下载到本地了:
http://你的服务器公网IP:8088/lesheSpider/startDownLoadImageZipPackage
如果程序运行正常,则可以看到类似如图回显:
在我们之前创建的目录内也可以看到图包都下载成功了:
差不多就是这样了。。。如果亲们还是觉得麻烦,我有时间把自己爬好的妹子图做个种子吧,或者我把打包好的.jar发上来,你们只需要安装一个MySQL配置下就能用了。
主要我觉得怕被泛滥了,然后这个站的站长发现了把下载地址给换了就蛋疼了,要知道这些系列的写真都是要花钱的,尤其是那个“森罗财团”真的有点小贵,虽然这个爬虫并没有爬“森罗财团”的功能。。。另外我可以稍微透露下,森罗财团的摄影师是个地地道道的武汉人,大多数妹子也是武汉周边找的,就酱。。。
码,明天实践。
emm, 111.231.221.217:34567/A:请问密码是多少(滑稽…)
233,抱歉现在才看到回复,让你久等了。。。密码是leshe
另外我已经做了种子了,有需要的话可以戳:http://95.216.100.57:2353/index.php?share/file&user=1&sid=bvjwArKE
多谢LaLa,谢谢这篇详细的教程。
LALA 这个能爬exhentai么 能爬ex就真的有大用了
不能。
100多个gb我就说我小鸡怎么下载不动
表示BT下的好慢。准备用大盘鸡离线下载试试了
现在应该很快了才对,很多人在做种。
看来要多准备机箱营养快线才行
营养快线囤货,正在筹备第二期。
森罗财团爬取功能已经追加
不能爬了,我刚开始爬了几个然后就一直失败,然后我看了下他那个页面应该是加了点什么东西,下载的链接只能从他页面点击才能正常下载,其他方式打开的链接会显示404,dalao要是有心情的话可以修一下,反正我已经全部手动下完了233。另外之前没有爬森罗的原因是“萝”和“罗”引发的血案么。。。
网盘密码多少
来个pr社全套
感觉现在问有点晚了。。但是这个种子的网站为什么点不进去啊,显示This site can’t be reached 95.216.100.57 refused to connect. 是网站出了啥问题么
我取消做种了。。你还需要的话我可以传一份到网盘。
才发现恢复了,本来还以为会有邮件提醒的。。。刚发完就在磁力爬虫网站找到了
好像已经失效了 坐等LZ更新 我现在才看到