初学 Node.js,写了一个 18 禁小爬虫

2015-10-31 14:19:31 +08:00
 raawaa

项目地址: https://coding.net/u/raawaa/p/jav-scrapy/git

jav-scrapy

jav-scrapy ,一个爬取 AV 磁力链接的小爬虫。

Prequisites

Installation

$ git clone https://git.coding.net/raawaa/jav-scrapy.git
$ cd jav-scrapy
$ npm install # 安装 npm 包依赖
$ npm link # 使 jav-scrapy 全局可执行

Usage

Usage: jav [options]

  Options:

    -h, --help            output usage information
    -V, --version         output the version number
    -p, --parallel <num>  设置抓取并发连接数,默认值: 2
    -t, --timeout <num>   自定义连接超时时间(毫秒)。默认值: 10000
    -l,  --limit <num>    设置抓取影片的数量上限, 0 为抓取全部影片。默认值: 0
    -o, --output <path>   设置磁链抓取结果的保存位置,默认为当前用户的主目录下的 magnets.txt 文件

Todo

26513 次点击
所在节点    Node.js
101 条回复
iShao
2015-10-31 14:21:49 +08:00
从来只看自己喜欢的演员的作品…已经收藏全了
raawaa
2015-10-31 14:25:04 +08:00
@iShao 最近孩子刚出身,没时间逛黄网,无奈只能自己写了个这个。
cxbig
2015-10-31 14:26:02 +08:00
恭喜 LZ 找到学习的原动力
raawaa
2015-10-31 14:26:49 +08:00
@cxbig 我这样不会被抓起来吧
cxbig
2015-10-31 14:29:03 +08:00
@raawaa 1024 到处都是,不差你一个。
leavic
2015-10-31 14:30:52 +08:00
其实我前两天写了个 scrapy 爬虫,把 javbus 上的所有 AV 信息都抓完了,一共 8 万多部。
scream7
2015-10-31 14:31:35 +08:00
看不懂的样子
raawaa
2015-10-31 14:32:24 +08:00
@leavic 昨天 javbus 网站好像改版了,影片少了很多,我昨天晚上抓了一下全站,只有 3000 多部了……
Chappako
2015-10-31 14:39:25 +08:00
不知道这样或者分享番号,算不算违法
Andy1999
2015-10-31 14:43:54 +08:00
高端技术传播淫秽资料罪加一等
leavic
2015-10-31 14:48:04 +08:00
@raawaa 你从 page/1 这样开始抓的话,最终只能抓到不到 50 页,这是 wordpress 分页插件造成的,我是从演员表那里开始抓的,女优数都有 3 万多。
exoticknight
2015-10-31 14:48:47 +08:00
代码写的不错……下载来
学代码
学代码
学代码
Hipponensis
2015-10-31 14:51:24 +08:00
参考一下,我去写个 Scrapy 抓。
DennyDai
2015-10-31 14:52:46 +08:00
嗯我只看第十九行代码就够了
raawaa
2015-10-31 14:55:42 +08:00
@leavic 我昨晚抓到第 103 页的时候出现了 404 错误。用浏览器浏览,末页也是到 102 页。在昨天以前我浏览这个站可不是这样的。
leavic
2015-10-31 15:07:07 +08:00
@raawaa 那他现在还放大了页面数了,我最开始抓的时候只有 48 页,抓完后我就觉得数据不对,调到 48 也一看是两个月前的数据,这网站都这么久了。
其实我觉得 javbus 也是抓的 dmm ,然后让网友自己提交磁链形成的,否则我抓取来的 8 万多条数据,这要人工编辑得花多大功夫, 3 万多个女优的名字能全知道的就不可能是人类。
agate
2015-10-31 15:09:59 +08:00
@leavic 要不要这么饥渴啊 lol 人家爬虫很累的好不好
raawaa
2015-10-31 15:10:11 +08:00
@leavic 多谢,我又有继续改写到动力了……
xwartz
2015-10-31 15:12:17 +08:00
Kuro
2015-10-31 15:14:09 +08:00
能否抓取有 HD 种子的片子,前几天想实现发现因为 javmoo 反爬虫就搁置了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/232510

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX