V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  zictos  ›  全部回复第 127 页 / 共 128 页
回复总数  2549
1 ... 119  120  121  122  123  124  125  126  127  128  
2020-04-26 14:32:27 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@abcbuzhiming 之前还有人在网上代买火车票被判刑,跟携程的模式差不多,凭什么携程就没事。
2020-04-26 14:30:57 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@abcbuzhiming 凭什么普通人就要被抓?
2020-04-26 14:30:11 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@abcbuzhiming 那很多大公司不也爬吗?天眼查爬取数据公开贩卖
2020-04-26 14:13:52 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@iConnect 反正法院的判决理由中有这么一条,所以风险是存在的。严格按法律来说肯定不算,只是你如果得罪了某些大公司就难说了。大公司有时候往往能力通天,参考鸿茅药酒案和华为事件和 pandownload 事件
2020-04-26 14:10:55 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@murmur 是的,各种各样的理由都有可能。人人自危,什么都不敢做
2020-04-26 14:08:38 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
@taizhenhua1987 头条现在的数据应该大部分都是用户生成的吧。当然即便头条是爬的,你能让他被抓吗?只有大公司能叫人抓普通人,哪个普通人能叫人抓大公司的人的?特别是像这种法律界定不清的事情,大公司往往是比较安全的,大公司真的侵犯了别的权益,其他公司也往往最多只敢提起“民事诉讼”,怎么可能直接叫人抓人?
2020-04-26 02:09:58 +08:00
回复了 suanbing 创建的主题 程序员 爬虫写得好,坐牢坐到老。现在大家还敢干爬虫的活吗?
之前爬取头条的内容被抓的人判的理由中有一条是:
为了破解头条的反爬技术,侯某等人伪造了 UA ( useragent 的缩写,意思就是“用户身份”)来绕过。

意思是伪造 UA 都不行,居然可以用这样的理由让你坐牢,反正随便用什么理由都行。破解验证码或者换 ip 就更危险了。爬虫如果不用点技术那还爬什么,现在各大网站或多或少都会有一点反爬虫的措施。
@Higurashi 刚还是试了一下,发现有报错,具体错误提示可看这篇笔记:

http://note.youdao.com/noteshare?id=b7397b8746fe671545ea1fe327c89ba5
@Higurashi 我用不到,因为我自己本身没这需求。我也不清楚你的需求是什么,按你说的似乎只有自己写笔记的时候#号标得很规则才能有用。既然这样,那还不如手动标。

另外用太多标题作为层级的笔记并不好看,层级太多用项目符号或者缩进更好。你的代码经过我之前的测试发现好像只有#号很规则的情况下才有用,如果随机在某些行加入一些#号,最终标出来的序号是非常乱的。

我之前没事也有试着重新写了一下,我写的代码即便在#号随机标得很乱的情况下添加的序号也还算规则。只是不知道究竟该用什么算法,不知道是相同的#号数量用相同的层级还是用相对的方式增加或减少层级,相对的方式就是说发现#号比上一行多就增加一个层级,比上一行少就减少一个层级。

总之不管用什么方式都无法保证很规则,最终都还是可能标得很乱。我感觉这个程序实在没什么用。除非你能明确自己的需求,确保自己在笔记中的序号一定是规则的,一定是你预先考虑到的情况,不会出现其他特殊情况。

下面是我后来写的代码:
http://note.youdao.com/noteshare?id=3cd18b9191d748c0db3dabb6893da3d1
2020-04-22 18:01:39 +08:00
回复了 foreverfuck 创建的主题 程序员 写个爬虫爬取值得买的商品和文本会被安排进去吗?
@nellace 部分可能是手动发的吧?现在不止官方的人可以发,用户也可以发布优惠商品。反正他们不数据来源不单一,所以就比单一来源的爬虫更能为自己开脱
@Higurashi 刚又试了一下,好像也不是很容易出错。只是复制你上次的帖子中的例子会报错,其他内容很少报错:
TypeError: write() argument must be str, not None

另外如果第一行有 6 个#号,第二行只有 3 个#号。第一行是 1,第二行是 1.1 吗?
@Higurashi 试了感觉好像问题很多,很容易出错。不过这东西我也用不到。随便复制一段文本到文件中,然后随便在某些行的前面加一些#号,运行后肯定会报错。
完全可以做到不报错啊,但是你得说清楚几个#号算大标题,然后子项又怎么确定?就是我之前跟你说的那些。
2020-04-21 11:59:31 +08:00
回复了 waiaan 创建的主题 程序员 大家平时遇到新的功能需求一般是网上复制粘贴还是自己写?
熟悉了自然就自己写了。
网上粘贴的代码很多时候也要修改。
一般自己写不出,或者需要去网上查询并参考下别人的代码的时候,如果刚好有现成的代码并且不需要做过多的改动肯定是复制粘贴的。

总结一下就是:不依赖,但能省事还是尽量让自己轻松点。你修改别人代码的时候也是一个熟悉的过程,而且我会尽量去把别人的代码的每一行都读懂,而不是直接粘贴了就都不管了。
@Higurashi #号突然变少就从 1 变成 2 是吧?比如你刚举的例子中从 5 个#号变成 2 个#号,序号就从 1 变成 2 了。可是如果 1.3.2 后面还有 1.4 呢? 1.3.2 后面如果是 4 个#号就是 1.4 吗?
大标题中 1 是三个#号,怎么 2 又只有两个#号?

我不太懂 Markdown 的习惯,也不一定每个人都一样吧?序号也本身是手动标的,Markdown 不会默认生成。总之我依然无法完全搞清楚你的所有需求。

只要你能够把需求完全说明白,还是很好实现的。只是稍微有点麻烦,我就懒得再写了。我之前写的你稍微参考下吧,大致套路就是那样的。
服了,我怎么知道你什么时候需要 1.2.1 、1.2.2 啊?之前以为是 1.3 、1.4 。所以写的是 1.3 、1.4,你可以参考下,除了 1.2.1 变成了 1.3,1.2.2 变成了 1.4,其他都是一样的:

with open("test.md", "r+" , encoding='utf-8') as f:
text=f.read()
f.seek(0)
a=0
b=0
c=0
for i in text.splitlines():
print(i)
if 0<i.count('#')<3:
a=a+1
space=i.find(' ')
i=list(i)
i.insert(space+1, str(a)+'. ')
i=''.join(i)
f.write(i+'\n')
f.flush()
b=0
c=a


elif i.count('#')>=3:
b=c+b+0.1
b=round(b,1)
space=i.find(' ')
i=list(i)
i.insert(space+1, str(b)+' ')
i=''.join(i)
f.write(i+'\n')
f.flush()
c=0

else:
f.write(i+'\n')
f.flush()
@tt67wq 关键是有时候说得好像不是算法工程师的程序员就一点算法都不懂似的。而我不是运动员,但没有人说我什么运动都不会
@em70 没学好,不喜欢学这门课,所以这门课混过去的
比如 while 循环或者 for 循环,每轮循环后加 1 或者减 1,这种算不算一种套路或者一种算法呢?
@wutiantong 经常说某某 app 的推荐算法,这种不都是 app 自己根据实际需要写的吗?根据用户的特性来推荐一些东西。这种算不算复杂的业务逻辑代码?

还有比如我的程序中间有一个功能,但功能有用到前面的一些变量,变量的内容可能不同,变量不同,我的功能实现的效果就不同。这种是不是就算复杂的业务逻辑代码呢?
1 ... 119  120  121  122  123  124  125  126  127  128  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2445 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 34ms · UTC 13:05 · PVG 21:05 · LAX 06:05 · JFK 09:05
Developed with CodeLauncher
♥ Do have faith in what you're doing.