V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  menc  ›  全部回复第 41 页 / 共 47 页
回复总数  933
1 ... 33  34  35  36  37  38  39  40  41  42 ... 47  
2015-11-02 22:37:19 +08:00
回复了 est 创建的主题 Python 这么多搞爬虫的,有木有直接解析 HTML 的呀?
@est readable 算法,工业界普遍在用,正文提取算法,就是根据 div 区块大小和视觉区域对正文区域进行筛选和排查,决定有用文本和无用文本,各种语言的实现都有,印象笔记、 pocket 等一干应用都应用了该算法或者该算法的升级版
2015-11-02 22:35:45 +08:00
回复了 est 创建的主题 Python 这么多搞爬虫的,有木有直接解析 HTML 的呀?
@binux 谢谢,之前不知道半结构化对应 keyword 是 semi structured
2015-11-02 22:33:55 +08:00
回复了 est 创建的主题 Python 这么多搞爬虫的,有木有直接解析 HTML 的呀?
@est 我的意思是,你的问题,已经有人完整的做过和应用到 research 中了
2015-11-02 21:40:42 +08:00
回复了 est 创建的主题 Python 这么多搞爬虫的,有木有直接解析 HTML 的呀?
事实上,对网页清洗的过程中,要具体情况具体分析,很多人拿百度百科和 wikipedia 的语料直接保留 inner text 训练是不理智的,很多有用的信息在网页中确实呈现半结构化的规律,比如我上面给出的成龙的例子,稍加注意,可以提取出实体相关的诸多属性,我写到论文中,但是目前没发现哪里还有人写到论文中。。
2015-11-02 21:38:08 +08:00
回复了 est 创建的主题 Python 这么多搞爬虫的,有木有直接解析 HTML 的呀?
@est 当然有,我给你贴一段我的本科毕业论文的一段, NLP 相关的

以百度百科为例,现在的百度百科,已将整个文档进行了处理。在每个词条之前,加入了与该条目相关性最强的同时也是对用户最为有用的一些信息,在相关信息之后,条目正文开始之前,百度百科将整个正文的章节和不同章节的章节标题描述以及各章节的小标题罗列出来。而这些条目相关信息和条目章节信息是由百度百科的用户自行维护,由社区在后面进行审核,换言之,这些条目相关信息和条目索引是可靠性极高的人工标注,其对整理文本语料的作用不言而喻。如果能有效的利用这些信息,其准确率毫无疑问要高于纯使用程序进行主题分类。
以百度百科的“成龙”词条为例,在成龙的词条正文开始之前,百度百科将成龙的一部分常用的个人信息罗列出来,如原名、曾用名、代表作、职业、国际、民族等等,如图 3.1 所示;在词条正文开始之前,百度百科将词条正文的目录章节标题和小标题罗列出来,如图 3.2 所示,这些标题和小标题和章节内容直接相关,而且具有极高的相关度,可以直接作为段落主题使用。
http://i.imgur.com/M1xsdMh.png?1
图 3.1 成龙的个人信息
http://i.imgur.com/aTpmdur.png
图 3.2 成龙的词条正文目录索引
从图片中可以看到,这些信息的页面组成具有其规律性,查看源代码也可以看出,其源代码也具有规律性,如图 3.3 所示,可以对 HTML 源代码进行处理得到其相关信息。通过对维基百科的调查研究,我们可以发现,维基百科也具有同样的性质和特征。
http://i.imgur.com/Hrb6rKh.png?1
图 3.2 成龙的个人信息目录网页源码
事实上,我们可以认为,原本非结构化的百科网站的组织,经过不断优化,现在已经可以认为其具有一定的结构化特征,非结构化文本的粒度由以前普遍认为的篇章,转变成为现在的段落。甚至能直接从百科词条中提取出相关条目最重要的一部分知识。对于采用结构化知识的知识库,在语料处理的时候,能够直接得到一系列人工标注的知识;对于非结构化的知识库,能够以章节标题作为索引,同时拥有该词条相关的无信息噪点的文本内容。
2015-11-02 17:55:09 +08:00
回复了 tonghuashuai 创建的主题 程序员 关于排序算法有没有什么推荐的书
@usapla 请看清楚 LZ 的问题
2015-11-02 14:44:18 +08:00
回复了 stdying 创建的主题 Android px 和 dp 之间转换疑问
四舍五入
2015-11-02 01:18:35 +08:00
回复了 chywj7 创建的主题 Node.js 求推荐一个用 nodejs 写的 restful api 开源工程,用来学习
呵呵呵,读过论文的人就知道 Roy 说的 Rest 和今天实际在用的 Rest 是不一样的,各种条条框框和概念,如果 lss 写过博士论文,就知道读别人的博士论文这件事有多操蛋了。

博士论文有一半的话要说没用的东西,但是没办法,这是必须写的。
https://gist.github.com/PengFoo/51c0428fb67447abaf6a


print find("10")
print find("1111")
print find("1")
print find("11111111000001111101111100000001111")
结果分别为:
[(1, 1), (2, 2)]
[(1, 4)]
[(1, 1)]
[(1, 8), (9, 13), (14, 18), (19, 19), (20, 24), (25, 31), (32, 35)]
2015-11-01 23:04:12 +08:00
回复了 javaliker 创建的主题 iDev 在写一本 Mac 开发的书
@javaliker 出版级的排版话还是用 latex 吧,不出版什么都无所谓了 233
2015-11-01 22:48:45 +08:00
回复了 javaliker 创建的主题 iDev 在写一本 Mac 开发的书
写书就不要用 markdown 了,还是说开源的书籍?
upyun 上次在 V2 上作了把大死,这次还敢来,是真的猛士
2015-10-29 20:27:20 +08:00
回复了 menc 创建的主题 Apple mba, new macbook, rmbp 应该选哪个,用过的来说一说
@stanhou 那 rmbp 选低配还是高配呢
2015-10-26 16:24:52 +08:00
回复了 ibcker 创建的主题 程序员 有什么技巧可以假装不是程序员?
@hardware 那就做个统计吧,看看 V2 多少人还是格子衬衫牛仔裤双肩包加运动鞋的装束:-)
@puras 没有问题, Edge 还是 满格信号
@puras 我也刚升了,我现在看看。。。
2015-10-25 19:06:28 +08:00
回复了 ibcker 创建的主题 程序员 有什么技巧可以假装不是程序员?
很简单,可关键是,敢么
1.扔掉运动鞋,穿 Timberland , cats 和红翼,穿 vans 经典款或者穿好看的皮鞋
2.扔掉冲锋衣和格子衬衫,穿小西装,配纯色衬衫,嫌麻烦上班不穿这些也搭配下颜色,衣柜里面有点不同的帽子,围巾,手表,手链 /手环,腰带,可以穿出不一样的感觉的配饰,别有啥穿啥,啥干净穿啥
3.买瓶 ck one 或者 古龙香水 出门喷在耳后和手腕,没事往衣柜喷一喷
4.把瑞士军刀双肩包换成能装下电脑的疯马皮单肩包,换成有设计感的帆布包
5.一周三天健身房,练出一身好看的肌肉
6.没事学学烘焙和烹饪,就是没有女朋友也当成有丈母娘要讨好
7.去高档点的造型店花几百块做次造型,问问人家脸型怎么配发型,留什么样的胡子
8.除了代码有点爱好,吉他也好口琴也好哪怕是竖笛
9.去 coursera 听听艺术史什么的课,不要求会画画,至少能欣赏美,知道啥样是美的
10.多跟人交流,不要一天到晚除了 memcached 就是 mvvm 要么就是万众创新这种太正式的东西,聊些生活话题
11.自信一点,头抬起来,学会自信地笑不是腼腆的笑,敢在女孩子面前说话和说笑话,懂得说多大尺度的小荤段子不会让人家厌烦还能拉近距离

道理都懂,就是不敢做
我的 6s 就没有满格过 4G ,还特么在北京市中心。。移动 4G ,宿舍两格怎么过?
2015-10-25 18:55:01 +08:00
回复了 arnofeng 创建的主题 分享发现 无障碍获取适用大学生的 visa 双币信用卡
再说说这个薪资吧,我跟人家地推的聊了,他们不肯说具体的数,但是三位数每单是有了的,他们很开心的说这两天到手能上万,我当时也很开心,双赢的事情,结果最后演变成这样子,发卡下来的时候,那两天,一栋楼聊天话题都是骂浦发,电梯里认识的不认识的聊起浦发就是骂
2015-10-25 18:50:26 +08:00
回复了 arnofeng 创建的主题 分享发现 无障碍获取适用大学生的 visa 双币信用卡
@Bismarrck

看看人家办的中行,一样的额度,说到做到,你浦发呢?

你为了赚点闲钱,来这里做广告,你可能不知道内幕也可能知道,不怪你,但我有义务让各位知道浦发的嘴脸,太恶心,到手卡掰断了转中行
1 ... 33  34  35  36  37  38  39  40  41  42 ... 47  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2888 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 33ms · UTC 00:25 · PVG 08:25 · LAX 17:25 · JFK 20:25
Developed with CodeLauncher
♥ Do have faith in what you're doing.