大四毕设了,已经爬了四百多万条豆瓣书评了,准备做一个 Chrome 插件,不知道取什么名字好

2020-12-01 17:16:11 +08:00
 13936

用 Scrapy 框架爬的,目前可以通过情感分析判断一本书的翻译质量。

方法是筛选一条评论里是否含有“翻译,原著,英文”等词汇,如果有的话,就判断情绪积极程度,然后给书籍的翻译质量打分。目前结果来看是可行的,基本可以有个大致判断。

但是既然爬下来了这么多数据,能做的也不仅仅只是这一点,可以做个词云,相关书籍推荐等功能,将更多隐含的信息可视化。但是总的功能类似,就是从大量数据中挖掘出隐含的对用户有帮助的信息。只是目前不知道取什么名字比较好,这周就要定题目了。V 友们方便帮忙取个名字吗?

还有,本人已经拿到了 Offer,不过不是计算机行业的,编写 Chrome 插件可能还需要再去买服务器,用 Flask 框架写 API 。既然工作重心不在计算机行业上了,也想过只写成一个 Python 程序,在本地输入书籍链接再在本地输出信息。V 友们对于这一想法有什么建议吗?

8315 次点击
所在节点    程序员
56 条回复
lujie2012
2020-12-02 10:12:36 +08:00
good luck ! 豆瓣律师函在路上了。
最怕没有脑子的野路子程序员
wmhx
2020-12-02 10:32:44 +08:00
前几年也爬了 30 多万的 小短文, 后来也爬了近 20 万的图片, 都忘记放到网盘哪个位置了.
13936
2020-12-02 10:39:10 +08:00
@ooxxcc 看了,谢谢你,很有帮助。决定就自己做个本地插件自己用了。这不算侵犯它们的利益吧。非常感谢你。
xingshu1990
2020-12-02 10:57:45 +08:00
讲个事情,原先在其他什么地方看到关于 NLP 的事情,里面提到了部分语句的分词案例:
“导演你给我进来,我保证不打死你”
“我也想过过过儿过过的生活。”
“过几天天天天气不好”
“你也想犯范范范玮琪犯过的错吗”
这个还没涉及到词性

我在想 楼主是怎么解决这些中文特有的语句。
lin
2020-12-02 11:02:20 +08:00
@zqx API 还有吗?
fhsan
2020-12-02 11:02:47 +08:00
@lujie2012 都 2020 年了,国家都知识版权,垄断,个人隐私,立法了,别被抓典型
AlexSLQ
2020-12-02 11:31:29 +08:00
2019 年 8 月 20 日更新

在使用豆瓣网( www.douban.com ,包括电脑端及移动客户端等)之前,请务必仔细阅读本声明,本声明的发布主体为豆瓣网的运营主体,即北京豆网科技有限公司(以下简称“豆瓣”)。

任何直接或间接(包括但不限于通过站外 API 接入等其它形式)使用豆瓣网服务或数据的行为,都将被视作已无条件接受本声明所涉全部内容或服务;若使用人(包括豆瓣网注册用户)对本声明(包括但不限于知识产权、信息和数据、免责声明)的任何条款有异议,请停止使用豆瓣所提供的全部内容和服务。
一、知识产权

1 、豆瓣网注册用户(以下简称“用户”)发布在豆瓣网的原创文章、评论、图片等内容的知识产权均归用户本人所有。

2 、用户通过转载、复制、截图等方式获取他人内容,并发布在豆瓣网的,相关内容的知识产权属于内容的权利人,用户不得侵犯他人知识产权及其他合法权利。因用户发布内容引发知识产权纠纷的,用户须自行承担相应后果,若因此造成豆瓣损失的,豆瓣有权依照法律规定维护合法权益。

3 、豆瓣网展示的豆瓣标识、版面设计、排版方式、文本、图片、图形等受著作权法、商标法、专利法及其它法律保护的部分,未经豆瓣书面同意,不得在任何其他平台发布、使用,或出于发布、使用目的的改编、修改,或用于其他商业及非商业目的。

4 、豆瓣不对用户发布内容的知识产权权属进行保证,并且尊重权利人的知识产权及其他合法权益。若权利人认为豆瓣网用户发布的内容侵犯自身的知识产权及其他合法权益,可依法向豆瓣(联系邮箱: help@douban.com )发出书面通知,并应提供具有证明效力的证据材料。豆瓣在书面审核相关材料后,有权根据《中华人民共和国侵权责任法》《信息网络传播权保护条例》等法律法规及豆瓣《社区指导原则》,在不事先通知相应发布用户的情况下自行删除相关内容,并保留相关数据。

5 、豆瓣根据上述第 4 条删除相关内容的,相应发布用户如存在异议,可依法向豆瓣发出关于被删除内容不侵权的书面说明,并提供具有证明效力的证据材料。豆瓣在书面审核后,将根据实际情况依法进行处理。

6 、豆瓣鼓励原创,并尽最大努力为用户自主创作并发布于豆瓣网的内容提供保护,用户可在发表日记、长评、相册等内容时开启原创内容版权声明。如用户发布于豆瓣网的原创内容遭受来自第三方平台或其用户的侵犯,用户可通过“豆瓣站外侵权投诉通道”(目前仅支持部分平台)进行维权。豆瓣可以在获得用户授权后协助用户进行维权。豆瓣的维权权利不影响用户另行授权第三方进行维权,豆瓣将在收到用户通知后,停止维权权利的行使。
二、信息和数据

1 、除特别说明或者法律另有规定外(包括但不限于我国著作权法、商标法等知识产权法律以及豆瓣网《法律声明》中“知识产权”部分对相关权属的规定),豆瓣网公开的全部信息或数据的其它权益归属于豆瓣。 豆瓣网所公开的全部信息或数据包括但不限于:网站架构、程序设计、程序代码、页面设计、图片、图形、文字、音频、视频以及包括但不限于读书、电影、音乐等条目信息及其对应评分、评论、评分数量、标记记录、话题内容,小组内容等。

2 、除法律另有规定之外,在未取得豆瓣书面许可前,任何第三方不得将豆瓣网的任何公开信息或数据以任何目的进行任何形式的使用,包括但不限于:

(1)商业性使用;

(2)以可能损害豆瓣利益的方式对豆瓣网读书、电影、音乐等条目信息、评分或评论的使用、引用以及展示;

(3)对豆瓣网内容的衍生利用,包括但不限于基于或利用豆瓣网内容而开发的任何插件、软件、应用程序、网站;

(4)第三方以任何形式盗取、拷贝用户账号信息,或采用诱导、要求用户提供账号名称及密码等方式登录用户账号,或对用户主页、ID 信息、账号信息的其它使用;或以上述方式取得用户账号登录信息、ID 信息、主页信息后,以任何手段复制、转载、抓取豆瓣网内容;

(5)侵犯或可能侵犯豆瓣利益的数据采集、网络爬虫或类似的数据收集以及数据摘录等;

(6)在其它网站、应用程序、服务或商品中使用豆瓣的商标、标识或其他豆瓣专有信息(包括图像、文字、数字、网页设计或形式);

(7)其它可能侵犯豆瓣合法权益的行为。

3 、如需使用豆瓣网所公开的信息或数据,请联系豆瓣(邮箱:bd-team@douban.com )并取得相应的授权。对于任何违反上述声明的行为,豆瓣保留追究其法律责任的权利。
hjw45611
2020-12-02 11:37:31 +08:00
多大点事,发个邮件问问豆瓣不就得了
paloalto
2020-12-02 12:06:14 +08:00


他说他是乱爬的,他可不是乱爬的啊。Scrapy,情感分析,数据挖掘,训练有素。后来他说他是用来做毕业设计,啊,看来是有备而来!
tesguest123
2020-12-02 12:10:40 +08:00
@futou 彦语怎么讲,撑死胆大的饿死胆小的
naix1573
2020-12-02 15:24:39 +08:00
不懂就问,拆词做情感分析的这个,例如“不满意”,怎么能避免拆分成“不”+“满意”,像这样的情况不少,之前用了几个的效果都不太好,不知道你是怎么处理的~
LearningToCode
2020-12-02 16:11:48 +08:00
21 天精通 Python: 从入门到入狱
Felldeadbird
2020-12-02 16:55:08 +08:00
你都写扩展了,可以将数据本地存储在用户 浏览器。然后通过分布式去做计算。
sonxzjw
2020-12-02 17:25:12 +08:00
魔兽 mt 玩多了吧?
嘲讽拉 boss 准备跑几年尸体?
2088TXT
2020-12-02 17:44:40 +08:00
有关部门肯定会联系你 唉走好~
urobot
2020-12-02 22:17:55 +08:00
以前的话,可以直接豆油你瓣的 cto 问问

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/731051

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX