求微博历史数据

2017-12-21 14:16:35 +08:00
 Pore

本人小硕, 想用最近比较热的大数据呀语义分析写个论文混毕业。 略懂计算机皮毛, 自己扒微博历史数据这个对我来说操作性太强。 有没有程序员有相关数据可以提供? 或者可实施的解决方案可以提供?

鄙人将感激不尽,可送出闲置 Nexus 6. 其他形式有偿也可以的。谢谢!

7073 次点击
所在节点    程序员
28 条回复
Pore
2017-12-21 14:23:37 +08:00
刚才盘点了一下身边的东西,可送出以下产品。
1. 闲置 Nexus 6
2. 闲置 iPhone 5s (有锁,就当 iPod 玩儿吧)
3. Office 365 半年以上有效期的分享( 2018/07/20 过期)
zchlwj
2017-12-21 14:34:41 +08:00
微博数据没有,但是有一份其他的数据,希望对楼主有帮助
http://note.youdao.com/noteshare?id=2934610dc48391b0b5d09a0025474124&sub=756DBC0FAF1B4510B37E9BA4FF84C9E1
p2pCoder
2017-12-21 14:34:44 +08:00
你这需求不够清楚
fishdoubleearly
2017-12-21 14:35:25 +08:00
同求!可赠送北展演出门票一张~
wibile
2017-12-21 14:43:42 +08:00
具体要啥数据?哪方面的?
Pore
2017-12-21 14:44:19 +08:00
@p2pCoder 2014~2016 年的微博数据,包含用户名,时间,微博文就可以了。
tisboy
2017-12-21 14:44:38 +08:00
具体微博什么数据?
Pore
2017-12-21 14:45:28 +08:00
@wibile 2014~2016 年的微博数据,包含用户名,时间,微博文就可以了。没有做过相关的东西,暂时想到这么多。
Pore
2017-12-21 14:46:13 +08:00
@fishdoubleearly 可以搞一个众筹咧,哈哈。
Pore
2017-12-21 14:47:05 +08:00
@tisboy 2014~2016 年的微博数据,包含用户名,时间,微博文就可以了。越全约好。
linuxchild
2017-12-21 14:52:11 +08:00
应该挺大的数据了。。一般人没有,可以尝试联系一下微博?
wibile
2017-12-21 14:52:12 +08:00
额,数据量太大,帮不了了。。。。估计得几百 T 不止吧。。。数据细化点,我还能帮忙爬一下。
PythonKGB
2017-12-21 14:54:15 +08:00
你居然想要两年期间的微博用户的昵称 id 和所有的博文数据?

首先你比公安局网信办还牛逼,

其次你真没这么大的硬盘,

最后你这硕士读的不光没学习,大数据的含义范畴都没搞懂

白玩儿。
Pore
2017-12-21 14:56:04 +08:00
@PythonKGB 前两年确实看到有人这么做了,他还提供原始数据,主要是现在找不到那文章的链接了。
BangBang
2017-12-21 15:12:30 +08:00
啊,我之前上铺毕业论文也是这个哇,不过他是写爬虫自己爬的哇,估摸着有 2kw 条够你做毕业设计的吧?

结论:找个(自己写个)爬虫爬。
Pore
2017-12-21 15:21:08 +08:00
@BangBang 个人技术不是太行阿。听说现在微博封的比较紧,爬虫可行吗?
golmic
2017-12-21 15:23:53 +08:00
楼主可以先找其他人试试,实在不行了加我微信 lujqme 可以帮你爬,数据量看硬盘大小了。
mamtou
2017-12-21 15:35:26 +08:00
awolfly9
2017-12-21 15:40:41 +08:00
微博数据,没有。但是有汽车之家所有口碑的语料数据。
TimePPT
2017-12-21 16:04:26 +08:00
这数据除了微博自己有全量,其他公司或个人根本不可能有,要全爬取了早被告了。
微博之前就告过多家商业公司。

真想取到,正规途径就是以科研名义找微博合作,但一般个人科研项目估计没戏,之前微博跟几家高校有过合作,但数据也不是全量给,现在还有没有合作不清楚。

非正规途径就是找爬过的公司和个人要或者买,商业公司有哪些有数据我不清楚。个人的话,亚二爬梁斌(微博 @梁斌 penny )那肯定有大量数据,但也不可能是全量,且人理不理你另说。


话说回来,你真就仅仅是写论文,难道不应该是抽样数据研究就行了么,干嘛要全量。或者考虑换个方向数据也好找啊,比如新闻什么的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/416535

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX