个人需求,自己开车或者干家务的时候脑子放空,喜欢无意识的顺嘴背诵一些古诗词,考虑到别人可能也有类似需求,所以想想做一个关于诗词的 app 。
于是想找个数据库,但是 github 提供的数据都不详细,如只有 名字、朝代、内容等,如:
而我还需要显示作者的生辰忌日、诗词鉴赏、简介、作者简介等,找了一圈,发现这个网站的数据很详细:
里面有诗词鉴赏、翻译、出版社出的书作者对该首诗词的评价、诗词介绍、作者出生年月、作者简介、注释等。
所以我先联系了对方问考虑出售数据库不,但是对方没回复,所以好奇他的数据库是从哪儿来的?
实在不行再考虑爬虫,毕竟不礼貌 =_=
另外发现一个似乎是出售爬虫数据库的网站:数据超市 不知道靠谱不,花钱能搞定的事情我也懒得自己花时间写爬虫了。
1
liujavamail 2023-08-03 13:22:20 +08:00
|
2
0o0O0o0O0o 2023-08-03 13:27:06 +08:00 via iPhone
|
3
AppJun 2023-08-03 13:46:07 +08:00
诗词类别,只靠这些网站来搜集靠谱的资料是很难的事情。
毕竟互联网上的数据也不是无根之木,凭空出现的。 目前互联网上包括诗词在内的古籍内容,一般来说会遇到以下几个问题: 1. 文字繁简/异体字不太讲究。 2. 版本不讲究,你不知道这个版本的诗是从哪本来的。 3. 诗词鉴赏部分版权可疑,文本质量良莠不齐。 4. 有大量讹误,正确性没有得到重视和背书。 如果要正儿八经做,其实主要方向就是根据一些已有的受到比较好评价有出版社愿意背书的优秀书籍作为蓝图,然后研究怎么合法的电子化。这里是非常耗费心力金钱的步骤。 对制作者的相关内容的造诣也要求很高。毕竟有些数据库号称 30 W 诗词,虽然正确性很可疑。 然后搞定了这一切,你会发现变现还很难,因为已经有大量劣质的免费内容充斥市场了。 除非有什么大学或者科研机构公布公开靠谱的数据库。否则个人建议远离这个赛道。 |
4
charmToby 2023-08-03 13:47:01 +08:00 2
|
5
WashFreshFresh 2023-08-03 13:49:11 +08:00
链接点击去耳目一新 一直以为小类型的网站可能就粗制滥造了
|
6
rimworld 2023-08-03 13:58:19 +08:00
爬一部分,买一部分,再找牛马实习生去修正,录入缺失的。
|
7
Xheldon OP @0o0O0o0O0o 对,快十年前作者做的这个,然后有商业化收益之后,他把所有的代码都取消公开了(或者删了)
|
8
Xheldon OP @charmToby github 上诗词数量可能比较多,但是诗词本身的信息较少,只有标题、名字、作者,还希望有 鉴赏、评论、注释、作者信息等内容
|
9
Xheldon OP @AppJun 你说的对,不过我是没想做这么大,这么权威,我是想先做中小学诗词+语音朗诵,自己用,也给我侄子用,而且因为大家都学过,好勘误;其他的诗词可以作为每日推荐,注明出处,如果用户感兴趣可以自己去研究。
|
10
Xheldon OP @WashFreshFresh 哈哈,确实,西窗烛这个牌子维护十年了,当初作者也是从兴趣入手的,我感觉我也可以🤣
|
15
cin 2023-08-03 21:24:37 +08:00 2
|