数据挖掘方向的有什么好的建议吗?

2013-06-02 19:15:48 +08:00
 ling0322
我是研一的,搜索和数据挖掘方向,目前在实验室也没有做过什么靠谱的项目,最近招聘会去转了一下,感觉几乎没有要这个方向的企业啊。
感觉很迷茫,不知道现在学的跟实际到底有多大的脱节。有没有这方向的大神可以指导一下,感激不尽。
4085 次点击
所在节点    问与答
8 条回复
ahxxm
2013-06-02 19:50:20 +08:00
科研应该也算是实际应用吧,我这正好有个问题不知道怎么解决,贴出来给lz看看……
图1 :
pig_sus.blast是用blat处理原始数据后得到的输出文件,C090_1.blast(以及其他blast文件)是用于对比的数据。
pig_sus.blast中,第一列是query,有重复项,取evalue最小的、identity最大的(格式见http://edwards.sdsu.edu/labsite/index.php/ramys/238-blast-output-8),已经处理完了,R代码如下:
/*
x = read.csv("pig_sus.blast", sep = "", header = FALSE)
x = subset(x, subset = !duplicated(x[c("V1")]))
*/
然后合并两组数据发现没对齐,图2:
合并代码如下:
/*
x = x[1:239,]
c = c("XV2", "XV9", "XV10", "YV2", "YV9", "YV10")
comp = data.frame(x[,2], x[,9], x[,10], y[,2], y[,9], y[,10])
colnames(comp) = c
*/
line 125时,x的V2出现了新项chr11,原本与y[125, ]对应的chr1变成了126。
图3:
所以想根据V1来进行合并,把类似POR_C090_I10_I10的新项单列成之后,剩余项对齐合并,再进行对比。
对比原则是:两组数据的V2 V9 V10都一致则判定为一致,最后需要得到 一致项/总项数 这个比例。
--------
ps1:看id我们好像在twitter上互fo了哟~
ps2:为了处理数据还重新编译了一遍blat...
ahxxm
2013-06-02 20:07:19 +08:00
我好像自己搞定了 = = V1一样,V2就都一样的,所以:
merge = merge(x,y, by = "V1")
merge = subset(merge, V9.x = V9.y)
再把行数相除就行了……
其实我都不知道自己在做什么,帮人做作业,抽象成这个过程。这些大概就是实际中需要的技能吧……
求大牛指导
ling0322
2013-06-02 23:54:35 +08:00
@ahxxm R语言,好高深(
likuku
2013-06-03 04:10:31 +08:00
多年前也作一个半个人的项目,只是统计画图什么,本来也想搞R,后来看麻烦,最终就Python+Gnuplot了事。
quake0day
2013-06-03 06:24:43 +08:00
新成立的IDL百度研究院专门招你们这个方向的。
haooyi
2013-06-03 10:31:38 +08:00
数据挖掘不太了解,转给你一条豆瓣工程师的微博。
了解豆瓣技术团队必看 http://www.douban.com/note/65095757/
Data Scientist的需求 http://www.douban.com/note/247983915/
ahxxm
2013-06-03 10:43:20 +08:00
@ling0322 因为不知道怎么用python写这些...
busyluo
2016-11-29 11:47:48 +08:00
不知道楼主有没有坚持下去。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/70982

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX