数据挖掘方向的有什么好的建议吗？

我是研一的，搜索和数据挖掘方向，目前在实验室也没有做过什么靠谱的项目，最近招聘会去转了一下，感觉几乎没有要这个方向的企业啊。
感觉很迷茫，不知道现在学的跟实际到底有多大的脱节。有没有这方向的大神可以指导一下，感激不尽。

ahxxm

2013-06-02 19:50:20 +08:00

科研应该也算是实际应用吧，我这正好有个问题不知道怎么解决，贴出来给lz看看……
图1 ：

pig_sus.blast是用blat处理原始数据后得到的输出文件，C090_1.blast（以及其他blast文件）是用于对比的数据。
pig_sus.blast中，第一列是query，有重复项，取evalue最小的、identity最大的（格式见http://edwards.sdsu.edu/labsite/index.php/ramys/238-blast-output-8），已经处理完了，R代码如下：
/*
x = read.csv("pig_sus.blast", sep = "", header = FALSE)
x = subset(x, subset = !duplicated(x[c("V1")]))
*/
然后合并两组数据发现没对齐，图2：

合并代码如下：
/*
x = x[1:239,]
c = c("XV2", "XV9", "XV10", "YV2", "YV9", "YV10")
comp = data.frame(x[,2], x[,9], x[,10], y[,2], y[,9], y[,10])
colnames(comp) = c
*/
line 125时，x的V2出现了新项chr11，原本与y[125, ]对应的chr1变成了126。
图3：

所以想根据V1来进行合并，把类似POR_C090_I10_I10的新项单列成之后，剩余项对齐合并，再进行对比。
对比原则是：两组数据的V2 V9 V10都一致则判定为一致，最后需要得到一致项/总项数这个比例。
--------
ps1:看id我们好像在twitter上互fo了哟~
ps2:为了处理数据还重新编译了一遍blat...

ahxxm

2013-06-02 20:07:19 +08:00

我好像自己搞定了 = = V1一样，V2就都一样的，所以：
merge = merge(x,y, by = "V1")
merge = subset(merge, V9.x = V9.y)
再把行数相除就行了……
其实我都不知道自己在做什么，帮人做作业，抽象成这个过程。这些大概就是实际中需要的技能吧……
求大牛指导

ling0322

2013-06-02 23:54:35 +08:00

@ahxxm R语言，好高深（

likuku

2013-06-03 04:10:31 +08:00

多年前也作一个半个人的项目，只是统计画图什么，本来也想搞R，后来看麻烦，最终就Python+Gnuplot了事。

quake0day

2013-06-03 06:24:43 +08:00

新成立的IDL百度研究院专门招你们这个方向的。

haooyi

2013-06-03 10:31:38 +08:00

数据挖掘不太了解，转给你一条豆瓣工程师的微博。
了解豆瓣技术团队必看 http://www.douban.com/note/65095757/
Data Scientist的需求 http://www.douban.com/note/247983915/

ahxxm

2013-06-03 10:43:20 +08:00

@ling0322 因为不知道怎么用python写这些...

busyluo

2016-11-29 11:47:48 +08:00

不知道楼主有没有坚持下去。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/70982

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.