小机器跑 linux 莫名其妙地死机, 一脸迷茫

2016-10-31 19:16:38 +08:00
 Osk

https://www.v2ex.com/t/312648 个帖子, 买了占美 5005u 的小机器,跑 Arch,很好,发热也不高,但最近发现要莫名其妙地死机,死得很奇葩。

1,把网线拔给其它计算机用了一段时间,再插回去,网卡灯不亮,死了,Num Lock 都切换不了。

2,没拨网线,关了路由器,早上出门,晚上回来,死了,

3,早上拔了网线,晚上回家,死了

4,同第二次

共同情况: 断开网络,网卡灯不亮,死机后机身微热

故障不易复现...断网一会儿不会遇到这个问题

其它情况: 有网络的情况下,最长连续 5 天不死机,有网络有负载时,从未死机。机器不存在过热问题。

死机后,没有任何日志什么的,故障又不易复现,简直头大。。。

不知道大家有什么找 bug 的建议,谢谢了!

7400 次点击
所在节点    Linux
27 条回复
mko0okmko0
2016-11-01 17:32:46 +08:00
知道有持续 LOG 到硬碟的选项和设定但没用过,所以无法回答你.
我有时候被当机搞到火大
就直接把 SystemRescueCd 内的核心跟模组档案
直接复制到我的主机内用这个救援核心去跑
还蛮稳的,
他码的自己编的没有这个稳= =
raptor
2016-11-01 17:57:34 +08:00
妥妥的硬件稳定性差
Osk
2016-11-01 19:11:11 +08:00
@mko0okmko0 我会试试看,谢谢。
Osk
2016-11-20 22:02:26 +08:00
@mko0okmko0 关闭 PCI 设备的 PM 后,故障没再出现了
snip
2017-04-09 08:16:33 +08:00
@Osk 怎么关闭 pci 设备的 pm ?遇到了同样的问题
Osk
2017-04-09 10:47:42 +08:00
@snip 不知道你的 CPU 是什么型号的?能不能复现死机或者找到死机时的共同特点呢?

分享下我当时的思路:
1. 更新 cpu microcode , 有些 CPU 有 bug ,最好更新
2. 使用 powertop 命令,切换到 Tunable 选项卡下,注意看看 网卡和 PCI 设备 PM 是否为 bad ,比如我的(关闭 PCI PM 后没有 bug 时):

Bad Runtime PM for PCI Device Realtek Semiconductor ... PCI Express Gigabit Ethernet Controller

之前是我将笔记本的一些 PM 设置复制过去,结果就遇到了本贴描述的 bug ,不知道是谁的锅,主要是这个 udev 规则开启了所有 PCI 设备的 PM :
ACTION=="add", SUBSYSTEM=="pci", ATTR{power/control}="auto"

在 powertop 的 Tunable 选项卡里面如果不确定的话,先将 PCI 设备的 PM 状态调成 bad 观察下,这些设置重启会还原成系统默认的,不必担心

还有就是据说一些新的赛扬 /奔腾 SoC 跑 Linux 并使用睡眠的话确实是有问题的,具体我也不清楚,没用过,但是这些 SoC 似乎 s3 睡眠是有点不一样的,在 Windows 里面, CherryTrail SoC 通过 powercfg /a 命令显示不支持 s3 睡眠,转而使用 Microsoft 所谓的“现代待机”了,不知道这是不是和硬件固件有关还是 Windows 自己搞的新一套
Midnight
2018-07-09 21:50:03 +08:00
我也想搞个经济型的 Linux 机器放家里充当服务器,选来选去一直没什么中意的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/316876

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX