Actions
Bug #1177
closedNa mentat.cesnet.cz se občas ozve OOM-killer
Start date:
08/30/2013
Due date:
% Done:
0%
Estimated time:
To be discussed:
Description
Trochu jsem zkoumal a myslím, že už si zaslouží vlastní bug, ať máme info pohromadě.
Příklad:
Aug 26 16:20:55 mentat kernel: [11855389.517745] mentat-sensor invoked oom-killer: gfp_mask=0x201da, order=0, oom_adj=0 Aug 26 16:20:55 mentat kernel: [11855389.517752] mentat-sensor cpuset=/ mems_allowed=0-1 Aug 26 16:20:55 mentat kernel: [11855389.517756] Pid: 21940, comm: mentat-sensor Not tainted 2.6.32-5-amd64 #1 Aug 26 17:22:49 mentat kernel: [11859102.984747] mentat-wardenin invoked oom-killer: gfp_mask=0x201da, order=0, oom_adj=0 Aug 26 17:22:49 mentat kernel: [11859102.984752] mentat-wardenin cpuset=/ mems_allowed=0-1 Aug 26 17:22:49 mentat kernel: [11859102.984756] Pid: 21985, comm: mentat-wardenin Not tainted 2.6.32-5-amd64 #1 Aug 27 16:34:32 mentat kernel: [11942606.528269] mongod invoked oom-killer: gfp_mask=0x201da, order=0, oom_adj=0 Aug 27 16:34:32 mentat kernel: [11942606.528274] mongod cpuset=/ mems_allowed=0-1 Aug 27 16:34:32 mentat kernel: [11942606.528277] Pid: 26758, comm: mongod Not tainted 2.6.32-5-amd64 #1 Aug 27 16:34:32 mentat kernel: [11942606.680278] nrpe invoked oom-killer: gfp_mask=0x201da, order=0, oom_adj=0 Aug 27 16:34:32 mentat kernel: [11942606.680283] nrpe cpuset=/ mems_allowed=0-1 Aug 27 16:34:32 mentat kernel: [11942606.680286] Pid: 22628, comm: nrpe Not tainted 2.6.32-5-amd64 #1
Zaregistroval jsem, když mi pod rukama zmizel mongod, navíc v okamžiku, kdy jsem nic nedělal.
Zjistili jsme, že vmem a rmem vyletí, když běží dotaz, který prochází celou db, např.:
db.alerts.aggregate({$group:{_id:"$Alert.Analyzer.@name", cnt:{$sum:1}}})
Po čase (bez vytěžujících dotazů) namapovaná paměť spadne, jádro nadále nepoužívané mmapnuté bloky databázových souborů posléze discardne (také poté, co případně zapsalo dirty bloky).
Actions