背景

客户现场的监控系统中有一个网络听诊器功能，其每隔1分钟会对全网设备进行ping操作，以此来尽可能快的发现设备及网络是否出现异常。暂且不说通过该功能来对设备及网络作健康检测是否靠谱。由于JAVA对于网络层以下的协议是无能为力的，而ping操作涉及ICMP与ARP协议，因此监控系统只能借助JNI机制来搞定。

BUG现象

监控系统的java.exe进程每隔几个小时就异常退出

问题定位

通过应用系统的日志看是否为业务相关的异常引起的 –》日志中并无任何异常信息
打开GC日志，并观察一段时间，看是否存在堆内存回收异常（泄漏或溢出） –》堆内存一切正常
此时忽然想起，java.exe进程异常退出应该会生成相关的hs_err.log文件，果然在应用目录下找到了一堆错误文件。该日志也叫crash日志。
通过查看hs_err.log内容得知，原来是jni ping引入的dll调用异常导致java.exe进程异常中止了。

PS：如果能早点想起步骤3，那就不用浪费步骤2的功夫了。

JNI调用异常分析

JNI异常导致java进程中止的原因可能为

JVM自己的BUG：谷歌了一把，网上描述的BUG中，现场的JDK版本都已经修复了。
JNI DLL的BUG：这个原因范围就大了，至此只能根据经验猜测可能的原因，然后一个一个排除了。

由于linux环境下有这么一个机制：当内核检测到进程的物理内存不断增加至某一个值时，内核会直接将该进程kill掉。

windows是否也有这样的机制呢？目前尚未查证，还请高手解答。

在没有进一步证据的前提下，只能先猜测是否为进程物理内存出了问题，于是监测了下应用进程的物理内存损耗量，果然是缓慢递增的，但JVM堆内存仍然一切正常，由此大约知道是堆外内存使用上出了问题。

关于堆外内存的相关知识，可参考下面的文章：

至此，可以知道该问题与JAVA没啥关系了，但为了彻底搞明白，我还是硬着头皮找来DLL的C源码，想看看是否可以用我helloworld级别的C水平把这个问题搞定。

堆外内存[泄漏、异常]分析

分析C/C++应用的内存，大伙一般都会想到perftool，可惜windows环境下我始终编译不过。于是谷歌上再搜索一把”windows内存泄漏”，发现知乎上有文章推荐了一堆，但我要么下载不到，要么看不懂。最后是根据《C/C++内存泄漏及检测》介绍的方法定位到是dll中有一段代码使用了缓存导致内存泄漏，当内存达到JVM中设置的MaxDirectMemorySize值时，dll就会出现内存访问异常错误，最终导致java.exe进程异常退出了。

PS：在定位堆外内存异常相关问题时，为了快速重现问题，可以将MaxDirectMemorySize改小，MaxDirectMemorySize的默认值可认为与-Xmx设置的值一样（严格上不是，参见JVM源码分析之堆外内存完全解读）

总结

该问题并非通用性问题，写这篇文章主要是为了记录下当时解决该问题的整个定位过程，文中一些知识点可能表述有误，还请批评指正。

转载请注明出处：cloudnoter.com