运行数十个小时后，在远程集群上出现奇怪的“Stale file handle，errno = 116”【JAVA教程】-小梁资源站

也想出现在这里？联系我们吧

运行数十个小时后，在远程集群上出现奇怪的“Stale file handle，errno = 116”,第1张

概述运行数十个小时后，在远程集群上出现奇怪的“Stale file handle，errno = 116”

我现在正在远程集群上运行一个名为CMAQ的模拟代码。我首先运行一个基准testing，以查看软件的性能。但是，作业总是运行几十个小时，然后崩溃，出现以下“ Stale file handle，errno = 116 ”错误消息：

PBS作业ID：91487.master.cluster作业名称：cmaq_cctm_benchmark_serial.sh执行主机：hs012 / 0处理作业时发生错误，请参阅下文。发布作业文件处理错误; 作业91487.master.cluster在主机上hs012 / 0UnkNown资源typesREJHOST = hs012.cluster MSG =无效主目录\’/ home / shangxin\’指定，errno = 116（过时文件句柄）

这是非常奇怪的，因为我从来没有修改主目录，这个“/ home / shangxin /”肯定是我的永久目录代码是….

另外，在标准输出.log文件中，当作业失败时总是显示以下消息：

如何find目录中最新的修改文件的时间戳（recursion）？

如何从linux内核的struct dentry中获得完整的path名

CS0016：目录无效的错误

有没有一种方法可以确定linux中的UFStypes？

NTFS稀疏文件数据运行（$ UsnJrnl）

总线错误100247.930u 34.292s 27：59：02.42 99.5％0 + 0k 16480 + 0io 2pf + 0w

这个消息是什么意思？

我曾经以为这个错误是由于作业消耗了RAM，这是一个内存溢出的问题。但是，当我在运行时通过“free -m”和“htop”命令检查内存使用情况时，我注意到RAM和交换内存占用从不超过10％，处于非常低的水平。内存使用情况不是问题。

因为我使用“tee”来logging正在运行的日志文件，该文件可以包含多达数万行，大小超过1MB。为了testing这个标准输出是否压倒了集群系统，我运行了另一个相同的工作，但没有标准的输出日志文件。新作业仍然失败，几十个小时后出现同样的“陈旧文件句柄，errno = 116”错误，所以标准输出也不是原因。

我也尝试了与多核并行运行作业，运行几十个小时后仍然出现同样的错误。

我可以确保我使用的代码没有问题，因为它可以在其他群集上成功完成。这个集群的pipe理员正在研究这个问题，但是现在还找不到具体的原因。

有没有人遇到这个奇怪的错误？我们应该如何解决集群上的这个问题？任何帮助表示赞赏！

在windows上模拟文件错误（例如ERROR_ACCESS_DENIED）

在内存FUSE文件系统中

在linux中的文件输出redirect

服务器path/ vs

为文件（stat？）获取纳秒级精度的atime，mtime，ctime字段

总结

以上是内存溢出为你收集整理的运行数十个小时后，在远程集群上出现奇怪的“Stale file handle，errno = 116”全部内容，希望文章能够帮你解决运行数十个小时后，在远程集群上出现奇怪的“Stale file handle，errno = 116”所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

版权声明 1 本网站名称：小梁资源站
2 本站永久网址：https://www.lishihuge.xyz
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ763317809进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END