运行数十个小时后,在远程集群上出现奇怪的“Stale file handle,errno = 116”【JAVA教程】

!
也想出现在这里? 联系我们
信息

运行数十个小时后,在远程集群上出现奇怪的“Stale file handle,errno = 116”,第1张

概述运行数十个小时后,在远程集群上出现奇怪的“Stale file handle,errno = 116”

我现在正在远程集群上运行一个名为CMAQ的模拟代码。 我首先运行一个基准testing,以查看软件的性能。 但是,作业总是运行几十个小时,然后崩溃 ,出现以下“ Stale file handle,errno = 116 ”错误消息:

PBS作业ID:91487.master.cluster作业名称:cmaq_cctm_benchmark_serial.sh执行主机:hs012 / 0处理作业时发生错误,请参阅下文。 发布作业文件处理错误; 作业91487.master.cluster在主机上hs012 / 0UnkNown资源typesREJHOST = hs012.cluster MSG =无效主目录\’/ home / shangxin\’指定,errno = 116(过时文件句柄)

这是非常奇怪的,因为我从来没有修改主目录,这个“/ home / shangxin /”肯定是我的永久目录代码是….

另外,在标准输出.log文件中,当作业失败时总是显示以下消息:

如何find目录中最新的修改文件的时间戳(recursion)?

如何从linux内核的struct dentry中获得完整的path名

CS0016:目录无效的错误

有没有一种方法可以确定linux中的UFStypes?

NTFS稀疏文件数据运行($ UsnJrnl)

总线错误100247.930u 34.292s 27:59:02.42 99.5%0 + 0k 16480 + 0io 2pf + 0w

这个消息是什么意思?

我曾经以为这个错误是由于作业消耗了RAM,这是一个内存溢出的问题。 但是,当我在运行时通过“free -m”和“htop”命令检查内存使用情况时,我注意到RAM和交换内存占用从不超过10%,处于非常低的水平。内存使用情况不是问题。

因为我使用“tee”来logging正在运行的日志文件,该文件可以包含多达数万行,大小超过1MB。 为了testing这个标准输出是否压倒了集群系统,我运行了另一个相同的工作,但没有标准的输出日志文件。 新作业仍然失败,几十个小时后出现同样的“陈旧文件句柄,errno = 116”错误,所以标准输出也不是原因。

我也尝试了与多核并行运行作业,运行几十个小时后仍然出现同样的错误。

我可以确保我使用的代码没有问题,因为它可以在其他群集上成功完成。 这个集群的pipe理员正在研究这个问题,但是现在还找不到具体的原因。

有没有人遇到这个奇怪的错误? 我们应该如何解决集群上的这个问题? 任何帮助表示赞赏!

在windows上模拟文件错误(例如ERROR_ACCESS_DENIED)

在内存FUSE文件系统中

在linux中的文件输出redirect

服务器path/ vs

为文件(stat?)获取纳秒级精度的atime,mtime,ctime字段

总结

以上是内存溢出为你收集整理的运行数十个小时后,在远程集群上出现奇怪的“Stale file handle,errno = 116”全部内容,希望文章能够帮你解决运行数十个小时后,在远程集群上出现奇怪的“Stale file handle,errno = 116”所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

© 版权声明
THE END
喜欢就支持一下吧
点赞167 分享
评论 抢沙发

请登录后发表评论

    请登录后查看评论内容