概述运行数十个小时后,在远程集群上出现奇怪的“Stale file handle,errno = 116”
我现在正在远程集群上运行一个名为CMAQ的模拟代码。 我首先运行一个基准testing,以查看软件的性能。 但是,作业总是运行几十个小时,然后崩溃 ,出现以下“ Stale file handle,errno = 116 ”错误消息:
PBS作业ID:91487.master.cluster作业名称:cmaq_cctm_benchmark_serial.sh执行主机:hs012 / 0处理作业时发生错误,请参阅下文。 发布作业文件处理错误; 作业91487.master.cluster在主机上hs012 / 0UnkNown资源typesREJHOST = hs012.cluster MSG =无效主目录\’/ home / shangxin\’指定,errno = 116(过时文件句柄)
这是非常奇怪的,因为我从来没有修改主目录,这个“/ home / shangxin /”肯定是我的永久目录代码是….
另外,在标准输出.log文件中,当作业失败时总是显示以下消息:
如何find目录中最新的修改文件的时间戳(recursion)?
如何从linux内核的struct dentry中获得完整的path名
CS0016:目录无效的错误
有没有一种方法可以确定linux中的UFStypes?
NTFS稀疏文件数据运行($ UsnJrnl)
总线错误100247.930u 34.292s 27:59:02.42 99.5%0 + 0k 16480 + 0io 2pf + 0w
这个消息是什么意思?
我曾经以为这个错误是由于作业消耗了RAM,这是一个内存溢出的问题。 但是,当我在运行时通过“free -m”和“htop”命令检查内存使用情况时,我注意到RAM和交换内存占用从不超过10%,处于非常低的水平。内存使用情况不是问题。
因为我使用“tee”来logging正在运行的日志文件,该文件可以包含多达数万行,大小超过1MB。 为了testing这个标准输出是否压倒了集群系统,我运行了另一个相同的工作,但没有标准的输出日志文件。 新作业仍然失败,几十个小时后出现同样的“陈旧文件句柄,errno = 116”错误,所以标准输出也不是原因。
我也尝试了与多核并行运行作业,运行几十个小时后仍然出现同样的错误。
我可以确保我使用的代码没有问题,因为它可以在其他群集上成功完成。 这个集群的pipe理员正在研究这个问题,但是现在还找不到具体的原因。
有没有人遇到这个奇怪的错误? 我们应该如何解决集群上的这个问题? 任何帮助表示赞赏!
在windows上模拟文件错误(例如ERROR_ACCESS_DENIED)
在内存FUSE文件系统中
在linux中的文件输出redirect
服务器path/ vs
为文件(stat?)获取纳秒级精度的atime,mtime,ctime字段
总结
以上是内存溢出为你收集整理的运行数十个小时后,在远程集群上出现奇怪的“Stale file handle,errno = 116”全部内容,希望文章能够帮你解决运行数十个小时后,在远程集群上出现奇怪的“Stale file handle,errno = 116”所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
请登录后查看评论内容