大家好,我是一名本科生,正在做一些分布式计算的小型科研项目。之前我们是想实现一种新的机器学习算法,后来导师想把这个算法转到service的层面上来实现。一个重要特征就是容错性(Fault-tolerance),也是我目前要解决的棘手问题。
但捉急的是,我之前用的是C + OpenMPI的组合去写的代码,但MPI有个很要命的地方就是他不能增删节点的数目,而且一个进程死整个job就死了。
现在我也在考虑怎么转的问题,但自己本身是学数学的,尤其对于网络这方面没有太多经验,所以想请教一下大家该怎么改换自己目前的编程语言,谢谢。
PS:我发现似乎MPI-2标准中有一些可以支持动态进程管理,现在正在学socket编程,导师告诉我java是可以做的,但先让我看看mpi有没有办法解决。