有木有人搞PS3集群的？

kuhasu · Oct 15, 2011

看得懂的应该能看得懂吧~

konit · Oct 15, 2011

倒，難道偶回復一堆消息，你又收不到啦

kuhasu · Oct 16, 2011

konit said: ↑

倒，難道偶回復一堆消息，你又收不到啦
Click to expand...

一个没有~
留言记录，email来一份~或者是群临时会话，微博私信也行~找到原因了，你被屏蔽了~已经解除~
其他人都木有影响

konit · Oct 16, 2011

收super邮件

lvsoft · Oct 16, 2011

kuhasu said: ↑

看得懂的应该能看得懂吧~
Click to expand...

我搞过,很久以前~
现在不推荐搞这个,性能价格比/性能功耗比更高的是CUDA~

ps:偶在忙毕业的事情，在搞定这个问题之前偶处于闭关状态，基本不会上线，有问题想交流的话直接mail比较好~~

wj2000 · Oct 16, 2011

lvsoft said: ↑

我搞过,很久以前~
现在不推荐搞这个,性能价格比/性能功耗比更高的是CUDA~

ps:偶在忙毕业的事情，在搞定这个问题之前偶处于闭关状态，基本不会上线，有问题想交流的话直接mail比较好~~
Click to expand...

ps3有现成的成品卖，而CUDA在国内好像不容易买到现成的套件，而国外那些好像价格又太贵，NVIDIA惠普携手推GPU计算入门套装，　这套集群由八台惠普ProLiant SL390 G7服务器组成，共包含24颗NVIDIA Tesla M2070 GPU、16颗Intel Xeon 5600 CPU，峰值单精度浮点性能13.5TFlops(每秒13.5万亿次)，并预装了最新的NVIDIA CUDA 4.0并行计算软件，支持C、C++、Fortran语言编程，并提供了大量的GPU加速库，比如FFT、BLAS、LAPACK、RNG、SPARSE。
这套GPU计算入门套装定价为99000美元看似天价但其实已经比此类产品的典型报价低了大约一半，而且同时还以优惠价格提供大量第三方开发工具。

现在一台ps3价格大概在3000左右。

奥，好像可以自己搭建CUDA集群平台，参看这个：
超级计算机也DIY 科学家用显卡构建最快台式机
http://www.evolife.cn/html/2009/40972.html
日期：2009-12-17 19:07:00　作者：JuestChaOS　来源：爱活网
爱活网的电脑维修砖家来不及思考同学很早就在鼓吹显卡将从CPU手中接过更多工作，其出发点尚且不提，事件预测的准确性还是挺高的。最近，比利时安特卫普大学的学生们为了课余时间的科学研究，就用了显卡构建了一套超级计算机系统，为显卡参与计算摇旗呐喊。

这台强大且廉价的超级计算机名叫Fastra II，采用了2.66GHz的英特尔Core i7处理器，华硕P6T7 主板，一个1500瓦电源和3个450瓦电源，1TB的三星硬盘，DDR3内存12GB。其主要运算部分是6块双GPU的GeForce GTX 295显卡和1块单GPU的GeForce GTX275显卡，足足7块显卡13个GPU核心！这些配件都被装在一个普通的塔式机箱里，所有的配件都是市场上能买到的民用产品。当然并不是把这些市场上买到的硬件往一起攒就可以了，还需要修改GeForce显卡的软件使其能运行计算程序，修改CentOS系统的Linux内核，为这台怪物重新构造代码。

Fastra II的CPU主要用来协调工作，而负责计算的主力是GPU构成的小型集群。借助NVIDIA的CUDA技术，7张普通的高端游戏显卡也可以达到最多每秒12万亿次浮点运算的并行处理能力。Fastra II的主要用途是医学断层扫面，X射线三维成像，绘制骨骼和器官等工作。Fastra II总共花销的计算为6000欧元，折合8791美元，比利时大学的科学家们认为这花得很值，因为Fastra II的性能达到了以前需要几百万美元才能买到的小型集群的水平，是有史以来速度最快的台式计算机之一。

我们在这里为大家提供了官方的演示视频，各位可以去参考下高玩们是怎么让一台民用游戏电脑变成迷你超级计算机的^_^。

扩展阅读：

Fastra II之前还有一台Fastra I，它诞生于2008年，总计使用了4块NVIDIA GeForce 9800 GX2 显卡，借助NVIDIA的 CUDA 技术，搭建起一个用于医学断层摄影技术的计算平台。结果他们发现，这个由8块GPU构建的系统，其性能居然比300块Intel Core 2 Duo 2.4GHz CPU的性能总和还要快，即便与该大学一个256节点的AMD Opteron 250 2.4GHz 计算集群相比，速度也不相上下。

该研究小组主要研究医学断层摄影技术的新型计算方法，由于他们处理的3D图像较为庞大（1024×1024×1024），因此基于这些数据的图形重建工作往往是普通桌面计算机所不能胜任的。最后他们想到用GPU来替代CPU完成相应的计算工作，以下是他们这台名为“FASTRA”的“超级计算机”的配置清单和机箱内部图片：

AMD Phenom 9850 processor + Scythe Infinity CPU cooler

4x MSI 9800GX2 graphics card

4x 2GB Corsair Twinx DDR2 PC6400 memory

MSI K9A2 Platinum motherboard

Samsung Spinpoint F1 750GB HDD

ThermalTake Toughpower 1500W Modular PSU

Lian-Li PC-P80 Armorsuit case

Windows XP 64-bit他们选用AMD平台的原因是INTEL平台无法支持4块NVIDIA GeForce 9800 GX2，同时借助于NVIDIA CUDA程序模型，他们甚至不需要SLI就成功地使8块GPU并行工作。值得一提的是，所有这些硬件仅花费4000欧元（美国国内的话更便宜， NewEgg的报价在3900美元左右）。

上面的信息是2009年的，现在应该有更多选择了。

espresso · Oct 16, 2011

哦，密码破解爱好者的曙光...

wj2000 · Oct 16, 2011

来估算一下现在当时主要配置部件的大致价格:

AMD Phenom 9850 processor + Scythe Infinity CPU cooler ￥800

4x MSI 9800GX2 graphics card ￥800*4=￥3200

4x 2GB Corsair Twinx DDR2 PC6400 memory ￥150*4=￥600

MSI K9A2 Platinum motherboard ￥400

Samsung Spinpoint F1 750GB HDD ￥600

ThermalTake Toughpower 1500W Modular PSU ￥2700 （电源）

Lian-Li PC-P80 Armorsuit case ￥4000 （机箱）
现在看来电源和机箱价格占的比重还不少。
总价大概￥12300

当年价格，硬件仅花费4000欧元（美国国内的话更便宜， NewEgg的报价在3900美元左右）。按现在欧元/美元1。388折合美元5552，按美元/人民币6。40折合￥35533，如果按当年3900美元折合￥24960

wj2000 · Oct 16, 2011

2.66GHz的英特尔Core i7处理器，￥2000
华硕P6T7 主板，￥4500
一个1500瓦电源￥2700
3个450瓦电源￥450*3=￥1350
1TB的三星硬盘￥600
DDR3内存12GB ￥1000
6块双GPU的GeForce GTX 295显卡￥5000*6=￥30000
1块单GPU的GeForce GTX275显卡￥3000

总价大概￥45150。
Fastra II总共花销的计算为6000欧元，折合8791美元，按美元/人民币6。40折合￥56263左右。

konit · Oct 16, 2011

一臺還可以自己DIY，量大了搞成集群維護起來就麻煩啦~

kuhasu · Oct 16, 2011

PS3的好处是，如果有合适的运算项目，那么1百多万就可以搞一个曙光5000A这样的东西出来。
不过单浮点和双浮点运算差别比较大。
通过这两天详细的了解，跟工程师沟通，发现还是不能满足需求的。
相对的2600的体质似乎好一些，成本也比较好。
大型机的成本还是太高，相当不值得，而且淘汰迅速。

lvsoft · Oct 16, 2011

ps3有几个问题，首先ps3的cell只开放了6个SPU，其次新版的ps3（包括老版升级了firmware之后）已经不支持安装linux了。所以实际上现在的ps3是无法使用CELL的。

IBM的插卡版本的Cell解决方案也是巨贵的。

CUDA的话，没必要用Telsa，可以用GTX480/580。GTX系列的CUDA在双精度运算方面被阉割了，速度降为1/8，此外还阉割了ECC校验。
如果程序对双精度要求不高的话，可以用单精度做。至于ECC校验的缺失，也没啥太严重的影响，大不了连续算两遍比对结果的正确性即可。

另外，就算是双精度，由于Telsa M2070实际上源于GTX480的降压版，因此8块GTX480即可达到比一块M2070略高的双精度速度，同时价格依然比一块M2070便宜。

显卡计算方面，ATI的显卡同价位下拥有比NV显卡高一个数量级的计算单元，但是ATI的显卡逻辑控制单元较弱，因此在高性能计算方面，除非是非常简单的计算模型（比如，bit coin这种纯拼hash计算能力的），否则，一般情况下ATI的显卡比NV的显卡要弱。

做个简单的类比，一块GTX470在发挥了50%的计算效率的情况下，差不多相当于i7 960全开的计算能力的10倍。

CUDA也好，Cell也好，制约计算能力的地方主要在于软件，一般发挥50%的计算能力已经是十分理想的情况了。

Telsa真正有价值的在于内存，GTX作为游戏卡，单卡1G已经封顶了，而Telsa提供单卡大内存版本。很多时候一个计算模型会十分复杂，以至于1G的显存塞不进去无法计算。这种情况下必须用Telsa的卡了。

wj2000 said: ↑

ps3有现成的成品卖，而CUDA在国内好像不容易买到现成的套件，而国外那些好像价格又太贵，NVIDIA惠普携手推GPU计算入门套装，　这套集群由八台惠普ProLiant SL390 G7服务器组成，共包含24颗NVIDIA Tesla M2070 GPU、16颗Intel Xeon 5600 CPU，峰值单精度浮点性能13.5TFlops(每秒13.5万亿次)，并预装了最新的NVIDIA CUDA 4.0并行计算软件，支持C、C++、Fortran语言编程，并提供了大量的GPU加速库，比如FFT、BLAS、LAPACK、RNG、SPARSE。
这套GPU计算入门套装定价为99000美元看似天价但其实已经比此类产品的典型报价低了大约一半，而且同时还以优惠价格提供大量第三方开发工具。

现在一台ps3价格大概在3000左右。

奥，好像可以自己搭建CUDA集群平台，参看这个：
超级计算机也DIY 科学家用显卡构建最快台式机
http://www.evolife.cn/html/2009/40972.html
日期：2009-12-17 19:07:00　作者：JuestChaOS　来源：爱活网
爱活网的电脑维修砖家来不及思考同学很早就在鼓吹显卡将从CPU手中接过更多工作，其出发点尚且不提，事件预测的准确性还是挺高的。最近，比利时安特卫普大学的学生们为了课余时间的科学研究，就用了显卡构建了一套超级计算机系统，为显卡参与计算摇旗呐喊。

这台强大且廉价的超级计算机名叫Fastra II，采用了2.66GHz的英特尔Core i7处理器，华硕P6T7 主板，一个1500瓦电源和3个450瓦电源，1TB的三星硬盘，DDR3内存12GB。其主要运算部分是6块双GPU的GeForce GTX 295显卡和1块单GPU的GeForce GTX275显卡，足足7块显卡13个GPU核心！这些配件都被装在一个普通的塔式机箱里，所有的配件都是市场上能买到的民用产品。当然并不是把这些市场上买到的硬件往一起攒就可以了，还需要修改GeForce显卡的软件使其能运行计算程序，修改CentOS系统的Linux内核，为这台怪物重新构造代码。

Fastra II的CPU主要用来协调工作，而负责计算的主力是GPU构成的小型集群。借助NVIDIA的CUDA技术，7张普通的高端游戏显卡也可以达到最多每秒12万亿次浮点运算的并行处理能力。Fastra II的主要用途是医学断层扫面，X射线三维成像，绘制骨骼和器官等工作。Fastra II总共花销的计算为6000欧元，折合8791美元，比利时大学的科学家们认为这花得很值，因为Fastra II的性能达到了以前需要几百万美元才能买到的小型集群的水平，是有史以来速度最快的台式计算机之一。

我们在这里为大家提供了官方的演示视频，各位可以去参考下高玩们是怎么让一台民用游戏电脑变成迷你超级计算机的^_^。

扩展阅读：

Fastra II之前还有一台Fastra I，它诞生于2008年，总计使用了4块NVIDIA GeForce 9800 GX2 显卡，借助NVIDIA的 CUDA 技术，搭建起一个用于医学断层摄影技术的计算平台。结果他们发现，这个由8块GPU构建的系统，其性能居然比300块Intel Core 2 Duo 2.4GHz CPU的性能总和还要快，即便与该大学一个256节点的AMD Opteron 250 2.4GHz 计算集群相比，速度也不相上下。

该研究小组主要研究医学断层摄影技术的新型计算方法，由于他们处理的3D图像较为庞大（1024×1024×1024），因此基于这些数据的图形重建工作往往是普通桌面计算机所不能胜任的。最后他们想到用GPU来替代CPU完成相应的计算工作，以下是他们这台名为“FASTRA”的“超级计算机”的配置清单和机箱内部图片：

AMD Phenom 9850 processor + Scythe Infinity CPU cooler

4x MSI 9800GX2 graphics card

4x 2GB Corsair Twinx DDR2 PC6400 memory

MSI K9A2 Platinum motherboard

Samsung Spinpoint F1 750GB HDD

ThermalTake Toughpower 1500W Modular PSU

Lian-Li PC-P80 Armorsuit case

Windows XP 64-bit他们选用AMD平台的原因是INTEL平台无法支持4块NVIDIA GeForce 9800 GX2，同时借助于NVIDIA CUDA程序模型，他们甚至不需要SLI就成功地使8块GPU并行工作。值得一提的是，所有这些硬件仅花费4000欧元（美国国内的话更便宜， NewEgg的报价在3900美元左右）。

上面的信息是2009年的，现在应该有更多选择了。
Click to expand...

lvsoft · Oct 16, 2011

不推荐用GTX280系列的显卡。
这种显卡没法上CUDA SDK 1.3版。
GTX 480系列的Fermi架构针对CUDA做了很多工作的。

wj2000 said: ↑

2.66GHz的英特尔Core i7处理器，￥2000
华硕P6T7 主板，￥4500
一个1500瓦电源￥2700
3个450瓦电源￥450*3=￥1350
1TB的三星硬盘￥600
DDR3内存12GB ￥1000
6块双GPU的GeForce GTX 295显卡￥5000*6=￥30000
1块单GPU的GeForce GTX275显卡￥3000

总价大概￥45150。
Fastra II总共花销的计算为6000欧元，折合8791美元，按美元/人民币6。40折合￥56263左右。
Click to expand...

kuhasu · Oct 16, 2011

ps3最新固件依旧可以破解装linux，这个倒不是问题。
但是计算方面，不可能光单浮点。

cuda从一开始几年前就已经关注了，但是有个问题，就是现有软件平台利用gpu的问题，针对cpu优化的，不是专门支持gpu的，会在实现方面遇到相当挑战。

lvsoft said: ↑

ps3有几个问题，首先ps3的cell只开放了6个SPU，其次新版的ps3（包括老版升级了firmware之后）已经不支持安装linux了。所以实际上现在的ps3是无法使用CELL的。

IBM的插卡版本的Cell解决方案也是巨贵的。

CUDA的话，没必要用Telsa，可以用GTX480/580。GTX系列的CUDA在双精度运算方面被阉割了，速度降为1/8，此外还阉割了ECC校验。
如果程序对双精度要求不高的话，可以用单精度做。至于ECC校验的缺失，也没啥太严重的影响，大不了连续算两遍比对结果的正确性即可。

另外，就算是双精度，由于Telsa M2070实际上源于GTX480的降压版，因此8块GTX480即可达到比一块M2070略高的双精度速度，同时价格依然比一块M2070便宜。

显卡计算方面，ATI的显卡同价位下拥有比NV显卡高一个数量级的计算单元，但是ATI的显卡逻辑控制单元较弱，因此在高性能计算方面，除非是非常简单的计算模型（比如，bit coin这种纯拼hash计算能力的），否则，一般情况下ATI的显卡比NV的显卡要弱。

做个简单的类比，一块GTX470在发挥了50%的计算效率的情况下，差不多相当于i7 960全开的计算能力的10倍。

CUDA也好，Cell也好，制约计算能力的地方主要在于软件，一般发挥50%的计算能力已经是十分理想的情况了。

Telsa真正有价值的在于内存，GTX作为游戏卡，单卡1G已经封顶了，而Telsa提供单卡大内存版本。很多时候一个计算模型会十分复杂，以至于1G的显存塞不进去无法计算。这种情况下必须用Telsa的卡了。
Click to expand...

lvsoft · Oct 16, 2011

CELL这个问题一点也不比cuda简单.
CELL的设计为1个MMU+8个SPU。
其中这个MMU可以HT成2个逻辑通用处理器，性能大概相当于PIII 600MHz，另外ps3内存只有256M，扣掉OS之后只有210M可用。
Cell的计算能力全部源于这8个SPU，PS3阉割掉了2个，还剩下6个。

一个SPU为128bit向量处理器，没有内存的概念，无法直接访问内存，也没有本地cache，只有64K的LS(LocalStorage)，你需要把你的代码，以及数据全部塞进这64K的LS内，并通过合理安排DMA，通过不断的从内存向LS交换数据，来实现高性能计算。这个挑战不是一般的高~

另外不要忘了ps3只有256M内存，这个会极大的限制计算规模。你想，开个10000X10000的双精度矩阵就要消耗762M内存了。

CUDA如果需要双进度，大不了花钱买M2070即可，一块卡2W上下虽然贵，也是在合理的价位内。

kuhasu said: ↑

ps3最新固件依旧可以破解装linux，这个倒不是问题。
但是计算方面，不可能光单浮点。

cuda从一开始几年前就已经关注了，但是有个问题，就是现有软件平台利用gpu的问题，针对cpu优化的，不是专门支持gpu的，会在实现方面遇到相当挑战。
Click to expand...

kuhasu · Oct 16, 2011

看来cpu集群加部分cuda才比较好~
不过现有软件工具如果加一个计算传输模块，把浮点计算交给gpu，中间数据传输，应该也是会有效率损失的，而且还得把浮点的运算内容分出来。。。。这个分的过程，在cpu估计都算完了~

lvsoft said: ↑

CELL这个问题一点也不比cuda简单.
CELL的设计为1个MMU+8个SPU。
其中这个MMU可以HT成2个逻辑通用处理器，性能大概相当于PIII 600MHz，另外ps3内存只有256M，扣掉OS之后只有210M可用。
Cell的计算能力全部源于这8个SPU，PS3阉割掉了2个，还剩下6个。

一个SPU为128bit向量处理器，没有内存的概念，无法直接访问内存，也没有本地cache，只有64K的LS(LocalStorage)，你需要把你的代码，以及数据全部塞进这64K的LS内，并通过合理安排DMA，通过不断的从内存向LS交换数据，来实现高性能计算。这个挑战不是一般的高~

另外不要忘了ps3只有256M内存，这个会极大的限制计算规模。你想，开个10000X10000的双精度矩阵就要消耗762M内存了。

CUDA如果需要双进度，大不了花钱买M2070即可，一块卡2W上下虽然贵，也是在合理的价位内。
Click to expand...

lvsoft · Oct 16, 2011

kuhasu said: ↑

看来cpu集群加部分cuda才比较好~
不过现有软件工具如果加一个计算传输模块，把浮点计算交给gpu，中间数据传输，应该也是会有效率损失的，而且还得把浮点的运算内容分出来。。。。这个分的过程，在cpu估计都算完了~
Click to expand...

CPU承担一部分，GPU/Cell承担一部分也是可以的。但对程序设计会提出非常高的挑战。
CPU十分适合通用逻辑，对于计算密集型的较为无力。而GPU/Cell就十分适合大规模计算。问题是你的应用很难明确的划分好两者的界限。所以两者合作的粒度如果很细，那么通过DMA不断启动GPU/Cell损失的时间就会抵消加速运行的效果。如果粒度很粗,那么代码中很容易混入if分支逻辑，而这个东西GPU/Cell是很难有效处理的。

说的再简单一点，GPU/Cell里面的代码是不允许出现if的。（实际上可以出现，但会极大的降低效率）。

kuhasu · Oct 16, 2011

明白了~谢谢~

laserhz · Oct 16, 2011

呵呵，金钱豹新版有云计算功能，各位有多台计算机在家的可以共享下，设置非常简单。
每个内网的多台计算机可以组成一台超级计算机，加入金钱豹云，在金钱豹软件和网站的相关页面会有提供者的资料，个人和公司都可以加入。目前要求是提供计算机的CPU频率总和不少于10G！
金钱豹云目前免费为大家提供！
呵呵！

laserhz · Oct 16, 2011

金钱豹新版中模型工厂利用多核并行和云技术，以及遗传算法，为您以前模型优化参数的工作减少2到3个数量级的工作时间！