CPU mais rapida do mercado......

por **msamsoniuk** » 19 Nov 2010 11:58

depende da aplicacao. eu nao estou muito por dentro dos reference designs, mas os reference designs da freescale sao relativamente bem acessiveis. por exemplo, essa aqui com 1+5 interfaces GbE e PCI:

http://parts.digikey.com/1/parts/142559 ... e-rdb.html

ou esta aqui, que eh o reference design que eu usei para testar:

http://parts.digikey.com/1/parts/186599 ... db-pa.html

alem deles, tem produtos comerciais de alta performance que jah usam o P4080 octo-core a 1.5GHz, mas que devem custar seu peso em diamantes:

http://www.cwcembedded.com/svme-186.htm

chipselect escreveu:o Marcelo já me convenceu a abandonar o PC x86 a algum tempo...

quero um computador com powerpc... só falta achar um fácil pra comprar e, o mais importante, meio barato pq sou pobre...

alguém tem alguma opção barata, sem ser Power Mac?

por **fabim** » 19 Nov 2010 12:01

Sei sei sei.
Estou vendo estas discuções. E onde pé rapados, feito nós todos, iremos usar essas anarquias ?

To mechendo om um freescale de 460mhz, to achando de mais da conta!!! eu imagino esse negocio ai!!!

por **msamsoniuk** » 19 Nov 2010 12:04

chipselect escreveu:pois é, mas o sistema com o Roadrunner tem 360 dual-core Opteron, não é gpu...

ok, o roadrunner, segundo o wikpedia, tem 720 cores PowerXCell, mas porque esses Opteron? O PowerPC não seria superior à arquitetura x86, ou esses AMD Opteron não são derivados de x86?

"The hybrid design consists of dual-core Opteron server processors manufactured by AMD using the standard AMD64 architecture. Attached to each Opteron core is a Cell processor manufactured by IBM and Sony in it PlayStation 3 and Toshiba using Power Architecture technology. As a supercomputer, the Roadrunner is considered an Opteron cluster with Cell accelerators, as each node consists of a Cell attached to an Opteron core and the Opterons to each other"

e note que sao 13824 cores opteron de 1.8GHz vs 116640 cores cell de 3.2GHz:

Opteron

AMD Opteron 2210, running at 1.8 GHz. These are processors with two general purpose cores each. Opterons are used both in the computational nodes feeding the Cells with useful data and in the system operations and communication nodes passing data between computing nodes and helping the operators running the system. Roadrunner has a total of 6,912 Opteron processors (6,480 computation, 432 operation), for a total of (12,960+864) 13,824 cores.

PowerXCell

IBM PowerXCell 8i, running at 3.2 GHz. These processors have one general purpose core (PPE), and eight special performance cores (SPE) for floating point operations. Roadrunner has a total of 12,960 PowerXCell processors, with 12,960 PPE cores and 103,680 SPE cores, for a total of 116,640 cores.

por **polesapart** » 19 Nov 2010 13:27

Eu tava comentando a *notícia* (se posso chamar assim) que o colega postou.

O roadrunner é um projeto anunciado em 2006 e que entrou em operação parcial em 2008, e não fiz referências a isto. A idéia de GPGPU, embora seja mais ou menos desta época, só começou a tomar forma comercial em 2008, e a IBM só divulgou (oficialmente) que pretende embarcar nesta onda no começo de 2010.

Roadrunner = supremacia do paradigma cell.
Tianhe-1A = Adota o paradigma GPGPU, que (embora customizado) na teoria tem mais escalabilidade, na prática embora isto tenha sido demonstrado em testes de longa escala (onde o bicho alcançou o recorde de 2.57 teraflops), o equipamento ainda demonstra instabilidades.

Note que o Tianhe-1A também tem uma porrada de processadores genéricos, além dos dedicados da NVidia (Tesla). Se lembro bem, tem bem mais genéricos do que os Tesla, os números eu não recordo.

A questão é que isto tudo ainda é muito novo, mas se a IBM está vendo nisto um futuro promissor, é provavelmente porque além de escalar para super computadores, numa configuração menor, a coisa já bate o cell. Mas nada impede da ibm botar um powerpc integrado a uma ""gpgpu"", dando um upgrade nos núcleos auxiliares do cell :-)

por **msamsoniuk** » 19 Nov 2010 16:14

eu acho q eles estao querendo fazer um com GPU para ver como eh e depois fazer o deles... ohh nao! estou sendo tomado por mais um ataque de futurologia: dentro de 5 anos 90% das placas de video do planeta vao utilizar os "PowerGPs" da ibm! +_+

por **polesapart** » 20 Nov 2010 10:35

PowerGPs ahuehuaeueahuhuaehuaeuhae

por **msamsoniuk** » 20 Nov 2010 12:26

polesapart escreveu:PowerGPs ahuehuaeueahuhuaehuaeuhae

o pior eh que eu acho que nao eh piada nao... os PowerNPs (powerpc com network processor) jah estao por aih faz um tempo:

http://ieeexplore.ieee.org/xpl/freeabs_ ... er=5388932

e o cell nao deixa de ser uma tentativa timida de colocar processamento vetorial de GPU em um PowerPC, lembrando que por pelo menos duas vezes a IBM guiou o mercado no segmento de placas de video avancadas:

- a PCG era um sanduiche de duas placas contendo um 8088, um 8087 e software para acelerar o processamento grafico 2D e 3D e era infinitamente mais veloz que o CGA padrao da epoca:

http://en.wikipedia.org/wiki/Profession ... Controller

- a 8514/A era um conjunto de ASICs capaz de acelerar o desenho de graficos 2D e era infinitamente mais veloz que o VGA padrao da epoca:

http://en.wikipedia.org/wiki/IBM_8514

daqui a pouco eles aparecem com algo absurdo novamente. o estranho eh todo mundo copia a ibm logo depois, eles perdem a lideranca de mercado e nao se preocupam muito com isso.

mas convenhamos... um powerpc de 1GHz ateh que nao se dah tao mal assim fazendo tudo na base da forca bruta:

http://www.youtube.com/watch?v=SZDusxG13QQ

por **mastk** » 21 Nov 2010 18:28

Mas sam ha um problema:

Tal como aconteceu com o sega sartuno, como comentaram.

Programar o playstation 3 eh complexo e como a grande maioria dos programadores sao uns bostas, a performace do cell esta sendo jogada no lixo.

Ha dois casos graves atualmente:

Bayoneta, que a ver do PS3 eh muito pobre frente a do 360.

Super Street Fighter 4: Todos os golpes no PS3 tem 2 frames de atraso, o que eh nojento para um jogo de luta.

O PS3 tem mais potencia bruta que o 360, mas nem a Konami em peso conseguiu bons resultados.

por **enigmabox** » 21 Nov 2010 20:46

Bayoneta, que a ver do PS3 eh muito pobre frente a do 360.

Super Street Fighter 4: Todos os golpes no PS3 tem 2 frames de atraso, o que eh nojento para um jogo de luta.

O PS3 tem mais potencia bruta que o 360, mas nem a Konami em peso conseguiu bons resultados.

Será que o monte de nucleos do Cell do PS3 não estão" batendo cabeças" como o X6 da AMD? Será que para sistemas não profissionais, um monte de nucleos na CPU atrapalha mais e tem menos eficiencia?

por **Jozias del Rios** » 21 Nov 2010 22:30

esse "bater cabeças" da AMD é devido ao que? overhead de multi-core?

por **msamsoniuk** » 22 Nov 2010 00:30

o ps3 nao tem o mesmo poder computacional do xbox!

em primeiro lugar, o ps3 possui um unico core G5 de 3.2GHz, enquanto o xbox possui 3 cores G5 de 3.2GHz rodando em SMP. portanto, para softwares convencionais o xbox eh 3x mais veloz que o ps3.

ah sim, daih o ps3 possui 7 SPEs, que pouca gente entende como funciona. se somar a suposta performance das SPEs, vc atinge 2 teraflops e consegue bater o xbox facil.

o problema eh encontrar quem saiba usar as SPEs. eh mais facil dividir o programa comum em threads e espalhar em SMP no xbox do que entender como funciona as SPEs do ps3.

e sem usar as SPEs, o ps3 realmente fica para tras!

mastk escreveu:Mas sam ha um problema:

Tal como aconteceu com o sega sartuno, como comentaram.

Programar o playstation 3 eh complexo e como a grande maioria dos programadores sao uns bostas, a performace do cell esta sendo jogada no lixo.

Ha dois casos graves atualmente:

Bayoneta, que a ver do PS3 eh muito pobre frente a do 360.

Super Street Fighter 4: Todos os golpes no PS3 tem 2 frames de atraso, o que eh nojento para um jogo de luta.

O PS3 tem mais potencia bruta que o 360, mas nem a Konami em peso conseguiu bons resultados.

por **msamsoniuk** » 22 Nov 2010 01:07

eh que nos sistemas SMP a memoria eh compartilhada!

para entender melhor como eh a dinamica de processadores vs memoria, veja o resultado do meu teste com uma thread soh apenas... no caso da memoria, ele chega a 2.5 GB/s:

Código: Selecionar todos: marcelo@marcelo-samsoniuks-macbook:~$ ./mem_super 1 running 1 memcpy8 5.000 GB R/W in 3558827 us: total bandwidth of 1.405 GB/s memcpy16 5.000 GB R/W in 2023016 us: total bandwidth of 2.472 GB/s memcpy32 5.000 GB R/W in 1998478 us: total bandwidth of 2.502 GB/s memcpy64 5.000 GB R/W in 1968712 us: total bandwidth of 2.540 GB/s f-vector 600.000 iMACs in 2678413 us (0.224 GMAC/s and 1.344 GB/s) i-vector 600.000 fMACs in 2487810 us (0.241 GMAC/s and 1.447 GB/s)

mas no processamento bruto ali soh consome 1.4GB/s pq o core2 duo nao eh eficiente o bastante para passar de 241 MMAC/s. no fundo, um unico core nao aproveita totalmente o bandwidth da memoria!

esse processador deveria atingir picos de 4000 MMAC/s rodando a 2.1GHz, porem o resultado de MMAC/s eh baixo assim pq estou simulando uma das operacoes necessarias para calculo 3D em uma superficie gigantesca, de modo que o processador nao consegue guardar na cache de dados e portanto a performance cai lah embaixo. digamos que 4000 MMAC/s eh a performance PMPO e 241 MMAC/s eh a performance RMS!

jah com duas threads, percebe-se claramente uma divisao da ordem de 1.25GB/s para cada core no memcpy, o que mostra que os cores em SMP dividem o bandwidth de 2.5GB/s disponivel para a memoria:

Código: Selecionar todos: marcelo@marcelo-samsoniuks-macbook:~$ ./mem_super 2 running 1 running 2 memcpy8 2.500 GB R/W in 2327548 us: total bandwidth of 1.074 GB/s memcpy8 2.500 GB R/W in 2347979 us: total bandwidth of 1.065 GB/s memcpy16 2.500 GB R/W in 1944252 us: total bandwidth of 1.286 GB/s memcpy16 2.500 GB R/W in 1998192 us: total bandwidth of 1.251 GB/s memcpy32 2.500 GB R/W in 1983569 us: total bandwidth of 1.260 GB/s memcpy32 2.500 GB R/W in 1980182 us: total bandwidth of 1.263 GB/s memcpy64 2.500 GB R/W in 1936604 us: total bandwidth of 1.291 GB/s memcpy64 2.500 GB R/W in 2012426 us: total bandwidth of 1.242 GB/s f-vector 300.000 iMACs in 1518103 us (0.198 GMAC/s and 1.186 GB/s) f-vector 300.000 iMACs in 1515364 us (0.198 GMAC/s and 1.188 GB/s) i-vector 300.000 fMACs in 1479384 us (0.203 GMAC/s and 1.217 GB/s) i-vector 300.000 fMACs in 1484791 us (0.202 GMAC/s and 1.212 GB/s)

existe uma pequena reducao no processamento bruto, mas agora temos praticamente 1.2GB/s por core, portanto temos o aproveitamento total do bandwidth disponivel e atingimos mais de 400MMAC/s somando o procesamento dos dois cores, quase dobrando o desempenho de um core apenas. aqui a nossa performance PMPO deveria ser de 8000 MMAC/s, mas conseguimos uma performance RMS de apenas 400 MMAC/s, nitidamente nivelado pelo bandwidth da memoria.

disso vc conclui tb que adicionar mais cores nao resultaria em nenhuma melhora, pq daih estariamos dividindo 2.5GB/s em 4 e com isso teriamos apenas 0.6 GB/s por core, o que nivelaria a performance em apenas 100 MMAC/s por core e totalizaria os mesmos 400 MMAC/s que se consegue com 2 cores.

bom, eu soh acho engracado o seguinte: em tese cada core consegue 4000 MMAC/s se rodar na cache e 400 MMAC/s se rodar puxando da memoria. soh que mesmo assim, rodando com memoria livre, um core nao passa de 240 MMAC/s.

suspeito e estranho nao?

tem outras coisas suspeitas e estranhas: em single thread, o powerpc P2020 de 1GHz e memoria mais lenta chegou a 300 MMAC/s simplesmente pq ocupou o bandwidth total da memoria da ordem de 1.8GB/s. no teste com duas threads, alguma coisa absolutamente fora da realidade aconteceu: o powerpc somou 520 MMAC/s e totalizou 3GB/s de bandwidth. eu dei uma analisada no codigo e nao consegui entender: nao estou usando threads. as areas de memoria nao sao compartilhadas e estamos falando de areas gigantescas, nao teria como ele cachear isso.

a magica ae eh que estes 3GB/s sao muito maiores que o pico conseguido pelo intel, que foi de 2.5GB/s. detalhe sinistro: o intel possui DDR2 que roda a 30% mais rapido que o do powerpc.

e cade os ARMs "parrudos" do forum para rodar o benchmark?

enigmabox escreveu:
Bayoneta, que a ver do PS3 eh muito pobre frente a do 360.

Super Street Fighter 4: Todos os golpes no PS3 tem 2 frames de atraso, o que eh nojento para um jogo de luta.

O PS3 tem mais potencia bruta que o 360, mas nem a Konami em peso conseguiu bons resultados.

Será que o monte de nucleos do Cell do PS3 não estão" batendo cabeças" como o X6 da AMD? Será que para sistemas não profissionais, um monte de nucleos na CPU atrapalha mais e tem menos eficiencia?

por **Jorge_Francisco** » 22 Nov 2010 06:35

Marcelo Samsoniuk escreveu:
e cade os ARMs "parrudos" do forum para rodar o benchmark?

[

Estão processando ainda, peraeeee....

por **fabim** » 22 Nov 2010 06:46

Cara eu olhando e explicação do samsonite!!!

Me veio uma coisa agora em mente.

Imaginem o seguinte, você tem um intel 2.26ghz, DDR 533mhz....
E por algum motivo o cache do processador tava dando pau, você vai na bios e desabilita o cache.

Como eu jamais tinha prestando atenção em algo tão lógico, eu não parei pra observar que o meu processador ficou limitado somente aos 533mhz da largura da banda do barramento da memoria!!!! E por este motivo, a mais de 1 ano o PC parece uma carroça, e me lembrei que foi bem na epoca que eu li a bagaça no clube do hw e desabilitei a bagaceira!!!
PQP como não observar as coisas direito, nos causa transtornos!!! Jizuis!!!

por **Jozias del Rios** » 22 Nov 2010 06:51

Pior que os 533MHz que dão 1066MT/s, fabim, é que a memória DDR tem uma latência muito alta, do momento que vc pede alguma coisa, até o momento que vc tem o que vc quer...

É até possivel que os testes do Samsoniuk para os Intel estão sendo prejudicados por stall de memoria DDR, falta de precaching

CPU mais rapida do mercado......

Quem está online