Fusion: processadores com GPU integrada da AMDPublicado em 13/11/2009 – 18:20 por Carlos Morimoto
A maior parte dos ganhos de desempenho que tivemos ao longo da evolução dos processadores surgiu como resultado da incorporação de mais componentes e não apenas do aumento da frequência de clock ou da sofisticação das unidades de processamento.
O 486 foi o primeiro a incorporar cache L1 e o coprocessador aritmético, o Pentium foi o primeiro a usar uma arquitetura superescalar (mais de uma unidade de processamento), o Pentium Pro incorporou chace L2, o Athlon 64 trouxe um controlador de memória integrado, o Athlon X2 trouxe dois núcleos em um único die, o Phenom X4 dobrou a oferta com 4 núcleos e um cache L3 compartilhado e o Lynnfield incorporou as linhas PCI-Express e o que restava da ponte norte do chipset.
Toda essa integração tem dois motivos centrais. O primeiro (e mais óbvio) é o aumento do desempenho, já que dentro do processador estes componentes podem operar a clocks mais altos e se comunicarem com outros componentes através de trilhas muito mais curtas, reduzindo os tempos de espera.
A maior parte dos ganhos de desempenho que tivemos ao longo da evolução dos processadores surgiu como resultado da incorporação de mais componentes e não apenas do aumento da frequência de clock ou da sofisticação das unidades de processamento.
O 486 foi o primeiro a incorporar cache L1 e o coprocessador aritmético, o Pentium foi o primeiro a usar uma arquitetura superescalar (mais de uma unidade de processamento), o Pentium Pro incorporou chace L2, o Athlon 64 trouxe um controlador de memória integrado, o Athlon X2 trouxe dois núcleos em um único die, o Phenom X4 dobrou a oferta com 4 núcleos e um cache L3 compartilhado e o Lynnfield incorporou as linhas PCI-Express e o que restava da ponte norte do chipset.
Toda essa integração tem dois motivos centrais. O primeiro (e mais óbvio) é o aumento do desempenho, já que dentro do processador estes componentes podem operar a clocks mais altos e se comunicarem com outros componentes através de trilhas muito mais curtas, reduzindo os tempos de espera.
A segunda questão tem a ver com as margens de lucro. Se um PC usa um processador AMD e um chipset nVidia, significa que cada uma ficou com uma parte do bolo. Se a AMD consegue incorporar todos os componentes dentro do processador, pode cobrar um pouco mais por ele e ainda por cima se livra da concorrente. Mesmo em casos em que a AMD ou a Intel venderia também o chipset, incorporar os componentes no processador é vantajoso, já que sai mais barato do que fabricar dois chips separados.
O termo "APU" significa "Accelerated Processing Unit" e é usado em relação aos novos processadores com chipsets 3D integrados. Quando falamos em chipsets 3D vem à mente uma solução de alto desempenho, como um GT200 (GeForce 2xx) ou um Cypress (Radeon HD 5850), mas a primeira geração de processadores com GPUs integradas oferecem GPUs mais modestas, criando uma opção intermediária entre os chipset de vídeo onboard e as placas 3D mid-range.
Assim como as placas 3D onboard, as GPUs integradas ao processador utilizam memória compartilhada, dividindo o acesso à memória RAM com o processador. Entretanto, eles possuem uma vantagem importante, que é o acesso direto ao controlador de memória integrado, com tempos de acesso bastante baixos. Com o uso de memórias DDR3 e dual-channel, os PCs atuais dispõem de um barramento bastante largo com a memória, que permite o uso de GPUs relativamente poderosas.
Outro ponto importante é que com a GPU integrada ao processador, os upgrades de CPU ganham um atrativo adicional, já que além de mais poder de processamento, existe a possibilidade de aumentar também o desempenho 3D.
O termo "APU" significa "Accelerated Processing Unit" e é usado em relação aos novos processadores com chipsets 3D integrados. Quando falamos em chipsets 3D vem à mente uma solução de alto desempenho, como um GT200 (GeForce 2xx) ou um Cypress (Radeon HD 5850), mas a primeira geração de processadores com GPUs integradas oferecem GPUs mais modestas, criando uma opção intermediária entre os chipset de vídeo onboard e as placas 3D mid-range.
Assim como as placas 3D onboard, as GPUs integradas ao processador utilizam memória compartilhada, dividindo o acesso à memória RAM com o processador. Entretanto, eles possuem uma vantagem importante, que é o acesso direto ao controlador de memória integrado, com tempos de acesso bastante baixos. Com o uso de memórias DDR3 e dual-channel, os PCs atuais dispõem de um barramento bastante largo com a memória, que permite o uso de GPUs relativamente poderosas.
Outro ponto importante é que com a GPU integrada ao processador, os upgrades de CPU ganham um atrativo adicional, já que além de mais poder de processamento, existe a possibilidade de aumentar também o desempenho 3D.
A AMD vem trabalhando no desenvolvimento de processadores com GPUs integradas desde a compra da ATI (ou possivelmente até antes), o que deu origem ao projeto Fusion. A ideia inicial era começar com um processador e um chipset de vídeo dentro do mesmo encapsulamento, interligados através de um link HyperTransport (similar ao Clarkdale da Intel), mas a ideia acabou sendo abandonada em favor da segunda fase, com os dois componentes integrados no mesmo die.
Isso nos leva ao Llano, cujo lançamento está agendado para 2011. Ele é um processador quad-core destinado ao mercado mainstream, que combina 4 núcleos similares ao do Athlon II X4 (512 KB de cache L2 por núcleo, sem cache L3 compartilhado) com 6 SIMD engines (com 80 stream processors cada uma) para o processamento 3D, com suporte ao DirectX 11.
Com um total de 480 stream processors, o desempenho 3D por clock do Llano deve ficar entre o oferecido pela Radeon HD 4650 (que possui 320 stream processors) e o da Radeon HD 4750, que possui 640. A grande incógnita fica por conta da frequência de clock, já que a Radeon HD 4750 (que é produzida usando uma técnica de 40 nm) utiliza um clock de apenas 650 MHz para a GPU. É bem provável que as SIMD engines do Llano operem a clocks bem mais altos, o que pode fazer com que ele apresente um desempenho similar ou até superior.
Outra questão importante é o acesso à memória. A Radeon HD 4750 utiliza um barramento de 128 bits e memórias GDDR5 (que assim como as DDR3 oferecem 8 transferências por ciclo de clock) operando a 800 MHz. Em termos e largura de banda, isso equivale ao oferecido por dois módulos DDR3 PC-1600 em dual-channel, uma configuração que deverá ser padrão nos PCs de 2011. O grande problema é que o barramento com a memória no Llano será compartilhado entre a CPU e a GPU, o que significa um desempenho potencialmente mais baixo, porém ainda bem superior ao oferecido pelo Intel Clarkdale e suficiente para rodar jogos atuais em resoluções medianas.
O Llano será produzido usando um técnica de 32 nanômetros e possuirá cerca de 1 bilhão de transístores, sendo 300 milhões destinados aos 4 núcleos, 600 milhões destinados à GPU e o restante destinado aos circuitos de apoio. Assim como os demais processadores da safra atual, ele usa um controlador de memória integrado, que é uma peça essencial para garantir baixos tempos de latência para a GPU.
Ele será um processador de baixo custo, destinado a suceder o Athlon II X4 atual. Ele provavelmente oferecerá um bom custo-benefício para quem precisa de um PC para tarefas básicas e jogos (e também uma boa plataforma de baixo consumo para notebooks), mas com certeza não interessará muito para quem quer um sistema de alto desempenho.
O Llano faz parte da plataforma "Lynx" (uma homenagem ao célebre navegador em modo texto? :), que inclui também o chipset, assim como a plataforma "Dragon" atual, que é composta pela combinação do Phenom II uma placa baseada no chipset AMD 790 e uma Radeon HD 4xxx.
O passo seguinte é a plataforma Bulldozer, que será o sucessor do Phenom II como plataforma de alto desempenho. Ele trará uma resposta ao Hyper-Threading da Intel, na forma de uma duplicação das unidades de processamento de inteiros, que oferecerá a possibilidade de processar dois threads por core, com cada um utilizando um conjunto separado de unidades de processamento. Diferente do Llano, que utilizará a GPU integrada como uma simples aceleradora 3D, o Bulldozer a utilizará como um processador auxiliar para o processamento de operações de ponto flutuante, o que deverá trazer ganhos em diversas áreas.
A primeira encarnação da plataforma Bulldozer será o Zambezi, um processador AM3, que será lançado em versões com 4 e 8 cores. Ele será sem dúvidas consideravelmente mais rápido que os Phenom II atuais graças ao processamento de dois threads por núcleo e outras melhorias, mas ele ainda não trará a GPU integrada, que ficará para o próximo processador, agendado para 2012.
No outro extremo temos o Ontario um processador de baixo consumo, otimizado para o uso em netbooks e notebooks ultraportáteis, concorrendo com o Atom:
Assim como o Llano, ele incluirá uma GPU com suporte ao DirectX 11 e oferecerá suporte a memórias DDR3. Entretanto, ele utilizará uma arquitetura simplificada, com apenas dois núcleos e otimizada para um baixo consumo elétrico. Ele será composto por dois núcleos Bobcat, combinados com uma GPU:
O slide da AMD fala em um consumo "inferior a 1 watt" e "90% do desempenho de um processador mainstream atual", mas é importante entender que não é possível ter as duas coisas ao mesmo tempo. Assim como todos os processadores móveis, o clock será variável e o "consumo inferior a 1 watt" será atingido apenas em frequências baixas de processamento. Para atingir os "90% do desempenho de um processador mainstream atual" o consumo será várias vezes maior.
Atualmente, a AMD possui apenas uma versão de baixo consumo do Athlon 64 (o L110, de 1.2 GHz), que é usado em alguns netbooks como o Gateway LT3103u. Ele é ainda um processador de 65 nm, que oferece um desempenho consideravelmente superior que o Atom, mas perde com relação ao consumo elétrico devido à técnica antiquada de fabricação.
A Intel tem cultivado uma relação ambígua com o Atom, de um lado se esforçando para que ele seja usado em várias classes de dispositivos, mas de outro capando a plataforma para que ele não prejudique as vendas das versões de baixo consumo do Core 2 Duo. Isso torna a plataforma um alvo fácil para um concorrente da AMD.
Desde o Core 2 Duo, a Intel vêm mantendo um ritmo constante de lançamentos, com o lançamento de novas arquiteturas e a migração para novas técnicas de fabricação em anos alternados, uma cadência batizada de "Tick-Tock".
Com o Fusion, a AMD decidiu cunhar um termo mercadológico concorrente, o "Velocity". Em vez de ser baseado em novas arquiteturas ou novas técnicas de fabricação, o "Velocity" é baseado no lançamento de processadores com GPUs mais poderosas a cada 12 meses. Naturalmente, isso também implica em novas arquiteturas e novas técnicas de fabricação, mas a ênfase é dada ao desempenho 3D. Como pode imaginar, o objetivo da estratégia é incentivar os upgrades, já que ao atualizar o processador, você ganha também uma GPU integrada mais rápida.
Isso nos leva ao Llano, cujo lançamento está agendado para 2011. Ele é um processador quad-core destinado ao mercado mainstream, que combina 4 núcleos similares ao do Athlon II X4 (512 KB de cache L2 por núcleo, sem cache L3 compartilhado) com 6 SIMD engines (com 80 stream processors cada uma) para o processamento 3D, com suporte ao DirectX 11.
Com um total de 480 stream processors, o desempenho 3D por clock do Llano deve ficar entre o oferecido pela Radeon HD 4650 (que possui 320 stream processors) e o da Radeon HD 4750, que possui 640. A grande incógnita fica por conta da frequência de clock, já que a Radeon HD 4750 (que é produzida usando uma técnica de 40 nm) utiliza um clock de apenas 650 MHz para a GPU. É bem provável que as SIMD engines do Llano operem a clocks bem mais altos, o que pode fazer com que ele apresente um desempenho similar ou até superior.
Outra questão importante é o acesso à memória. A Radeon HD 4750 utiliza um barramento de 128 bits e memórias GDDR5 (que assim como as DDR3 oferecem 8 transferências por ciclo de clock) operando a 800 MHz. Em termos e largura de banda, isso equivale ao oferecido por dois módulos DDR3 PC-1600 em dual-channel, uma configuração que deverá ser padrão nos PCs de 2011. O grande problema é que o barramento com a memória no Llano será compartilhado entre a CPU e a GPU, o que significa um desempenho potencialmente mais baixo, porém ainda bem superior ao oferecido pelo Intel Clarkdale e suficiente para rodar jogos atuais em resoluções medianas.
O Llano será produzido usando um técnica de 32 nanômetros e possuirá cerca de 1 bilhão de transístores, sendo 300 milhões destinados aos 4 núcleos, 600 milhões destinados à GPU e o restante destinado aos circuitos de apoio. Assim como os demais processadores da safra atual, ele usa um controlador de memória integrado, que é uma peça essencial para garantir baixos tempos de latência para a GPU.
Ele será um processador de baixo custo, destinado a suceder o Athlon II X4 atual. Ele provavelmente oferecerá um bom custo-benefício para quem precisa de um PC para tarefas básicas e jogos (e também uma boa plataforma de baixo consumo para notebooks), mas com certeza não interessará muito para quem quer um sistema de alto desempenho.
O Llano faz parte da plataforma "Lynx" (uma homenagem ao célebre navegador em modo texto? :), que inclui também o chipset, assim como a plataforma "Dragon" atual, que é composta pela combinação do Phenom II uma placa baseada no chipset AMD 790 e uma Radeon HD 4xxx.
O passo seguinte é a plataforma Bulldozer, que será o sucessor do Phenom II como plataforma de alto desempenho. Ele trará uma resposta ao Hyper-Threading da Intel, na forma de uma duplicação das unidades de processamento de inteiros, que oferecerá a possibilidade de processar dois threads por core, com cada um utilizando um conjunto separado de unidades de processamento. Diferente do Llano, que utilizará a GPU integrada como uma simples aceleradora 3D, o Bulldozer a utilizará como um processador auxiliar para o processamento de operações de ponto flutuante, o que deverá trazer ganhos em diversas áreas.
A primeira encarnação da plataforma Bulldozer será o Zambezi, um processador AM3, que será lançado em versões com 4 e 8 cores. Ele será sem dúvidas consideravelmente mais rápido que os Phenom II atuais graças ao processamento de dois threads por núcleo e outras melhorias, mas ele ainda não trará a GPU integrada, que ficará para o próximo processador, agendado para 2012.
No outro extremo temos o Ontario um processador de baixo consumo, otimizado para o uso em netbooks e notebooks ultraportáteis, concorrendo com o Atom:
Assim como o Llano, ele incluirá uma GPU com suporte ao DirectX 11 e oferecerá suporte a memórias DDR3. Entretanto, ele utilizará uma arquitetura simplificada, com apenas dois núcleos e otimizada para um baixo consumo elétrico. Ele será composto por dois núcleos Bobcat, combinados com uma GPU:
O slide da AMD fala em um consumo "inferior a 1 watt" e "90% do desempenho de um processador mainstream atual", mas é importante entender que não é possível ter as duas coisas ao mesmo tempo. Assim como todos os processadores móveis, o clock será variável e o "consumo inferior a 1 watt" será atingido apenas em frequências baixas de processamento. Para atingir os "90% do desempenho de um processador mainstream atual" o consumo será várias vezes maior.
Atualmente, a AMD possui apenas uma versão de baixo consumo do Athlon 64 (o L110, de 1.2 GHz), que é usado em alguns netbooks como o Gateway LT3103u. Ele é ainda um processador de 65 nm, que oferece um desempenho consideravelmente superior que o Atom, mas perde com relação ao consumo elétrico devido à técnica antiquada de fabricação.
A Intel tem cultivado uma relação ambígua com o Atom, de um lado se esforçando para que ele seja usado em várias classes de dispositivos, mas de outro capando a plataforma para que ele não prejudique as vendas das versões de baixo consumo do Core 2 Duo. Isso torna a plataforma um alvo fácil para um concorrente da AMD.
Desde o Core 2 Duo, a Intel vêm mantendo um ritmo constante de lançamentos, com o lançamento de novas arquiteturas e a migração para novas técnicas de fabricação em anos alternados, uma cadência batizada de "Tick-Tock".
Com o Fusion, a AMD decidiu cunhar um termo mercadológico concorrente, o "Velocity". Em vez de ser baseado em novas arquiteturas ou novas técnicas de fabricação, o "Velocity" é baseado no lançamento de processadores com GPUs mais poderosas a cada 12 meses. Naturalmente, isso também implica em novas arquiteturas e novas técnicas de fabricação, mas a ênfase é dada ao desempenho 3D. Como pode imaginar, o objetivo da estratégia é incentivar os upgrades, já que ao atualizar o processador, você ganha também uma GPU integrada mais rápida.
0 comentários:
Postar um comentário