Não há como escapar! Cedo ou tarde (seja daqui a alguns anos ou até mesmo décadas), a Lei de Moore chegará ao seu fim. A cada 2 ou 3 anos, está sendo cada vez mais difícil avançar na redução do processo de litografia, o qual possibilita construir chips com maior densidade de transistores. Há alguns anos, vimos a Intel anunciar tecnologias como o High-K/Metal-Gate (camada dielétrica baseada em materiais alternativos) e o Tri-Gate (transistores em 3D), para contornar os problemas relacionados ao processo de litografia…
“Google researchers have published a paper describing what they call “mercurial” cores. Mercurial cores are cores that are subject to what Google calls “corrupt execution errors,” or CEEs. One critical component of CEEs is that they are silent. We expect CPUs to fail in some noticeable way when they miscalculate a value, whether that results in an OS reboot, application crash, error message, or garbled output. That does not happen in these cases. CEEs are symptoms of what Google calls “silent data corruption,” or the ability for data to become corrupted when written, read, or at rest without the corruption being immediately detected.”
— by ExtremeTech.
Mais à frente, também a vimos reformular a sua estratégia Tic-Toc por um modelo de três ciclos (que não vem dando lá muito certo) em vista das suas dificuldades de migrar para a litografia de 14nm (que recebeu um monte de plus durante esse período) para a litografia de 10nm. E apesar dos demais concorrentes continuarem avançando neste sentido, tanto elas quanto a Intel certamente encontrarão mais percalços durante este percurso. O problema é que estes problemas já possuem nomes e ao contrário dos anteriores, é silencioso e traiçoeiro, não dando chances para detectarmos a tempo!
Pesquisadores do Google já estão cientes disso, através das análises estatísticas de um problema que já existe há tempos, mas que têm aumentado gradativamente conforme a redução dos processos de litografia: o ECC (Corrupt Execution Erros). Trata-se de falhas esperadas no funcionamento de núcleos “mercuriais” (nome dado a estas unidades, por serem suscetíveis a estas falhas), levando a ocorrência de erros na execução de cálculos que gerem corrupção de dados. A consequência destes erros variam desde a gravação de dados corrompidos (e que não são percebidos de imediato) a problemas de estabilidade no funcionamento das máquinas, como a reinicialização do sistema, o fechamento inesperado do arquivo, erros de GPF, entre outros.
Até então, a apresentação destas falhas era algo esperado, conforme a exposição das unidades multi-nucleares a altas cargas de trabalho, além de valores de frequências, voltagens e temperaturas, sem contar ainda o natural envelhecimento destas unidades. No entanto, de uns tempos para cá, estas falhas vêm surgindo de modo mais imprevisível, com defeitos aparecendo de forma repetitiva e interminente, sendo agravados de acordo com a idade das CPUs, além da adoção de processos de litografia mais reduzidos. Se continuar assim, se tornará mais difícil para os fabricantes de chips do mercado – independente da marca – garantirem a confiabilidade de suas unidades!
CPUs “mercuriais”, SSDs dotados de chips QLC e PLC, memórias RAM de altíssima frequência, chips com refrigeração passiva… eita, futuro sombrio! &;-D