슈퍼컴퓨터의 가장 큰 한계는 무엇입니까?





슈퍼컴퓨터는 매우 크고 어려운 문제를 신속하게 해결하도록 제작되었습니다. 단일 프로세서에 의존하는 대신 로렌스 리버모어 국립 연구소의 El Capitan 및 Oak Ridge 국립 연구소의 Frontier와 같은 슈퍼컴퓨터는 동시에 함께 작동하는 수많은 프로세서를 사용합니다. 따라서 기후 모델링, 유전 연구, 핵 시뮬레이션, 인공 지능 및 제트 엔진 설계의 결함 식별과 같은 작업에 특히 유용합니다.

하지만 여기서는 양자 컴퓨터에 대해 이야기하는 것이 아닙니다. 슈퍼컴퓨터는 여전히 고전적인 컴퓨터입니다. 0 또는 1인 일반 비트를 사용하고 수많은 기존 계산을 매우 빠르게 수행하여 문제를 해결합니다. 양자 컴퓨터는 양자 비트 또는 큐비트를 사용하여 다르게 작동합니다. 양자 컴퓨팅은 아직까지 실험적이고 초기 개발 단계에 있습니다. 현재 실제 작업은 고전적인 슈퍼컴퓨터에 의해 수행되고 있으며, 이를 통해 과학자들은 일반 컴퓨터가 해결하는 데 너무 오랜 시간이 걸리는 문제를 탐구할 수 있습니다. 오늘날 가장 빠른 기계 중 일부는 초당 10억 개가 넘는 계산을 수행할 수 있습니다.

그럼에도 불구하고 슈퍼컴퓨터는 전능하지 않습니다. 가장 큰 제한 사항은 일반적으로 워크로드 확장, 데이터 전송 문제, 전력 소비 및 안정성이라는 네 가지로 귀결됩니다. 엔지니어들은 네 가지 모두에서 진전을 이루고 있지만 이러한 문제 중 어느 것도 사라지지 않았습니다.

슈퍼컴퓨터는 작업을 덩어리로 나눌 수 있을 때 가장 잘 작동합니다.

가장 큰 한계 중 하나는 슈퍼컴퓨터가 특정 종류의 작업에만 유용하다는 것입니다. 그들은 여러 개의 작은 조각으로 나누어 동시에 작업할 수 있는 문제에 가장 적합합니다. 이를 병렬 처리라고 합니다. 예를 들어, 기후 모델은 대기와 해양을 여러 섹션으로 분할하고 각각을 병렬로 계산할 수 있습니다. 그러나 일부 문제는 그런 식으로 작동하지 않습니다. 일부 작업에는 순차적으로 수행되어야 하는 단계가 있습니다. 그런 일이 발생하면 슈퍼컴퓨터는 작업 속도를 크게 높일 수 없습니다. 작업의 일부가 다른 작업이 완료될 때까지 기다려야 하면 전체 시스템 속도가 느려집니다. 여기서 대답은 종종 하드웨어를 추가하는 것이 아닙니다. 대신, 더 많은 작업이 동시에 이루어질 수 있도록 소프트웨어를 재설계하는 것입니다.

또 다른 주요 제한 사항은 데이터를 이동하는 프로세스와 관련이 있습니다. 슈퍼컴퓨터는 놀라울 정도로 빠르게 계산할 수 있지만 여전히 메모리에서 정보를 가져와야 합니다. 대부분의 경우 기계는 계산 속도에 의해 제한되는 것이 아니라 데이터를 한 위치에서 다른 위치로 이동하는 데 걸리는 시간에 따라 제한됩니다. 이러한 문제를 완화하기 위해 슈퍼컴퓨터는 데이터를 프로세서에 물리적으로 더 가깝게 저장하여 보다 효율적으로 이동합니다. 또한 연구원들은 데이터를 지속적으로 가져오는 대신 데이터를 보다 효과적으로 재사용할 수 있도록 프로그램을 재설계하고 있습니다.

슈퍼컴퓨터는 전력을 많이 사용하고 고장날 수 있는 부분이 많습니다.

전력 사용도 큰 제한이 됩니다. 가장 빠른 슈퍼컴퓨터는 엄청난 양의 전력을 사용합니다. 과열을 방지하려면 고급 냉각 시스템도 필요합니다. 이로 인해 두 가지 문제가 발생합니다. 첫째, 슈퍼컴퓨터를 실행하는 데 비용이 매우 많이 듭니다. 둘째, 특히 사람들이 자신을 수용하는 데 필요한 대규모 데이터 센터를 거부함에 따라 환경적 우려가 제기됩니다. 더 나은 슈퍼컴퓨터를 구축하려면 슈퍼컴퓨터를 더욱 강력하게 만드는 것뿐만 아니라 에너지 효율성을 높이는 것도 중요합니다.

또 다른 문제는 신뢰성이다. 슈퍼컴퓨터에는 프로세서, 메모리 장치, 케이블, 스토리지 시스템, 냉각 장비 등 수많은 부품이 포함되어 있습니다. 기계에 부품이 많을수록 문제가 발생할 가능성이 높아집니다. 느슨한 케이블, 결함이 있는 메모리 칩 또는 냉각 문제로 인해 주요 계산이 중단될 수 있습니다. 일부 과학 작업은 몇 시간 또는 며칠 동안 실행되기 때문에 이는 중요합니다. 중간에 오류가 발생하면 해당 작업을 다시 시작하거나 저장된 체크포인트에서 복구해야 할 수도 있습니다. 엔지니어들은 문제 발생 시 손실되는 작업량을 최소화하기 위해 로렌스 리버모어 국립 연구소(Lawrence Livermore National Laboratory)의 SCR(Scalable Checkpoint/Restart)과 같은 도구를 사용하지만 하드웨어 문제 발생을 완전히 방지할 수 있는 방법은 없습니다. 결국, 거대한 기계를 만든다는 것은 망가질 수 있는 것들이 엄청나게 많다는 것을 의미하기도 합니다.