개발 IT 게시판

제목[업계동향] 인공지능(AI) 붐으로 인한 하드 드라이브 가격 폭등 때문에 인터넷 아카이브 사이트들이 인터넷 보존에 어려움을 겪고 있다2026-01-01 03:58
작성자 Level 1
기사 원문 - https://www.tomshardware.com/pc-components/storage/internet-archival-sites-struggling-to-preserve-the-internet-because-of-skyrocketing-hard-drive-prices-due-to-the-ai-boom-wayback-machine-and-wikimedia-punished-by-stratospheric-storage-pricing-and-stricter-anti-scraping-measures-blocking-the-wrong-bots
 

인공지능(AI) 붐으로 인해 스토리지 위기가 발생하면서 인터넷 데이터 아카이빙이 점점 어려워지고 있습니다. 낸드(NAND) 드라이브와 기계식 하드 드라이브 모두 공급 부족에 직면하고 있기 때문입니다. 대용량 하드 드라이브의 가격은 하이퍼스케일러 업체들의 생산 능력 축소로 인해 최대 3배까지 상승했습니다. 404 Media 의 보고서에 따르면, 이러한 가격 상승으로 인해 업계 전반에 걸쳐 평소와 같은 속도로 데이터를 보존하는 것이 어려워졌습니다 .

"모든 지식에 대한 보편적 접근"을 제공하는 것을 사명으로 하는 인터넷 아카이브는 이번 위기의 영향을 받는 기관 중 하나입니다. 인터넷 아카이브는 약 210페타바이트의 아카이브를 보유하고 있으며, 웨이백 머신과 같은 컬렉션에는 매일 100테라바이트가 추가되고 있습니다. 인공지능(AI) 붐 속에서 인터넷 아카이브를 유지 관리하는 것은 "시간과 비용을 많이 소모하는 매우 심각한 문제"가 되었다고 설립자 브루스터 칼레는 404 미디어 에 밝혔습니다 .

이 작업에 이상적인 28~30TB 하드 드라이브는 재고가 없거나 터무니없이 높은 가격에 판매되고 있습니다. 다행히 인터넷 아카이브에는 적극적인 기증자와 데이터 손실 방지에 열정적인 커뮤니티가 있어 이러한 문제를 어느 정도 완화해 주고 있지만, 이는 임시방편적인 해결책에 불과합니다. 또한 인터넷 아카이브는 제조업체로부터 드라이브를 확보하려고 노력하고 있지만, 제조업체 들은 아마도 주문 폭주로 바쁠 것으로 예상됩니다.

위키피디아를 운영하는 비영리 단체인 위키미디어 재단 역시 비슷한 입장을 보이며, 6,500만 개가 넘는 문서를 관리하는 데 이미 상당한 예산 배분이 필요한데 현재의 혼란스러운 상황으로 인해 더욱 어려워졌다고 설명했습니다. 재단 대변인은 404 Media 와의 인터뷰 에서 "가장 큰 영향은 메모리와 하드 드라이브 구매뿐 아니라 서버 납품 기간 및 향후 주문 능력에도 미칠 것"이라고 밝혔습니다.

데이터 부족 문제 외에도, AI의 폭발적인 성장은 아카이빙 노력에 또 다른 돌이킬 수 없는 영향을 미쳤는데, 바로 스크래핑입니다. LLM(Last Library Model)은 인터넷에서, 때로는 불법적으로 수집한 방대한 양의 데이터를 기반으로 학습 됩니다. 당연히 많은 웹사이트는 자신들의 데이터가 무작위로 스크래핑되어 AI 학습 자료로 사용되는 것을 달가워하지 않기 때문에, 기업들이 이를 방지하는 대책을 마련해 왔습니다.

인터넷 아카이빙은 정보를 보존하기 위해 추출하는 첫 단계를 거치지만, 웹사이트 운영자들이 이러한 노력을 점점 더 차단하고 있습니다 . 교육 목적으로 웹사이트의 스냅샷을 생성하기 위해 정보를 수집하는 봇조차도 이제는 의도적이든 아니든 인공지능을 위해 정보를 수집하려는 봇과 동일하게 취급되고 있습니다.

데이터 보존 활동에 참여하는 사람들조차 무엇을 보존해야 할지 다시 생각해 봐야 하는 상황에 놓였습니다. 하드 드라이브 가격이 워낙 비싸지면서, r/DataHoarders 서브레딧의 열성적인 사용자들조차 가격 안정을 기다리며 아카이빙을 완전히 중단했다는 비관적인 글을 올리고 있습니다. 간혹 할인된 가격으로 구할 수는 있지만, 대용량 드라이브를 정가에 구입하는 것은 거의 불가능해졌습니다.

위로 스크롤