Qualcomm ท้าชน AI ดาต้าเซ็นเตอร์ด้วย “HBC” — ฝังหน่วยคำนวณไว้ใต้ DRAM เพื่อข้ามกำแพงหน่วยความจำ

Qualcomm ยักษ์ชิปมือถือกำลังเอาจริงกับตลาดดาต้าเซ็นเตอร์ AI ด้วยแนวคิดที่ฟังดูย้อนสามัญสำนึก — “ฝังหน่วยคำนวณไว้ใต้ชั้นหน่วยความจำ DRAM” เทคโนโลยีนี้เรียกว่า High-Bandwidth Compute (HBC) และจะเปิดตัวในระบบแร็ก AI250-series “Dragonfly” เป้าหมายคือทำให้ต้นทุนงาน inference ถูกและประหยัดไฟกว่า GPU ในปัจจุบัน

บทความนี้จะเจาะว่า HBC ทำงานอย่างไร ต่างจาก HBM ที่ใช้กันทุกวันนี้ตรงไหน ทำไมตัวเลข “แบนด์วิดท์” ของ Qualcomm ถึงต้องอ่านอย่างระวัง และการซื้อบริษัท Modular มาเสริมทัพซอฟต์แวร์สำคัญแค่ไหน — ละเอียดกว่าเว็บข่าวทั่วไป

ภาพจำลองการซ้อนชั้น DRAM บนหน่วยประมวลผลแบบ 3 มิติ — แนวคิด HBC: ซ้อนชั้น DRAM บนไดคำนวณโดยตรง เชื่อมด้วย through-silicon via (ภาพประกอบสร้างด้วย AI)

สรุปสเปกและตัวเลขสำคัญ

768 GB

ความจุหน่วยความจำต่อการ์ด AI250

133 TB/s*

แบนด์วิดท์ “effective” ต่อการ์ด (*ดูหมายเหตุ)

18× / 54×

แบนด์วิดท์ effective ของ AI250 / AI300 เทียบ AI200

ปี 2027

กำหนดส่งมอบ AI250 (HBC รุ่นแรก)

ปัญหาที่ HBC พยายามแก้: “กำแพงหน่วยความจำ”

บน GPU ทั่วไป ข้อมูลต้องวิ่งไปมาระหว่างหน่วยความจำ (HBM) กับไดคำนวณตลอดเวลา แม้จะใช้เทคนิคแพ็กเกจขั้นสูงอย่าง CoWoS ของ TSMC พลังงานที่ใช้ “ขนข้อมูล” ไปกลับก็ยังสูงมาก ปัญหานี้เรียกว่า “กำแพงหน่วยความจำ” (memory wall) — คอขวดที่ไม่ได้อยู่ที่พลังคำนวณ แต่อยู่ที่การเคลื่อนย้ายข้อมูล

Qualcomm แก้ด้วยการ ซ้อนชั้น DRAM ไว้บนไดตรรกะ (logic die) โดยตรง แล้วเชื่อมกันด้วย through-silicon via (TSV) — รูเจาะทะลุซิลิคอนที่ทำหน้าที่เป็นสายสัญญาณแนวตั้ง ทำให้เส้นทางจากหน่วยคำนวณถึงหน่วยความจำสั้นลงมาก Tony Pialis รองประธานฝ่ายดาต้าเซ็นเตอร์เปรียบว่าเหมือน “อยู่บ้านและทำงานในตึกเดียวกัน” — ขึ้นลงในตึกเท่านั้น ไม่ต้องออกไปวิ่งบนถนนระหว่างเมือง ผลคือใช้ไฟน้อยลง ร้อนน้อยลง และไม่ต้องใช้ silicon interposer ราคาแพงแบบที่ HBM ต้องใช้

HBM vs HBC ต่างกันอย่างไร

HBM (แบบเดิม · 2.5D)

ไดคำนวณและ HBM วางเคียงกันบน interposer (แผ่นเชื่อมสัญญาณ) ข้อมูลวิ่งด้านข้างผ่านสายจำนวนมาก · ไดตรรกะฐาน ไม่คำนวณ · ต้องใช้ interposer ราคาแพง

HBC (แบบใหม่ · 3D)

ซ้อน LPDDR เป็นชั้น ๆ บนไดคำนวณ เชื่อมด้วย TSV แนวตั้ง · ทำงาน คำนวณบางส่วนที่ไดฐาน (near-memory) · ไม่ต้องมี interposer · ประหยัดไฟและหนาแน่นกว่า

ต่างหลักคือ HBC ย้ายการคำนวณเข้าไปใกล้/ใต้หน่วยความจำ และเรียงแบบ 3 มิติแทนการวางเคียงข้าง

อ่านตัวเลข “effective” อย่างมีวิจารณญาณ

⚠️ ระวังคำว่า “effective” ตัวเลขแบนด์วิดท์ที่ Qualcomm โฆษณาใช้คำว่า “effective” (ประสิทธิผล) ไม่ใช่แบนด์วิดท์ทางกายภาพตรง ๆ ตัวคูณ 18× และ 54× มาจากสถาปัตยกรรม HBC ที่คำนวณบางส่วนในตัวหน่วยความจำ ทำให้ข้อมูลที่ต้องส่งออกไปน้อยลง = เหมือนแบนด์วิดท์เพิ่มขึ้น นักวิเคราะห์ตั้งข้อสังเกตว่าตัวเลขดิบล้วน ๆ ของ LPDDR ยากจะทำได้จริงตามที่เคลม และ Qualcomm ยังไม่เปิดเผยค่า peak FLOPS (พลังคำนวณสูงสุด)

ทำไมเหมาะกับงาน “decode” โดยเฉพาะ

การรันโมเดลภาษาแบ่งเป็นสองช่วง Prefill (ประมวลผล prompt ทั้งก้อน กินพลังคำนวณสูง) และ Decode (สร้างคำตอบทีละ token โดยสตรีมน้ำหนักโมเดลจากหน่วยความจำ) — decode ติดคอขวดที่แบนด์วิดท์หน่วยความจำ ไม่ใช่พลังคำนวณ จึงเหมาะกับ HBC พอดี และการไม่ต้องคำนวณหนักยังช่วยเลี่ยงปัญหาความร้อนจากการฝังตรรกะไว้ใต้ DRAM หลายชั้น

แนวคิด Disaggregated Inference (แยกงานตามความถนัดของชิป)

Prefill

ประมวลผล prompt · ใช้ GPU/ชิปพลังคำนวณสูง

→

Decode

สร้างคำตอบทีละ token · ใช้ AI250 (เน้นแบนด์วิดท์)

AI250 ออกแบบให้จับคู่กับ GPU ได้ โดยรับหน้าที่ช่วงที่กินแบนด์วิดท์หนัก

เป็นความได้เปรียบจริงไหม

Qualcomm ออกมาพูดเรื่อง near-memory/HBC ค่อนข้างเร็วในกลุ่มผู้ออกแบบชิป แต่ไม่ใช่เจ้าแรกและเทคโนโลยีนี้ก็ไม่เกินเอื้อมของ Nvidia หรือ AMD ทั้งคู่มีข่าวลือว่ากำลังทำ custom base die ร่วมกับผู้ผลิต HBM และ TSMC ส่วนสตาร์ทอัพอย่าง d-Matrix ก็พัฒนาชิปที่ใช้ DRAM ซ้อน 3 มิติเช่นกัน จุดขายที่แท้จริงของ Qualcomm อาจอยู่ที่ ความสามารถทำงานร่วมกับ Nvidia และ AMD ได้ ในโลกที่ inference แยกส่วน (disaggregated) — ที่ Nvidia เป็นได้ทั้งมิตรและคู่แข่ง

เกมซอฟต์แวร์: ซื้อ Modular มาข้าม “คูเมือง CUDA”

ในวัน investor day เดียวกัน Qualcomm ประกาศซื้อสตาร์ทอัพซอฟต์แวร์ AI ชื่อ Modular ก่อตั้งโดย Tim Davis และ Chris Lattner — ผู้สร้าง LLVM, Clang, ภาษา Swift และ MLIR ทีมนี้พัฒนา Mojo ภาษาโปรแกรมระดับล่างสำหรับ GPU ที่เป็นทางเลือกแทน CUDA ของ Nvidia และ ROCm ของ AMD แนวคิดคือ “เขียนครั้งเดียว รันได้บนฮาร์ดแวร์อะไรก็ได้”

นี่คือหมากสำคัญ เพราะ “คูเมือง CUDA” (CUDA moat) — การที่นักพัฒนาผูกติดกับซอฟต์แวร์ของ Nvidia — คืออุปสรรคใหญ่ที่ทำให้ AMD ตามไม่ทันมาตลอด Mojo เปิดทางให้ลูกค้ารันแอปบนชิปอะไรก็ได้ รวมถึงการผสมฮาร์ดแวร์ (GPU ทำ prefill, AI250 ทำ decode) ดีลนี้ยังได้ Max แพลตฟอร์มเสิร์ฟโมเดล LLM (คล้าย vLLM/SGLang) ติดมาด้วย โดยคาดว่าจะปิดดีลภายในปีนี้หากไม่มีอุปสรรคด้านกฎระเบียบ

โรดแมป

ปลายปี 2026 — แร็ก AI200-series เริ่มวางตลาด

2027 — AI250 (HBC รุ่นแรก) เริ่มส่งมอบ

2028 — แพลตฟอร์ม HBC รุ่นที่สอง

มุมมองต่อวงการและตลาดไทย

การมีผู้เล่นเพิ่มในสนามชิป inference เป็นข่าวดีต่อผู้ใช้ปลายทาง เพราะการแข่งขันช่วยกดต้นทุนต่อการเรียกใช้โมเดล และแนวทาง “รันได้บนฮาร์ดแวร์อะไรก็ได้” ของ Mojo อาจช่วยให้นักพัฒนาไทยไม่ต้องผูกติดกับระบบนิเวศเดียว อย่างไรก็ตาม HBC ยังต้องพิสูจน์ตัวจริงในปี 2027 และตัวเลข “effective” ที่ยังไม่มี FLOPS กำกับ ทำให้ต้องรอผลทดสอบอิสระก่อนสรุป

ศัพท์น่ารู้

Memory wall (กำแพงหน่วยความจำ): คอขวดที่ประสิทธิภาพถูกจำกัดด้วยความเร็ว/พลังงานในการขนข้อมูล ไม่ใช่พลังคำนวณ
TSV (Through-Silicon Via): รูเจาะทะลุแผ่นซิลิคอนเพื่อเป็นสายสัญญาณแนวตั้ง เชื่อมชิปที่ซ้อนกัน
Interposer: แผ่นซิลิคอนกลางที่ใช้เดินสายเชื่อมไดกับ HBM ในแบบ 2.5D (ต้นทุนสูง)
HBM vs LPDDR: HBM = หน่วยความจำแบนด์วิดท์สูงราคาแพงในดาต้าเซ็นเตอร์ · LPDDR = หน่วยความจำประหยัดไฟจากฝั่งมือถือ ที่ HBC เอามาซ้อน 3 มิติ
Prefill / Decode: Prefill = ประมวลผล prompt (กินคำนวณ) · Decode = สร้างคำตอบทีละ token (กินแบนด์วิดท์)
CUDA moat (คูเมือง CUDA): ความได้เปรียบของ Nvidia จากการที่นักพัฒนาผูกติดกับซอฟต์แวร์ CUDA จนย้ายค่ายยาก

แหล่งอ้างอิง

The Register — “Qualcomm’s proposed solution to catch up in AI infra: Bury the compute under the DRAM” โดย Tobias Mann (30 มิ.ย. 2026)

หมายเหตุ: ตัวเลขประสิทธิภาพเป็นการเปิดเผยของ Qualcomm ในงาน investor day โดยเฉพาะค่าแบนด์วิดท์ “effective” ที่ยังไม่มี peak FLOPS กำกับ ควรรอผลทดสอบอิสระเพื่อยืนยัน

AIAI News