Qualcomm ยักษ์ชิปมือถือกำลังเอาจริงกับตลาดดาต้าเซ็นเตอร์ AI ด้วยแนวคิดที่ฟังดูย้อนสามัญสำนึก — “ฝังหน่วยคำนวณไว้ใต้ชั้นหน่วยความจำ DRAM” เทคโนโลยีนี้เรียกว่า High-Bandwidth Compute (HBC) และจะเปิดตัวในระบบแร็ก AI250-series “Dragonfly” เป้าหมายคือทำให้ต้นทุนงาน inference ถูกและประหยัดไฟกว่า GPU ในปัจจุบัน

บทความนี้จะเจาะว่า HBC ทำงานอย่างไร ต่างจาก HBM ที่ใช้กันทุกวันนี้ตรงไหน ทำไมตัวเลข “แบนด์วิดท์” ของ Qualcomm ถึงต้องอ่านอย่างระวัง และการซื้อบริษัท Modular มาเสริมทัพซอฟต์แวร์สำคัญแค่ไหน — ละเอียดกว่าเว็บข่าวทั่วไป

ภาพจำลองการซ้อนชั้น DRAM บนหน่วยประมวลผลแบบ 3 มิติ
แนวคิด HBC: ซ้อนชั้น DRAM บนไดคำนวณโดยตรง เชื่อมด้วย through-silicon via (ภาพประกอบสร้างด้วย AI)

สรุปสเปกและตัวเลขสำคัญ

768 GB
ความจุหน่วยความจำต่อการ์ด AI250
133 TB/s*
แบนด์วิดท์ “effective” ต่อการ์ด (*ดูหมายเหตุ)
18× / 54×
แบนด์วิดท์ effective ของ AI250 / AI300 เทียบ AI200
ปี 2027
กำหนดส่งมอบ AI250 (HBC รุ่นแรก)

ปัญหาที่ HBC พยายามแก้: “กำแพงหน่วยความจำ”

บน GPU ทั่วไป ข้อมูลต้องวิ่งไปมาระหว่างหน่วยความจำ (HBM) กับไดคำนวณตลอดเวลา แม้จะใช้เทคนิคแพ็กเกจขั้นสูงอย่าง CoWoS ของ TSMC พลังงานที่ใช้ “ขนข้อมูล” ไปกลับก็ยังสูงมาก ปัญหานี้เรียกว่า “กำแพงหน่วยความจำ” (memory wall) — คอขวดที่ไม่ได้อยู่ที่พลังคำนวณ แต่อยู่ที่การเคลื่อนย้ายข้อมูล

Qualcomm แก้ด้วยการ ซ้อนชั้น DRAM ไว้บนไดตรรกะ (logic die) โดยตรง แล้วเชื่อมกันด้วย through-silicon via (TSV) — รูเจาะทะลุซิลิคอนที่ทำหน้าที่เป็นสายสัญญาณแนวตั้ง ทำให้เส้นทางจากหน่วยคำนวณถึงหน่วยความจำสั้นลงมาก Tony Pialis รองประธานฝ่ายดาต้าเซ็นเตอร์เปรียบว่าเหมือน “อยู่บ้านและทำงานในตึกเดียวกัน” — ขึ้นลงในตึกเท่านั้น ไม่ต้องออกไปวิ่งบนถนนระหว่างเมือง ผลคือใช้ไฟน้อยลง ร้อนน้อยลง และไม่ต้องใช้ silicon interposer ราคาแพงแบบที่ HBM ต้องใช้

HBM vs HBC ต่างกันอย่างไร

HBM (แบบเดิม · 2.5D)
ไดคำนวณและ HBM วางเคียงกันบน interposer (แผ่นเชื่อมสัญญาณ) ข้อมูลวิ่งด้านข้างผ่านสายจำนวนมาก · ไดตรรกะฐาน ไม่คำนวณ · ต้องใช้ interposer ราคาแพง
HBC (แบบใหม่ · 3D)
ซ้อน LPDDR เป็นชั้น ๆ บนไดคำนวณ เชื่อมด้วย TSV แนวตั้ง · ทำงาน คำนวณบางส่วนที่ไดฐาน (near-memory) · ไม่ต้องมี interposer · ประหยัดไฟและหนาแน่นกว่า
ต่างหลักคือ HBC ย้ายการคำนวณเข้าไปใกล้/ใต้หน่วยความจำ และเรียงแบบ 3 มิติแทนการวางเคียงข้าง

อ่านตัวเลข “effective” อย่างมีวิจารณญาณ

⚠️ ระวังคำว่า “effective” ตัวเลขแบนด์วิดท์ที่ Qualcomm โฆษณาใช้คำว่า “effective” (ประสิทธิผล) ไม่ใช่แบนด์วิดท์ทางกายภาพตรง ๆ ตัวคูณ 18× และ 54× มาจากสถาปัตยกรรม HBC ที่คำนวณบางส่วนในตัวหน่วยความจำ ทำให้ข้อมูลที่ต้องส่งออกไปน้อยลง = เหมือนแบนด์วิดท์เพิ่มขึ้น นักวิเคราะห์ตั้งข้อสังเกตว่าตัวเลขดิบล้วน ๆ ของ LPDDR ยากจะทำได้จริงตามที่เคลม และ Qualcomm ยังไม่เปิดเผยค่า peak FLOPS (พลังคำนวณสูงสุด)

ทำไมเหมาะกับงาน “decode” โดยเฉพาะ

การรันโมเดลภาษาแบ่งเป็นสองช่วง Prefill (ประมวลผล prompt ทั้งก้อน กินพลังคำนวณสูง) และ Decode (สร้างคำตอบทีละ token โดยสตรีมน้ำหนักโมเดลจากหน่วยความจำ) — decode ติดคอขวดที่แบนด์วิดท์หน่วยความจำ ไม่ใช่พลังคำนวณ จึงเหมาะกับ HBC พอดี และการไม่ต้องคำนวณหนักยังช่วยเลี่ยงปัญหาความร้อนจากการฝังตรรกะไว้ใต้ DRAM หลายชั้น

แนวคิด Disaggregated Inference (แยกงานตามความถนัดของชิป)
Prefill
ประมวลผล prompt · ใช้ GPU/ชิปพลังคำนวณสูง
Decode
สร้างคำตอบทีละ token · ใช้ AI250 (เน้นแบนด์วิดท์)
AI250 ออกแบบให้จับคู่กับ GPU ได้ โดยรับหน้าที่ช่วงที่กินแบนด์วิดท์หนัก

เป็นความได้เปรียบจริงไหม

Qualcomm ออกมาพูดเรื่อง near-memory/HBC ค่อนข้างเร็วในกลุ่มผู้ออกแบบชิป แต่ไม่ใช่เจ้าแรกและเทคโนโลยีนี้ก็ไม่เกินเอื้อมของ Nvidia หรือ AMD ทั้งคู่มีข่าวลือว่ากำลังทำ custom base die ร่วมกับผู้ผลิต HBM และ TSMC ส่วนสตาร์ทอัพอย่าง d-Matrix ก็พัฒนาชิปที่ใช้ DRAM ซ้อน 3 มิติเช่นกัน จุดขายที่แท้จริงของ Qualcomm อาจอยู่ที่ ความสามารถทำงานร่วมกับ Nvidia และ AMD ได้ ในโลกที่ inference แยกส่วน (disaggregated) — ที่ Nvidia เป็นได้ทั้งมิตรและคู่แข่ง

เกมซอฟต์แวร์: ซื้อ Modular มาข้าม “คูเมือง CUDA”

ในวัน investor day เดียวกัน Qualcomm ประกาศซื้อสตาร์ทอัพซอฟต์แวร์ AI ชื่อ Modular ก่อตั้งโดย Tim Davis และ Chris Lattner — ผู้สร้าง LLVM, Clang, ภาษา Swift และ MLIR ทีมนี้พัฒนา Mojo ภาษาโปรแกรมระดับล่างสำหรับ GPU ที่เป็นทางเลือกแทน CUDA ของ Nvidia และ ROCm ของ AMD แนวคิดคือ “เขียนครั้งเดียว รันได้บนฮาร์ดแวร์อะไรก็ได้”

นี่คือหมากสำคัญ เพราะ “คูเมือง CUDA” (CUDA moat) — การที่นักพัฒนาผูกติดกับซอฟต์แวร์ของ Nvidia — คืออุปสรรคใหญ่ที่ทำให้ AMD ตามไม่ทันมาตลอด Mojo เปิดทางให้ลูกค้ารันแอปบนชิปอะไรก็ได้ รวมถึงการผสมฮาร์ดแวร์ (GPU ทำ prefill, AI250 ทำ decode) ดีลนี้ยังได้ Max แพลตฟอร์มเสิร์ฟโมเดล LLM (คล้าย vLLM/SGLang) ติดมาด้วย โดยคาดว่าจะปิดดีลภายในปีนี้หากไม่มีอุปสรรคด้านกฎระเบียบ

โรดแมป

ปลายปี 2026 — แร็ก AI200-series เริ่มวางตลาด
2027 — AI250 (HBC รุ่นแรก) เริ่มส่งมอบ
2028 — แพลตฟอร์ม HBC รุ่นที่สอง

มุมมองต่อวงการและตลาดไทย

การมีผู้เล่นเพิ่มในสนามชิป inference เป็นข่าวดีต่อผู้ใช้ปลายทาง เพราะการแข่งขันช่วยกดต้นทุนต่อการเรียกใช้โมเดล และแนวทาง “รันได้บนฮาร์ดแวร์อะไรก็ได้” ของ Mojo อาจช่วยให้นักพัฒนาไทยไม่ต้องผูกติดกับระบบนิเวศเดียว อย่างไรก็ตาม HBC ยังต้องพิสูจน์ตัวจริงในปี 2027 และตัวเลข “effective” ที่ยังไม่มี FLOPS กำกับ ทำให้ต้องรอผลทดสอบอิสระก่อนสรุป

ศัพท์น่ารู้

Memory wall (กำแพงหน่วยความจำ)
คอขวดที่ประสิทธิภาพถูกจำกัดด้วยความเร็ว/พลังงานในการขนข้อมูล ไม่ใช่พลังคำนวณ
TSV (Through-Silicon Via)
รูเจาะทะลุแผ่นซิลิคอนเพื่อเป็นสายสัญญาณแนวตั้ง เชื่อมชิปที่ซ้อนกัน
Interposer
แผ่นซิลิคอนกลางที่ใช้เดินสายเชื่อมไดกับ HBM ในแบบ 2.5D (ต้นทุนสูง)
HBM vs LPDDR
HBM = หน่วยความจำแบนด์วิดท์สูงราคาแพงในดาต้าเซ็นเตอร์ · LPDDR = หน่วยความจำประหยัดไฟจากฝั่งมือถือ ที่ HBC เอามาซ้อน 3 มิติ
Prefill / Decode
Prefill = ประมวลผล prompt (กินคำนวณ) · Decode = สร้างคำตอบทีละ token (กินแบนด์วิดท์)
CUDA moat (คูเมือง CUDA)
ความได้เปรียบของ Nvidia จากการที่นักพัฒนาผูกติดกับซอฟต์แวร์ CUDA จนย้ายค่ายยาก

แหล่งอ้างอิง

  • The Register — “Qualcomm’s proposed solution to catch up in AI infra: Bury the compute under the DRAM” โดย Tobias Mann (30 มิ.ย. 2026)

หมายเหตุ: ตัวเลขประสิทธิภาพเป็นการเปิดเผยของ Qualcomm ในงาน investor day โดยเฉพาะค่าแบนด์วิดท์ “effective” ที่ยังไม่มี peak FLOPS กำกับ ควรรอผลทดสอบอิสระเพื่อยืนยัน