Qualcomm ยักษ์ชิปมือถือกำลังเอาจริงกับตลาดดาต้าเซ็นเตอร์ AI ด้วยแนวคิดที่ฟังดูย้อนสามัญสำนึก — “ฝังหน่วยคำนวณไว้ใต้ชั้นหน่วยความจำ DRAM” เทคโนโลยีนี้เรียกว่า High-Bandwidth Compute (HBC) และจะเปิดตัวในระบบแร็ก AI250-series “Dragonfly” เป้าหมายคือทำให้ต้นทุนงาน inference ถูกและประหยัดไฟกว่า GPU ในปัจจุบัน
บทความนี้จะเจาะว่า HBC ทำงานอย่างไร ต่างจาก HBM ที่ใช้กันทุกวันนี้ตรงไหน ทำไมตัวเลข “แบนด์วิดท์” ของ Qualcomm ถึงต้องอ่านอย่างระวัง และการซื้อบริษัท Modular มาเสริมทัพซอฟต์แวร์สำคัญแค่ไหน — ละเอียดกว่าเว็บข่าวทั่วไป

สรุปสเปกและตัวเลขสำคัญ
ปัญหาที่ HBC พยายามแก้: “กำแพงหน่วยความจำ”
บน GPU ทั่วไป ข้อมูลต้องวิ่งไปมาระหว่างหน่วยความจำ (HBM) กับไดคำนวณตลอดเวลา แม้จะใช้เทคนิคแพ็กเกจขั้นสูงอย่าง CoWoS ของ TSMC พลังงานที่ใช้ “ขนข้อมูล” ไปกลับก็ยังสูงมาก ปัญหานี้เรียกว่า “กำแพงหน่วยความจำ” (memory wall) — คอขวดที่ไม่ได้อยู่ที่พลังคำนวณ แต่อยู่ที่การเคลื่อนย้ายข้อมูล
Qualcomm แก้ด้วยการ ซ้อนชั้น DRAM ไว้บนไดตรรกะ (logic die) โดยตรง แล้วเชื่อมกันด้วย through-silicon via (TSV) — รูเจาะทะลุซิลิคอนที่ทำหน้าที่เป็นสายสัญญาณแนวตั้ง ทำให้เส้นทางจากหน่วยคำนวณถึงหน่วยความจำสั้นลงมาก Tony Pialis รองประธานฝ่ายดาต้าเซ็นเตอร์เปรียบว่าเหมือน “อยู่บ้านและทำงานในตึกเดียวกัน” — ขึ้นลงในตึกเท่านั้น ไม่ต้องออกไปวิ่งบนถนนระหว่างเมือง ผลคือใช้ไฟน้อยลง ร้อนน้อยลง และไม่ต้องใช้ silicon interposer ราคาแพงแบบที่ HBM ต้องใช้
HBM vs HBC ต่างกันอย่างไร
อ่านตัวเลข “effective” อย่างมีวิจารณญาณ
⚠️ ระวังคำว่า “effective” ตัวเลขแบนด์วิดท์ที่ Qualcomm โฆษณาใช้คำว่า “effective” (ประสิทธิผล) ไม่ใช่แบนด์วิดท์ทางกายภาพตรง ๆ ตัวคูณ 18× และ 54× มาจากสถาปัตยกรรม HBC ที่คำนวณบางส่วนในตัวหน่วยความจำ ทำให้ข้อมูลที่ต้องส่งออกไปน้อยลง = เหมือนแบนด์วิดท์เพิ่มขึ้น นักวิเคราะห์ตั้งข้อสังเกตว่าตัวเลขดิบล้วน ๆ ของ LPDDR ยากจะทำได้จริงตามที่เคลม และ Qualcomm ยังไม่เปิดเผยค่า peak FLOPS (พลังคำนวณสูงสุด)
ทำไมเหมาะกับงาน “decode” โดยเฉพาะ
การรันโมเดลภาษาแบ่งเป็นสองช่วง Prefill (ประมวลผล prompt ทั้งก้อน กินพลังคำนวณสูง) และ Decode (สร้างคำตอบทีละ token โดยสตรีมน้ำหนักโมเดลจากหน่วยความจำ) — decode ติดคอขวดที่แบนด์วิดท์หน่วยความจำ ไม่ใช่พลังคำนวณ จึงเหมาะกับ HBC พอดี และการไม่ต้องคำนวณหนักยังช่วยเลี่ยงปัญหาความร้อนจากการฝังตรรกะไว้ใต้ DRAM หลายชั้น
เป็นความได้เปรียบจริงไหม
Qualcomm ออกมาพูดเรื่อง near-memory/HBC ค่อนข้างเร็วในกลุ่มผู้ออกแบบชิป แต่ไม่ใช่เจ้าแรกและเทคโนโลยีนี้ก็ไม่เกินเอื้อมของ Nvidia หรือ AMD ทั้งคู่มีข่าวลือว่ากำลังทำ custom base die ร่วมกับผู้ผลิต HBM และ TSMC ส่วนสตาร์ทอัพอย่าง d-Matrix ก็พัฒนาชิปที่ใช้ DRAM ซ้อน 3 มิติเช่นกัน จุดขายที่แท้จริงของ Qualcomm อาจอยู่ที่ ความสามารถทำงานร่วมกับ Nvidia และ AMD ได้ ในโลกที่ inference แยกส่วน (disaggregated) — ที่ Nvidia เป็นได้ทั้งมิตรและคู่แข่ง
เกมซอฟต์แวร์: ซื้อ Modular มาข้าม “คูเมือง CUDA”
ในวัน investor day เดียวกัน Qualcomm ประกาศซื้อสตาร์ทอัพซอฟต์แวร์ AI ชื่อ Modular ก่อตั้งโดย Tim Davis และ Chris Lattner — ผู้สร้าง LLVM, Clang, ภาษา Swift และ MLIR ทีมนี้พัฒนา Mojo ภาษาโปรแกรมระดับล่างสำหรับ GPU ที่เป็นทางเลือกแทน CUDA ของ Nvidia และ ROCm ของ AMD แนวคิดคือ “เขียนครั้งเดียว รันได้บนฮาร์ดแวร์อะไรก็ได้”
นี่คือหมากสำคัญ เพราะ “คูเมือง CUDA” (CUDA moat) — การที่นักพัฒนาผูกติดกับซอฟต์แวร์ของ Nvidia — คืออุปสรรคใหญ่ที่ทำให้ AMD ตามไม่ทันมาตลอด Mojo เปิดทางให้ลูกค้ารันแอปบนชิปอะไรก็ได้ รวมถึงการผสมฮาร์ดแวร์ (GPU ทำ prefill, AI250 ทำ decode) ดีลนี้ยังได้ Max แพลตฟอร์มเสิร์ฟโมเดล LLM (คล้าย vLLM/SGLang) ติดมาด้วย โดยคาดว่าจะปิดดีลภายในปีนี้หากไม่มีอุปสรรคด้านกฎระเบียบ
โรดแมป
มุมมองต่อวงการและตลาดไทย
การมีผู้เล่นเพิ่มในสนามชิป inference เป็นข่าวดีต่อผู้ใช้ปลายทาง เพราะการแข่งขันช่วยกดต้นทุนต่อการเรียกใช้โมเดล และแนวทาง “รันได้บนฮาร์ดแวร์อะไรก็ได้” ของ Mojo อาจช่วยให้นักพัฒนาไทยไม่ต้องผูกติดกับระบบนิเวศเดียว อย่างไรก็ตาม HBC ยังต้องพิสูจน์ตัวจริงในปี 2027 และตัวเลข “effective” ที่ยังไม่มี FLOPS กำกับ ทำให้ต้องรอผลทดสอบอิสระก่อนสรุป
ศัพท์น่ารู้
- Memory wall (กำแพงหน่วยความจำ)
- คอขวดที่ประสิทธิภาพถูกจำกัดด้วยความเร็ว/พลังงานในการขนข้อมูล ไม่ใช่พลังคำนวณ
- TSV (Through-Silicon Via)
- รูเจาะทะลุแผ่นซิลิคอนเพื่อเป็นสายสัญญาณแนวตั้ง เชื่อมชิปที่ซ้อนกัน
- Interposer
- แผ่นซิลิคอนกลางที่ใช้เดินสายเชื่อมไดกับ HBM ในแบบ 2.5D (ต้นทุนสูง)
- HBM vs LPDDR
- HBM = หน่วยความจำแบนด์วิดท์สูงราคาแพงในดาต้าเซ็นเตอร์ · LPDDR = หน่วยความจำประหยัดไฟจากฝั่งมือถือ ที่ HBC เอามาซ้อน 3 มิติ
- Prefill / Decode
- Prefill = ประมวลผล prompt (กินคำนวณ) · Decode = สร้างคำตอบทีละ token (กินแบนด์วิดท์)
- CUDA moat (คูเมือง CUDA)
- ความได้เปรียบของ Nvidia จากการที่นักพัฒนาผูกติดกับซอฟต์แวร์ CUDA จนย้ายค่ายยาก
แหล่งอ้างอิง
- The Register — “Qualcomm’s proposed solution to catch up in AI infra: Bury the compute under the DRAM” โดย Tobias Mann (30 มิ.ย. 2026)
หมายเหตุ: ตัวเลขประสิทธิภาพเป็นการเปิดเผยของ Qualcomm ในงาน investor day โดยเฉพาะค่าแบนด์วิดท์ “effective” ที่ยังไม่มี peak FLOPS กำกับ ควรรอผลทดสอบอิสระเพื่อยืนยัน