เมื่อวันที่ 24 มิถุนายน 2026 OpenAI ประกาศก้าวสำคัญที่หลายคนรอคอย นั่นคือ “Jalapeño” (อ่านว่า “ฮา-ลา-เป-โญ” เป็นภาษาสเปน แปลว่าพริกฮาลาเปโญ) ชิปประมวลผล AI ตัวแรกที่บริษัทออกแบบเอง ร่วมกับ Broadcom ยักษ์ใหญ่ด้านเซมิคอนดักเตอร์ ชิปตัวนี้ไม่ได้ถูกสร้างมาเพื่อ “ฝึก” โมเดล แต่ออกแบบมาเพื่องาน inference โดยเฉพาะ — คือการ “รันโมเดลที่ฝึกเสร็จแล้ว” ให้ตอบผู้ใช้จริง ๆ ซึ่งเป็นงานที่กินไฟและกินต้นทุนมหาศาลในทุกวันนี้
บทความนี้จะพาไปเจาะลึกทีละชั้น ตั้งแต่ศัพท์พื้นฐานสำหรับผู้เริ่มต้น ไปจนถึงสถาปัตยกรรมของชิป เหตุผลเชิงกลยุทธ์ และผลกระทบต่อทั้งวงการ AI — ละเอียดกว่าที่คุณจะอ่านเจอตามเว็บข่าวทั่วไป

สรุปสเปกสำคัญของ Jalapeño
ปูพื้นก่อน: “Training” กับ “Inference” ต่างกันอย่างไร
โมเดล AI มีสองช่วงชีวิตที่ใช้พลังคอมพิวเตอร์คนละแบบ การเข้าใจความต่างนี้คือกุญแจที่จะเข้าใจว่าทำไม Jalapeño ถึงสำคัญ
พูดง่าย ๆ คือ training เหมือน “การเรียนหนังสือ” ที่ทำครั้งเดียวจบ ส่วน inference เหมือน “การสอบ/ทำงานจริง” ที่ต้องทำซ้ำไม่รู้จบทุกวัน ต้นทุนก้อนใหญ่ระยะยาวของบริษัท AI จึงอยู่ที่ inference ไม่ใช่ training
กายวิภาคของชิป: ข้างในมีอะไรบ้าง
Jalapeño เป็น ASIC (Application-Specific Integrated Circuit) หรือ “ชิปเฉพาะทาง” — ต่างจาก GPU ที่เป็นชิปอเนกประสงค์ ASIC ถูกออกแบบมาให้ทำงานเดียวได้ดีที่สุด ในที่นี้คืองาน inference ของโมเดลภาษา ตัวชิปเป็น ASIC ขนาด reticle-sized คือใหญ่เกือบเท่าขีดจำกัดสูงสุดที่เครื่องพิมพ์วงจร (lithography) จะพิมพ์ได้ในครั้งเดียว ผลิตบนกระบวนการ 3 นาโนเมตร ของ TSMC และมีหน่วยความจำ HBM แปดชุด ล้อมรอบ
ทำไม HBM ถึงสำคัญ? โมเดลภาษาขนาดใหญ่มี “น้ำหนัก” (parameters) หลายแสนล้านตัวที่ต้องอ่านจากหน่วยความจำตลอดเวลา HBM (High-Bandwidth Memory) คือหน่วยความจำที่ซ้อนกันเป็นชั้น ๆ วางชิดไดประมวลผล ทำให้ป้อนข้อมูลได้เร็วกว่าหน่วยความจำทั่วไปหลายเท่า งาน inference ส่วนใหญ่ “ติดคอขวด” ที่แบนด์วิดท์หน่วยความจำ ไม่ใช่ที่พลังคำนวณ — จุดนี้เองที่การออกแบบเฉพาะทางสร้างความต่างได้
มันทำงานอย่างไร — ทำไมถึงเร็วและประหยัดกว่า
หัวใจการออกแบบของ Jalapeño คือการ “ลดการเคลื่อนย้ายข้อมูล” (reduce data movement) ในชิป การขยับข้อมูลระหว่างหน่วยความจำกับหน่วยคำนวณกินพลังงานมากกว่าการคำนวณเองเสียอีก ปัญหานี้เรียกว่า “กำแพงหน่วยความจำ” (memory wall) OpenAI จึงจัดสมดุลระหว่างพลังคำนวณ หน่วยความจำ และเครือข่ายให้พอดีกัน เพื่อให้ชิปทำงานได้ที่ utilization (อัตราการใช้งานจริง) ใกล้เคียงกับขีดสูงสุดทางทฤษฎี — ซึ่งในโลกจริง GPU ทั่วไปมักใช้กำลังได้เพียงเศษเสี้ยวของที่ระบุบนสเปก
ผลลัพธ์ที่ OpenAI เคลมคือ ประสิทธิภาพต่อวัตต์ (performance per watt) ดีกว่าชิประดับท็อปในปัจจุบันอย่างมีนัยสำคัญ และตั้งเป้าให้ต้นทุน inference ถูกลงราว 50% เมื่อเทียบกับการใช้ GPU — ตัวเลขนี้สำคัญมาก เพราะเมื่อคูณด้วยปริมาณคำขอระดับพันล้านครั้งต่อวัน ส่วนต่างเพียงเล็กน้อยต่อครั้งกลายเป็นเงินมหาศาลต่อปี
อีกจุดที่น่าทึ่งคือ OpenAI ใช้โมเดล AI ของตัวเองมาช่วยออกแบบชิป ทำให้ร่นเวลาจากกระดาษเปล่าถึงขั้น tape-out (ส่งแบบไปผลิตจริง) เหลือเพียง 9 เดือน ซึ่งเร็วผิดปกติมากสำหรับการออกแบบ ASIC ที่ปกติใช้เวลาหลายปี
ใครทำอะไรบ้าง: ห่วงโซ่การผลิต
ทำไม OpenAI ต้องลงมือทำชิปเอง
เหตุผลหลักมีสามข้อ หนึ่งคือ ลดการพึ่งพา Nvidia ที่ครองตลาดชิป AI และมีของไม่พอขายมาตลอด การมีชิปของตัวเองช่วยให้ OpenAI ไม่ต้องแย่งคิวซื้อ GPU และคุมห่วงโซ่อุปทานได้เอง สองคือ ลดต้นทุน เพราะ inference คือค่าใช้จ่ายก้อนโตที่สุดของบริษัท และสามคือ ปรับแต่งฮาร์ดแวร์ให้เข้ากับโมเดลตัวเอง ได้แบบที่ชิปอเนกประสงค์ทำไม่ได้
| GPU อเนกประสงค์ | ASIC เฉพาะทาง (Jalapeño) | |
|---|---|---|
| งานที่ทำได้ | ทั้ง training และ inference หลากหลายงาน | เน้น inference ของ LLM โดยเฉพาะ |
| ความยืดหยุ่น | สูง — เปลี่ยนงานได้ | ต่ำ — แต่แลกกับประสิทธิภาพสูงในงานเดียว |
| ต้นทุนต่อครั้ง | สูงกว่า | เป้าถูกลง ~50% |
| ประสิทธิภาพต่อวัตต์ | มาตรฐานอุตสาหกรรม | ดีกว่าอย่างมีนัยสำคัญ (เคลม) |

ผลกระทบต่อวงการ
ต่อ Nvidia: นี่คือสัญญาณชัดว่าลูกค้ารายใหญ่ที่สุดกำลังสร้างทางเลือกของตัวเอง เช่นเดียวกับที่ Google ทำ TPU และ Amazon ทำ Trainium มาก่อน แม้ Nvidia จะยังครองตลาด training แต่สนาม inference กำลังแตกออกเป็นหลายเจ้า ต่อ Broadcom: ตอกย้ำสถานะผู้เล่นเบื้องหลังที่ช่วยบริษัทเทคออกแบบชิปเอง ซึ่งเป็นธุรกิจที่โตเร็วมาก
ต่อผู้ใช้และตลาดไทย: ถ้าต้นทุน inference ถูกลงจริง ราคาต่อการเรียกใช้โมเดล (API) มีแนวโน้มลดลงในระยะยาว แปลว่าสตาร์ทอัพและนักพัฒนาไทยจะเข้าถึงพลัง AI ระดับสูงได้ในราคาถูกลง และผู้ให้บริการแอปที่พึ่ง AI ก็บริหารต้นทุนได้ดีขึ้น
สิ่งที่ยังต้องจับตา
ตัวเลขประสิทธิภาพทั้งหมดยังเป็น “การเคลม” จากช่วงทดสอบเบื้องต้น OpenAI ระบุว่าจะเผยแพร่ รายงานเทคนิคฉบับเต็ม ในอีกไม่กี่เดือนข้างหน้า นอกจากนี้การผลิตจริงในปริมาณมาก การรองรับซอฟต์แวร์ และประสิทธิภาพในสภาพใช้งานจริง ยังต้องรอพิสูจน์ Jalapeño เป็นเพียง “ก้าวแรก” ของแพลตฟอร์มคอมพิวเตอร์หลายรุ่นที่ OpenAI วางแผนไว้ในระยะยาว
ศัพท์น่ารู้สำหรับผู้เริ่มต้น
- Inference
- การนำโมเดลที่ฝึกเสร็จแล้วมาใช้ตอบคำถามจริง เกิดขึ้นทุกครั้งที่ผู้ใช้พิมพ์แชต
- ASIC
- ชิปที่ออกแบบมาเพื่องานเฉพาะทาง ทำงานเดียวได้ดีและประหยัดกว่าชิปอเนกประสงค์
- HBM
- หน่วยความจำแบนด์วิดท์สูงที่ซ้อนเป็นชั้น วางชิดไดประมวลผลเพื่อป้อนข้อมูลได้เร็ว
- 3 นาโนเมตร (3nm)
- ตัวเลขบอก “ความละเอียด” ของกระบวนการผลิตชิป ยิ่งเล็กยิ่งใส่ทรานซิสเตอร์ได้มากและประหยัดไฟ
- Tape-out
- ขั้นตอนที่ออกแบบชิปเสร็จและส่งไฟล์ไปผลิตจริงที่โรงงาน
- Reticle-sized
- ชิปที่มีขนาดเกือบเท่าขีดจำกัดสูงสุดที่เครื่องพิมพ์วงจรพิมพ์ได้ในครั้งเดียว = ใหญ่มาก
- Performance per watt
- ประสิทธิภาพที่ได้ต่อพลังงานหนึ่งหน่วย ยิ่งสูงยิ่งประหยัดค่าไฟในดาต้าเซ็นเตอร์
แหล่งอ้างอิง
- OpenAI — OpenAI and Broadcom unveil LLM-optimized inference chip
- VentureBeat — OpenAI unveils first custom AI inference chip, Jalapeño
- Tom’s Hardware — Broadcom and OpenAI unveil custom-built Jalapeño
- TechCrunch — OpenAI unveils its first custom chip, built by Broadcom
หมายเหตุ: ตัวเลขประสิทธิภาพและต้นทุนบางส่วนเป็นการเปิดเผยของ OpenAI/Broadcom ในช่วงประกาศ ยังรอรายงานเทคนิคฉบับเต็มเพื่อยืนยันในโลกจริง