เจาะลึก Jalapeño: ชิป AI inference ตัวแรกของ OpenAI ทำงานอย่างไร ทำไมสะเทือนทั้งวงการ

เมื่อวันที่ 24 มิถุนายน 2026 OpenAI ประกาศก้าวสำคัญที่หลายคนรอคอย นั่นคือ “Jalapeño” (อ่านว่า “ฮา-ลา-เป-โญ” เป็นภาษาสเปน แปลว่าพริกฮาลาเปโญ) ชิปประมวลผล AI ตัวแรกที่บริษัทออกแบบเอง ร่วมกับ Broadcom ยักษ์ใหญ่ด้านเซมิคอนดักเตอร์ ชิปตัวนี้ไม่ได้ถูกสร้างมาเพื่อ “ฝึก” โมเดล แต่ออกแบบมาเพื่องาน inference โดยเฉพาะ — คือการ “รันโมเดลที่ฝึกเสร็จแล้ว” ให้ตอบผู้ใช้จริง ๆ ซึ่งเป็นงานที่กินไฟและกินต้นทุนมหาศาลในทุกวันนี้

บทความนี้จะพาไปเจาะลึกทีละชั้น ตั้งแต่ศัพท์พื้นฐานสำหรับผู้เริ่มต้น ไปจนถึงสถาปัตยกรรมของชิป เหตุผลเชิงกลยุทธ์ และผลกระทบต่อทั้งวงการ AI — ละเอียดกว่าที่คุณจะอ่านเจอตามเว็บข่าวทั่วไป

ภาพจำลองชิป AI inference แบบ ASIC ล้อมรอบด้วยหน่วยความจำ HBM แปดชุด — ภาพจำลอง: ชิป inference แบบ ASIC ที่มีไดประมวลผลตรงกลาง ล้อมรอบด้วยหน่วยความจำ HBM (ภาพประกอบสร้างด้วย AI)

สรุปสเปกสำคัญของ Jalapeño

3 นาโนเมตร

ผลิตบนเทคโนโลยี 3nm ของ TSMC

8 ชุด

หน่วยความจำ HBM รอบไดประมวลผล

9 เดือน

จากศูนย์ถึง tape-out (เร็วมากสำหรับชิป)

~50%

เป้าหมายต้นทุน inference ที่ถูกลง

ปลายปี 2026

เริ่มดีพลอยในดาต้าเซ็นเตอร์

~40%

สัดส่วนที่ Microsoft คาดว่าจะซื้อล็อตแรก

ปูพื้นก่อน: “Training” กับ “Inference” ต่างกันอย่างไร

โมเดล AI มีสองช่วงชีวิตที่ใช้พลังคอมพิวเตอร์คนละแบบ การเข้าใจความต่างนี้คือกุญแจที่จะเข้าใจว่าทำไม Jalapeño ถึงสำคัญ

🎓 Training (การฝึกโมเดล)

ป้อนข้อมูลมหาศาลเพื่อให้โมเดล “เรียนรู้” ทำครั้งเดียว (หรือไม่กี่ครั้ง) ใช้เวลาเป็นสัปดาห์/เดือน กินพลังคำนวณสูงสุด ต้องการชิปที่แรงจัดอย่าง GPU ระดับสูง

⚡ Inference (การใช้งานจริง)

นำโมเดลที่ฝึกเสร็จแล้วมา “ตอบคำถาม” ผู้ใช้ เกิดขึ้นทุกครั้งที่มีคนพิมพ์แชต — วันละพันล้านครั้ง ต้องการความเร็วตอบสนอง (latency) ต่ำ และต้นทุนต่อครั้งถูกที่สุด นี่คือสิ่งที่ Jalapeño ถูกออกแบบมาเพื่อมัน

พูดง่าย ๆ คือ training เหมือน “การเรียนหนังสือ” ที่ทำครั้งเดียวจบ ส่วน inference เหมือน “การสอบ/ทำงานจริง” ที่ต้องทำซ้ำไม่รู้จบทุกวัน ต้นทุนก้อนใหญ่ระยะยาวของบริษัท AI จึงอยู่ที่ inference ไม่ใช่ training

กายวิภาคของชิป: ข้างในมีอะไรบ้าง

Jalapeño เป็น ASIC (Application-Specific Integrated Circuit) หรือ “ชิปเฉพาะทาง” — ต่างจาก GPU ที่เป็นชิปอเนกประสงค์ ASIC ถูกออกแบบมาให้ทำงานเดียวได้ดีที่สุด ในที่นี้คืองาน inference ของโมเดลภาษา ตัวชิปเป็น ASIC ขนาด reticle-sized คือใหญ่เกือบเท่าขีดจำกัดสูงสุดที่เครื่องพิมพ์วงจร (lithography) จะพิมพ์ได้ในครั้งเดียว ผลิตบนกระบวนการ 3 นาโนเมตร ของ TSMC และมีหน่วยความจำ HBM แปดชุด ล้อมรอบ

โครงสร้างแบบชั้น (package) ของชิป AI สมัยใหม่

ไดประมวลผล (Processor Die) · แกนคำนวณหลัก

HBM ×4 (ซ้าย)

HBM ×4 (ขวา)

Interposer — แผ่นเชื่อมสัญญาณความเร็วสูงระหว่างไดกับ HBM

Substrate — ฐานแพ็กเกจที่ต่อกับบอร์ด

ไดคำนวณและ HBM วางอยู่บน interposer เดียวกัน เพื่อให้ข้อมูลวิ่งระยะสั้นที่สุด

ทำไม HBM ถึงสำคัญ? โมเดลภาษาขนาดใหญ่มี “น้ำหนัก” (parameters) หลายแสนล้านตัวที่ต้องอ่านจากหน่วยความจำตลอดเวลา HBM (High-Bandwidth Memory) คือหน่วยความจำที่ซ้อนกันเป็นชั้น ๆ วางชิดไดประมวลผล ทำให้ป้อนข้อมูลได้เร็วกว่าหน่วยความจำทั่วไปหลายเท่า งาน inference ส่วนใหญ่ “ติดคอขวด” ที่แบนด์วิดท์หน่วยความจำ ไม่ใช่ที่พลังคำนวณ — จุดนี้เองที่การออกแบบเฉพาะทางสร้างความต่างได้

มันทำงานอย่างไร — ทำไมถึงเร็วและประหยัดกว่า

หัวใจการออกแบบของ Jalapeño คือการ “ลดการเคลื่อนย้ายข้อมูล” (reduce data movement) ในชิป การขยับข้อมูลระหว่างหน่วยความจำกับหน่วยคำนวณกินพลังงานมากกว่าการคำนวณเองเสียอีก ปัญหานี้เรียกว่า “กำแพงหน่วยความจำ” (memory wall) OpenAI จึงจัดสมดุลระหว่างพลังคำนวณ หน่วยความจำ และเครือข่ายให้พอดีกัน เพื่อให้ชิปทำงานได้ที่ utilization (อัตราการใช้งานจริง) ใกล้เคียงกับขีดสูงสุดทางทฤษฎี — ซึ่งในโลกจริง GPU ทั่วไปมักใช้กำลังได้เพียงเศษเสี้ยวของที่ระบุบนสเปก

ผลลัพธ์ที่ OpenAI เคลมคือ ประสิทธิภาพต่อวัตต์ (performance per watt) ดีกว่าชิประดับท็อปในปัจจุบันอย่างมีนัยสำคัญ และตั้งเป้าให้ต้นทุน inference ถูกลงราว 50% เมื่อเทียบกับการใช้ GPU — ตัวเลขนี้สำคัญมาก เพราะเมื่อคูณด้วยปริมาณคำขอระดับพันล้านครั้งต่อวัน ส่วนต่างเพียงเล็กน้อยต่อครั้งกลายเป็นเงินมหาศาลต่อปี

อีกจุดที่น่าทึ่งคือ OpenAI ใช้โมเดล AI ของตัวเองมาช่วยออกแบบชิป ทำให้ร่นเวลาจากกระดาษเปล่าถึงขั้น tape-out (ส่งแบบไปผลิตจริง) เหลือเพียง 9 เดือน ซึ่งเร็วผิดปกติมากสำหรับการออกแบบ ASIC ที่ปกติใช้เวลาหลายปี

ใครทำอะไรบ้าง: ห่วงโซ่การผลิต

OpenAI

ออกแบบสถาปัตยกรรม กำหนดวิสัยทัศน์ และใช้โมเดลตัวเองช่วยดีไซน์

Broadcom

วิศวกรรมซิลิคอน + ระบบเครือข่ายความเร็วสูงเชื่อมชิปหลายตัว

TSMC

ผลิตชิปจริงบนกระบวนการ 3nm

Celestica

ประกอบบอร์ดและระบบแร็ก (rack) สำหรับติดตั้ง

Microsoft

พาร์ตเนอร์คลาวด์ คาดซื้อล็อตแรกราว 40%

จากการออกแบบสู่การติดตั้งจริง: แต่ละบริษัทรับผิดชอบคนละช่วงของห่วงโซ่

ทำไม OpenAI ต้องลงมือทำชิปเอง

เหตุผลหลักมีสามข้อ หนึ่งคือ ลดการพึ่งพา Nvidia ที่ครองตลาดชิป AI และมีของไม่พอขายมาตลอด การมีชิปของตัวเองช่วยให้ OpenAI ไม่ต้องแย่งคิวซื้อ GPU และคุมห่วงโซ่อุปทานได้เอง สองคือ ลดต้นทุน เพราะ inference คือค่าใช้จ่ายก้อนโตที่สุดของบริษัท และสามคือ ปรับแต่งฮาร์ดแวร์ให้เข้ากับโมเดลตัวเอง ได้แบบที่ชิปอเนกประสงค์ทำไม่ได้

	GPU อเนกประสงค์	ASIC เฉพาะทาง (Jalapeño)
งานที่ทำได้	ทั้ง training และ inference หลากหลายงาน	เน้น inference ของ LLM โดยเฉพาะ
ความยืดหยุ่น	สูง — เปลี่ยนงานได้	ต่ำ — แต่แลกกับประสิทธิภาพสูงในงานเดียว
ต้นทุนต่อครั้ง	สูงกว่า	เป้าถูกลง ~50%
ประสิทธิภาพต่อวัตต์	มาตรฐานอุตสาหกรรม	ดีกว่าอย่างมีนัยสำคัญ (เคลม)

ตารางเทียบแนวคิด GPU vs ASIC — ตัวเลขบางส่วนเป็นการเคลมของผู้ผลิต รอรายงานเทคนิคยืนยัน

ภายในดาต้าเซ็นเตอร์ AI ที่มีแร็กเซิร์ฟเวอร์เรียงยาว — เป้าหมายปลายทาง: ติดตั้ง Jalapeño ในดาต้าเซ็นเตอร์ระดับไฮเปอร์สเกล ปลายปี 2026 (ภาพประกอบสร้างด้วย AI)

ผลกระทบต่อวงการ

ต่อ Nvidia: นี่คือสัญญาณชัดว่าลูกค้ารายใหญ่ที่สุดกำลังสร้างทางเลือกของตัวเอง เช่นเดียวกับที่ Google ทำ TPU และ Amazon ทำ Trainium มาก่อน แม้ Nvidia จะยังครองตลาด training แต่สนาม inference กำลังแตกออกเป็นหลายเจ้า ต่อ Broadcom: ตอกย้ำสถานะผู้เล่นเบื้องหลังที่ช่วยบริษัทเทคออกแบบชิปเอง ซึ่งเป็นธุรกิจที่โตเร็วมาก

ต่อผู้ใช้และตลาดไทย: ถ้าต้นทุน inference ถูกลงจริง ราคาต่อการเรียกใช้โมเดล (API) มีแนวโน้มลดลงในระยะยาว แปลว่าสตาร์ทอัพและนักพัฒนาไทยจะเข้าถึงพลัง AI ระดับสูงได้ในราคาถูกลง และผู้ให้บริการแอปที่พึ่ง AI ก็บริหารต้นทุนได้ดีขึ้น

สิ่งที่ยังต้องจับตา

ตัวเลขประสิทธิภาพทั้งหมดยังเป็น “การเคลม” จากช่วงทดสอบเบื้องต้น OpenAI ระบุว่าจะเผยแพร่ รายงานเทคนิคฉบับเต็ม ในอีกไม่กี่เดือนข้างหน้า นอกจากนี้การผลิตจริงในปริมาณมาก การรองรับซอฟต์แวร์ และประสิทธิภาพในสภาพใช้งานจริง ยังต้องรอพิสูจน์ Jalapeño เป็นเพียง “ก้าวแรก” ของแพลตฟอร์มคอมพิวเตอร์หลายรุ่นที่ OpenAI วางแผนไว้ในระยะยาว

ศัพท์น่ารู้สำหรับผู้เริ่มต้น

Inference: การนำโมเดลที่ฝึกเสร็จแล้วมาใช้ตอบคำถามจริง เกิดขึ้นทุกครั้งที่ผู้ใช้พิมพ์แชต
ASIC: ชิปที่ออกแบบมาเพื่องานเฉพาะทาง ทำงานเดียวได้ดีและประหยัดกว่าชิปอเนกประสงค์
HBM: หน่วยความจำแบนด์วิดท์สูงที่ซ้อนเป็นชั้น วางชิดไดประมวลผลเพื่อป้อนข้อมูลได้เร็ว
3 นาโนเมตร (3nm): ตัวเลขบอก “ความละเอียด” ของกระบวนการผลิตชิป ยิ่งเล็กยิ่งใส่ทรานซิสเตอร์ได้มากและประหยัดไฟ
Tape-out: ขั้นตอนที่ออกแบบชิปเสร็จและส่งไฟล์ไปผลิตจริงที่โรงงาน
Reticle-sized: ชิปที่มีขนาดเกือบเท่าขีดจำกัดสูงสุดที่เครื่องพิมพ์วงจรพิมพ์ได้ในครั้งเดียว = ใหญ่มาก
Performance per watt: ประสิทธิภาพที่ได้ต่อพลังงานหนึ่งหน่วย ยิ่งสูงยิ่งประหยัดค่าไฟในดาต้าเซ็นเตอร์

แหล่งอ้างอิง

หมายเหตุ: ตัวเลขประสิทธิภาพและต้นทุนบางส่วนเป็นการเปิดเผยของ OpenAI/Broadcom ในช่วงประกาศ ยังรอรายงานเทคนิคฉบับเต็มเพื่อยืนยันในโลกจริง

AIAI News