Co-Packaged Optics (CPO) ในศูนย์ข้อมูล AI: สถาปัตยกรรม การแลกเปลี่ยน และความเป็นจริงทางวิศวกรรม
Co-Packaged Optics (CPO) รวมเอ็นจิ้นออปติคัลเข้ากับสวิตช์ ASIC โดยตรงในระดับแพ็คเกจ ซึ่งช่วยลดการเชื่อมต่อระหว่างกันทางไฟฟ้าได้อย่างมาก สิ่งนี้ช่วยลดการใช้พลังงานของ SerDes ปรับปรุงความหนาแน่นของแบนด์วิดท์ และเพิ่มความสมบูรณ์ของสัญญาณ CPO กําลังกลายเป็นตัวขับเคลื่อนหลักสําหรับ 800G, 1.6T และอื่นๆ โดยเฉพาะอย่างยิ่งในเครือข่ายศูนย์ข้อมูลที่ขับเคลื่อนด้วย AI อย่างไรก็ตาม มันนําเสนอความท้าทายทางวิศวกรรมใหม่ๆ ในการจัดการความร้อน ความน่าเชื่อถือ ความสามารถในการผลิต และความสามารถในการซ่อมบํารุง บทความนี้ให้การวิเคราะห์ทางเทคนิคเชิงลึกเกี่ยวกับสถาปัตยกรรม CPO ส่วนประกอบของระบบ ข้อจํากัดด้านความร้อน การแลกเปลี่ยนในการดําเนินงาน และผลกระทบเมื่อเทียบกับเลนส์แบบเสียบได้แบบดั้งเดิม
สารบัญ
- [1. พื้นฐานทางเทคนิคของ CPO](#1-พื้นฐานทางเทคนิคของ CPO)
- 2. เหตุใดศูนย์ข้อมูล AI จึงขับเคลื่อนการนํา CPO มาใช้
- 3. สถาปัตยกรรมระบบ CPO และส่วนประกอบหลัก
- [4. เส้นทางสัญญาณและกลไกการทํางาน] (#4-เส้นทางสัญญาณและกลไกการทํางาน)
- [5. ความท้าทายด้านการออกแบบระบายความร้อนและความน่าเชื่อถือ] (#5-ความท้าทายในการออกแบบความร้อนและความน่าเชื่อถือ)
- 6. ประโยชน์ด้านประสิทธิภาพและคุณค่าของระบบ
- 7. ผลกระทบต่อการบํารุงรักษาศูนย์ข้อมูล
- 8. ปัญหาทั่วไปและแนวทางแก้ไขทางวิศวกรรม
- [9. CPO vs Pluggable Optics] (#9-cpo-vs-pluggable-optics)
- 10. แผนงานความเร็วและวิวัฒนาการเทคโนโลยี
- 11. คําถามที่พบบ่อย
1. พื้นฐานทางเทคนิคของ CPO
Co-Packaged Optics (CPO) โดยพื้นฐานแล้วเป็น แนวทางการออกแบบร่วมระหว่างโฟโตนิกส์และบรรจุภัณฑ์เซมิคอนดักเตอร์ขั้นสูง แทนที่จะกําหนดเส้นทางสัญญาณไฟฟ้าความเร็วสูงผ่านร่องรอย PCB ยาวไปยังโมดูลออปติคัลที่แผงด้านหน้า CPO จะวางเครื่องยนต์ออปติคัลไว้ใกล้กับสวิตช์ ASIC ภายในแพ็คเกจหรือวัสดุพิมพ์เดียวกัน
การเปลี่ยนแปลงทางสถาปัตยกรรมนี้ส่งผลให้:
- ลดความยาวร่องรอยไฟฟ้าจากเซนติเมตรเป็นมิลลิเมตร
- ลดการใช้พลังงานของ SerDes ลงอย่างมาก (โดยทั่วไป 20–40%)
- ปรับปรุงความสมบูรณ์ของสัญญาณ (ลดการสูญเสียการแทรกและความกระวนกระวายใจ)
- ลดการพึ่งพาวัสดุ PCB ระดับไฮเอนด์และตัวจับเวลา
CPO กําหนดขอบเขตระหว่างโดเมนไฟฟ้าและออปติคัลใหม่ในเครือข่ายศูนย์ข้อมูล
2. เหตุใดศูนย์ข้อมูล AI จึงขับเคลื่อนการนํา CPO มาใช้
ปริมาณงาน AI โดยเฉพาะการฝึกอบรมแบบกระจาย กําหนดความต้องการอย่างมากต่อโครงสร้างพื้นฐานเครือข่าย:
- แบนด์วิดท์สูงพิเศษ (การเชื่อมต่อระหว่างกันระดับ Tbps)
- เวลาแฝงต่ํา (การสื่อสารระดับไมโครวินาที)
- ประสิทธิภาพการใช้พลังงานสูง (การเพิ่มประสิทธิภาพ W / Gbps)
เลนส์แบบเสียบได้แบบดั้งเดิมต้องเผชิญกับข้อจํากัดหลายประการ:
- เพิ่มการใช้พลังงาน SerDes ที่ 112G/224G PAM4
- การเสื่อมสภาพของสัญญาณในร่องรอย PCB ที่ยาว
- ข้อจํากัดความหนาแน่นของแบนด์วิดท์ที่แผงด้านหน้า
CPO จัดการกับข้อจํากัดเหล่านี้โดยการย้ายออปติกเข้าใกล้การประมวลผลมากขึ้น
- ลดการสูญเสียทางไฟฟ้า
- เส้นทางข้อมูลที่มีเวลาแฝงต่ํา
- ความหนาแน่นของพอร์ตและความสามารถในการปรับขนาดที่สูงขึ้น
สิ่งนี้ทําให้ CPO เหมาะอย่างยิ่งสําหรับคลัสเตอร์ GPU ขนาดใหญ่และแฟบริคการฝึกอบรม AI
3. สถาปัตยกรรมระบบ CPO และส่วนประกอบหลัก

3.1 ส่วนประกอบหลัก
1) สลับ ASIC
- ให้ความสามารถในการสลับระดับ Tbps
- รวม SerDes ความเร็วสูง (112G / 224G PAM4)
2) เครื่องยนต์ออปติคัล
- ทําการแปลงไฟฟ้าเป็นออปติคัล (E/O) และออปติคัลเป็นไฟฟ้า (O/E)
- โดยทั่วไปจะใช้ซิลิคอนโฟโตนิกส์ (SiPh) หรืออินเดียมฟอสไฟด์ (InP)
3) แหล่งกําเนิดเลเซอร์
- มักใช้เป็นแหล่งกําเนิดเลเซอร์ภายนอก (ELS)
- ปรับปรุงเสถียรภาพทางความร้อนและความน่าเชื่อถือ
4) พื้นผิวแพ็คเกจ / Interposer
- เปิดใช้งานการเชื่อมต่อระหว่างกันที่มีความหนาแน่นสูง
- รองรับบรรจุภัณฑ์ขั้นสูง (การรวม 2.5D/3D)
5) อินเทอร์เฟซการมีเพศสัมพันธ์กับไฟเบอร์
- ใช้ตะแกรงหรือข้อต่อขอบ
- ต้องการความแม่นยําในการจัดตําแหน่งระดับไมครอน
4. เส้นทางสัญญาณและกลไกการทํางาน
การไหลของสัญญาณ CPO สามารถอธิบายได้ดังนี้:
- สวิตช์ ASIC สร้างสัญญาณไฟฟ้าความเร็วสูง
- สัญญาณเดินทางผ่านการเชื่อมต่อระหว่างกันทางไฟฟ้าที่สั้นเป็นพิเศษ (<10 มม.)
- เครื่องยนต์ออปติคัลแปลงสัญญาณไฟฟ้าเป็นสัญญาณออปติคัล
- สัญญาณออปติคัลถูกส่งผ่านไฟเบอร์โดยมีการสูญเสียน้อยที่สุด
- ที่เครื่องรับสัญญาณออปติคัลจะถูกแปลงกลับเป็นสัญญาณไฟฟ้า
การเพิ่มประสิทธิภาพทางวิศวกรรมที่สําคัญ:
- การกําจัดตัวจับเวลา
- ลดค่าใช้จ่ายในการแก้ไขข้อผิดพลาดไปข้างหน้า (FEC)
- อัตราความผิดพลาดบิตที่ต่ํากว่า (BER)
5. ความท้าทายด้านการออกแบบระบายความร้อนและความน่าเชื่อถือ

5.1 ปัญหาการมีเพศสัมพันธ์ด้วยความร้อน
CPO นําเสนอความท้าทายที่สําคัญ: การวางตําแหน่ง ASIC กําลังสูงร่วมกับส่วนประกอบออปติคัลที่ไวต่อความร้อน
- กําลังไฟ ASIC: โดยทั่วไป 400W–800W+
- ส่วนประกอบออปติคัลต้องการอุณหภูมิที่เสถียรและค่อนข้างต่ํากว่า
สิ่งนี้สร้างความต้องการด้านความร้อนที่ขัดแย้งกันภายในขนาดกะทัดรัด
5.2 โซลูชั่นทางวิศวกรรม
- โครงสร้างการแยกความร้อนระหว่าง ASIC และออปติก
- ระบบระบายความร้อนด้วยของเหลวโดยตรงไปยังชิป
- สถาปัตยกรรมแหล่งกําเนิดเลเซอร์ภายนอก (ELS)
- เทอร์โมอิเล็กทริกคูลเลอร์ (TEC) เพื่อการควบคุมที่แม่นยํา
5.3 ความเสี่ยงด้านความน่าเชื่อถือในระยะยาว
- การหมุนเวียนความร้อนที่นําไปสู่ความเครียดเชิงกล
- การเสื่อมสภาพด้วยเลเซอร์เมื่อเวลาผ่านไป
- การดริฟท์การจัดตําแหน่งด้วยแสงที่ส่งผลต่อประสิทธิภาพของการมีเพศสัมพันธ์
6. ประโยชน์ด้านประสิทธิภาพและคุณค่าของระบบ
คุณค่าของ CPO ไม่เพียงแต่อยู่ที่ความเร็วที่สูงขึ้นเท่านั้น แต่ยังอยู่ที่ การเปิดใช้งานความเร็วที่สูงขึ้นอย่างมีประสิทธิภาพ:
- การลดพลังงาน: ~20–40%
- ความหนาแน่นของแบนด์วิดท์: การปรับปรุง >2×
- ลดเวลาแฝงผ่านเส้นทางไฟฟ้าที่สั้นลง
- ความสามารถในการปรับขนาดที่เพิ่มขึ้นสําหรับคลัสเตอร์ AI ขนาดใหญ่
ข้อดีเหล่านี้ส่งผลโดยตรงต่อประสิทธิภาพการฝึกอบรมแบบกระจายและประสิทธิภาพระดับระบบ
7. ผลกระทบต่อการบํารุงรักษาศูนย์ข้อมูล
CPO เปลี่ยนเวิร์กโฟลว์การบํารุงรักษาแบบดั้งเดิมอย่างมีนัยสําคัญ:
| ด้าน | เลนส์แบบเสียบได้ | ซีพีโอ |
|---|---|---|
| แยกความล้มเหลว | ระดับโมดูล | ระดับบอร์ด/ระบบ |
| วิธีการเปลี่ยน | ถอดเปลี่ยนได้ | การเปลี่ยนกระดานเต็ม |
| เอ็มทีทีอาร์ | ต่ํา | จุดสูง |
| ซับซ้อนในการดําเนินงาน | ต่ํา | จุดสูง |
ผลกระทบในการดําเนินงาน:
- ความต้องการการบํารุงรักษาเชิงคาดการณ์ที่เพิ่มขึ้น
- ระบบการวัดและส่งข้อมูลทางไกลและการตรวจสอบที่ได้รับการปรับปรุง
- การพึ่งพาความซ้ําซ้อนมากขึ้น (เช่น สถาปัตยกรรม N+1)
8. ปัญหาทั่วไปและแนวทางแก้ไขทางวิศวกรรม
| ปัญหา | สาเหตุที่แท้จริง | วิธีการแก้ |
|---|---|---|
| รบกวนทางความร้อน | ข้อต่อความร้อน ASIC-optics | การแยกความร้อน + การระบายความร้อนด้วยของเหลว |
| ความสามารถในการซ่อมบํารุงไม่ดี | ระดับการบูรณาการสูง | การออกแบบ CPO แบบแยกส่วน |
| ซับซ้อนในการผลิต | การจัดตําแหน่งออปติคัลที่มีความแม่นยําสูง | กระบวนการบรรจุภัณฑ์อัตโนมัติ |
| ความแปรผันของการสูญเสียแสง | การลอยตัวของอุณหภูมิ | การควบคุมตาม TEC |
| ค่าใช้จ่ายสูง | การประดิษฐ์ที่ซับซ้อน | การกําหนดมาตรฐานและการปรับขนาด |
9. CPO กับ Pluggable Optics

| มิติ | ซีพีโอ | เลนส์แบบเสียบได้ |
|---|---|---|
| สถาปัตยกรรม | การผสานรวมระดับแพ็คเกจ | โมดูลที่แผงด้านหน้า |
| ประสิทธิภาพการใช้พลังงาน | ใช้พลังงานต่ํา | การใช้พลังงานที่สูงขึ้น |
| แบนด์วิดท์ | สูงเป็นพิเศษ | จํากัดที่ความเร็วสูงสุด |
| ความสามารถในการซ่อมบํารุง | ยาก | ง่าย |
| การจัดการความร้อน | คอมเพล็กซ์ | ง่ายกว่า |
| ครบกําหนด | เกิดใหม่ | ผู้ใหญ่ |
สรุป:
CPO และออปติกแบบเสียบได้จะอยู่ร่วมกันในระยะใกล้ถึงระยะกลาง CPO จะถูกนําไปใช้ในคลัสเตอร์ AI ไฮเปอร์สเกลที่ต้องการความหนาแน่นของแบนด์วิดท์สูงเป็นหลัก
10. แผนงานความเร็วและวิวัฒนาการเทคโนโลยี
เป้าหมายความเร็วในปัจจุบันและอนาคต:
- 800G (ปัจจุบันใช้งาน)
- 1.6T (อยู่ระหว่างการพัฒนา)
- 3.2T (แผนงานในอนาคต)
เทคโนโลยีที่เปิดใช้งานที่สําคัญ:
- 224 จี เซอร์เดส
- ซิลิคอนโฟโตนิกส์ (SiPh)
- บรรจุภัณฑ์ขั้นสูง (การรวม 2.5D/3D)
- สถาปัตยกรรมเลเซอร์ภายนอก
CPO อยู่ในตําแหน่งที่เป็นโซลูชันระยะยาวสําหรับการเอาชนะขีดจํากัดการปรับขนาด I/O ไฟฟ้า
11. คําถามที่พบบ่อย
Q1: CPO จะแทนที่เลนส์แบบเสียบได้ทั้งหมดหรือไม่?
ไม่ เทคโนโลยีทั้งสองจะอยู่ร่วมกัน CPO เหมาะที่สุดสําหรับสภาพแวดล้อม AI ที่มีแบนด์วิดท์สูงเป็นพิเศษ ในขณะที่ออปติกแบบเสียบได้ยังคงใช้งานได้จริงสําหรับเครือข่ายเอนกประสงค์
Q2: อะไรคือความท้าทายที่ยิ่งใหญ่ที่สุดในการปรับใช้ CPO
การจัดการความร้อนและการซ่อมบํารุงเป็นคอขวดทางวิศวกรรมหลัก
Q3: เหตุใดจึงต้องการสถาปัตยกรรมเลเซอร์ภายนอก
ช่วยลดภาระความร้อนภายในบรรจุภัณฑ์และปรับปรุงอายุการใช้งานของเลเซอร์และความน่าเชื่อถือของระบบ
Q4: ประโยชน์ที่แท้จริงของ CPO ในปริมาณงาน AI คืออะไร
ช่วยลดการใช้พลังงานในการสื่อสารและเพิ่มความหนาแน่นของแบนด์วิดท์ปรับปรุงประสิทธิภาพการฝึกอบรมโดยรวมและความสามารถในการปรับขนาด