Co-Packaged Optics (CPO) ในศูนย์ข้อมูล AI: สถาปัตยกรรม ประโยชน์ ความท้าทาย และแผนงานในอนาคต

Co-Packaged Optics (CPO) รวมเอ็นจิ้นออปติคัลเข้ากับสวิตช์ ASIC โดยตรงในระดับแพ็คเกจ ซึ่งช่วยลดการเชื่อมต่อระหว่างกันทางไฟฟ้าได้อย่างมาก สิ่งนี้ช่วยลดการใช้พลังงานของ SerDes ปรับปรุงความหนาแน่นของแบนด์วิดท์ และเพิ่มความสมบูรณ์ของสัญญาณ CPO กําลังกลายเป็นตัวขับเคลื่อนหลักสําหรับ 800G, 1.6T และอื่นๆ โดยเฉพาะอย่างยิ่งในเครือข่ายศูนย์ข้อมูลที่ขับเคลื่อนด้วย AI อย่างไรก็ตาม มันนําเสนอความท้าทายทางวิศวกรรมใหม่ๆ ในการจัดการความร้อน ความน่าเชื่อถือ ความสามารถในการผลิต และความสามารถในการซ่อมบํารุง บทความนี้ให้การวิเคราะห์ทางเทคนิคเชิงลึกเกี่ยวกับสถาปัตยกรรม CPO ส่วนประกอบของระบบ ข้อจํากัดด้านความร้อน การแลกเปลี่ยนในการดําเนินงาน และผลกระทบเมื่อเทียบกับเลนส์แบบเสียบได้แบบดั้งเดิม

สารบัญ

[1. พื้นฐานทางเทคนิคของ CPO](#1-พื้นฐานทางเทคนิคของ CPO)
2. เหตุใดศูนย์ข้อมูล AI จึงขับเคลื่อนการนํา CPO มาใช้
3. สถาปัตยกรรมระบบ CPO และส่วนประกอบหลัก
[4. เส้นทางสัญญาณและกลไกการทํางาน] (#4-เส้นทางสัญญาณและกลไกการทํางาน)
[5. ความท้าทายด้านการออกแบบระบายความร้อนและความน่าเชื่อถือ] (#5-ความท้าทายในการออกแบบความร้อนและความน่าเชื่อถือ)
6. ประโยชน์ด้านประสิทธิภาพและคุณค่าของระบบ
7. ผลกระทบต่อการบํารุงรักษาศูนย์ข้อมูล
8. ปัญหาทั่วไปและแนวทางแก้ไขทางวิศวกรรม
[9. CPO vs Pluggable Optics] (#9-cpo-vs-pluggable-optics)
10. แผนงานความเร็วและวิวัฒนาการเทคโนโลยี
11. คําถามที่พบบ่อย

1. พื้นฐานทางเทคนิคของ CPO

Co-Packaged Optics (CPO) โดยพื้นฐานแล้วเป็น แนวทางการออกแบบร่วมระหว่างโฟโตนิกส์และบรรจุภัณฑ์เซมิคอนดักเตอร์ขั้นสูง แทนที่จะกําหนดเส้นทางสัญญาณไฟฟ้าความเร็วสูงผ่านร่องรอย PCB ยาวไปยังโมดูลออปติคัลที่แผงด้านหน้า CPO จะวางเครื่องยนต์ออปติคัลไว้ใกล้กับสวิตช์ ASIC ภายในแพ็คเกจหรือวัสดุพิมพ์เดียวกัน

การเปลี่ยนแปลงทางสถาปัตยกรรมนี้ส่งผลให้:

ลดความยาวร่องรอยไฟฟ้าจากเซนติเมตรเป็นมิลลิเมตร
ลดการใช้พลังงานของ SerDes ลงอย่างมาก (โดยทั่วไป 20–40%)
ปรับปรุงความสมบูรณ์ของสัญญาณ (ลดการสูญเสียการแทรกและความกระวนกระวายใจ)
ลดการพึ่งพาวัสดุ PCB ระดับไฮเอนด์และตัวจับเวลา

CPO กําหนดขอบเขตระหว่างโดเมนไฟฟ้าและออปติคัลใหม่ในเครือข่ายศูนย์ข้อมูล

2. เหตุใดศูนย์ข้อมูล AI จึงขับเคลื่อนการนํา CPO มาใช้

ปริมาณงาน AI โดยเฉพาะการฝึกอบรมแบบกระจาย กําหนดความต้องการอย่างมากต่อโครงสร้างพื้นฐานเครือข่าย:

แบนด์วิดท์สูงพิเศษ (การเชื่อมต่อระหว่างกันระดับ Tbps)
เวลาแฝงต่ํา (การสื่อสารระดับไมโครวินาที)
ประสิทธิภาพการใช้พลังงานสูง (การเพิ่มประสิทธิภาพ W / Gbps)

เลนส์แบบเสียบได้แบบดั้งเดิมต้องเผชิญกับข้อจํากัดหลายประการ:

เพิ่มการใช้พลังงาน SerDes ที่ 112G/224G PAM4
การเสื่อมสภาพของสัญญาณในร่องรอย PCB ที่ยาว
ข้อจํากัดความหนาแน่นของแบนด์วิดท์ที่แผงด้านหน้า

CPO จัดการกับข้อจํากัดเหล่านี้โดยการย้ายออปติกเข้าใกล้การประมวลผลมากขึ้น

ลดการสูญเสียทางไฟฟ้า
เส้นทางข้อมูลที่มีเวลาแฝงต่ํา
ความหนาแน่นของพอร์ตและความสามารถในการปรับขนาดที่สูงขึ้น

สิ่งนี้ทําให้ CPO เหมาะอย่างยิ่งสําหรับคลัสเตอร์ GPU ขนาดใหญ่และแฟบริคการฝึกอบรม AI

3. สถาปัตยกรรมระบบ CPO และส่วนประกอบหลัก

cpo_architecture_overview

3.1 ส่วนประกอบหลัก

1) สลับ ASIC

ให้ความสามารถในการสลับระดับ Tbps
รวม SerDes ความเร็วสูง (112G / 224G PAM4)

2) เครื่องยนต์ออปติคัล

ทําการแปลงไฟฟ้าเป็นออปติคัล (E/O) และออปติคัลเป็นไฟฟ้า (O/E)
โดยทั่วไปจะใช้ซิลิคอนโฟโตนิกส์ (SiPh) หรืออินเดียมฟอสไฟด์ (InP)

3) แหล่งกําเนิดเลเซอร์

มักใช้เป็นแหล่งกําเนิดเลเซอร์ภายนอก (ELS)
ปรับปรุงเสถียรภาพทางความร้อนและความน่าเชื่อถือ

4) พื้นผิวแพ็คเกจ / Interposer

เปิดใช้งานการเชื่อมต่อระหว่างกันที่มีความหนาแน่นสูง
รองรับบรรจุภัณฑ์ขั้นสูง (การรวม 2.5D/3D)

5) อินเทอร์เฟซการมีเพศสัมพันธ์กับไฟเบอร์

ใช้ตะแกรงหรือข้อต่อขอบ
ต้องการความแม่นยําในการจัดตําแหน่งระดับไมครอน

4. เส้นทางสัญญาณและกลไกการทํางาน

การไหลของสัญญาณ CPO สามารถอธิบายได้ดังนี้:

สวิตช์ ASIC สร้างสัญญาณไฟฟ้าความเร็วสูง
สัญญาณเดินทางผ่านการเชื่อมต่อระหว่างกันทางไฟฟ้าที่สั้นเป็นพิเศษ (<10 มม.)
เครื่องยนต์ออปติคัลแปลงสัญญาณไฟฟ้าเป็นสัญญาณออปติคัล
สัญญาณออปติคัลถูกส่งผ่านไฟเบอร์โดยมีการสูญเสียน้อยที่สุด
ที่เครื่องรับสัญญาณออปติคัลจะถูกแปลงกลับเป็นสัญญาณไฟฟ้า

การเพิ่มประสิทธิภาพทางวิศวกรรมที่สําคัญ:

การกําจัดตัวจับเวลา
ลดค่าใช้จ่ายในการแก้ไขข้อผิดพลาดไปข้างหน้า (FEC)
อัตราความผิดพลาดบิตที่ต่ํากว่า (BER)

5. ความท้าทายด้านการออกแบบระบายความร้อนและความน่าเชื่อถือ

cpo_thermal_distribution

5.1 ปัญหาการมีเพศสัมพันธ์ด้วยความร้อน

CPO นําเสนอความท้าทายที่สําคัญ: การวางตําแหน่ง ASIC กําลังสูงร่วมกับส่วนประกอบออปติคัลที่ไวต่อความร้อน

กําลังไฟ ASIC: โดยทั่วไป 400W–800W+
ส่วนประกอบออปติคัลต้องการอุณหภูมิที่เสถียรและค่อนข้างต่ํากว่า

สิ่งนี้สร้างความต้องการด้านความร้อนที่ขัดแย้งกันภายในขนาดกะทัดรัด

5.2 โซลูชั่นทางวิศวกรรม

โครงสร้างการแยกความร้อนระหว่าง ASIC และออปติก
ระบบระบายความร้อนด้วยของเหลวโดยตรงไปยังชิป
สถาปัตยกรรมแหล่งกําเนิดเลเซอร์ภายนอก (ELS)
เทอร์โมอิเล็กทริกคูลเลอร์ (TEC) เพื่อการควบคุมที่แม่นยํา

5.3 ความเสี่ยงด้านความน่าเชื่อถือในระยะยาว

การหมุนเวียนความร้อนที่นําไปสู่ความเครียดเชิงกล
การเสื่อมสภาพด้วยเลเซอร์เมื่อเวลาผ่านไป
การดริฟท์การจัดตําแหน่งด้วยแสงที่ส่งผลต่อประสิทธิภาพของการมีเพศสัมพันธ์

6. ประโยชน์ด้านประสิทธิภาพและคุณค่าของระบบ

คุณค่าของ CPO ไม่เพียงแต่อยู่ที่ความเร็วที่สูงขึ้นเท่านั้น แต่ยังอยู่ที่ การเปิดใช้งานความเร็วที่สูงขึ้นอย่างมีประสิทธิภาพ:

การลดพลังงาน: ~20–40%
ความหนาแน่นของแบนด์วิดท์: การปรับปรุง >2×
ลดเวลาแฝงผ่านเส้นทางไฟฟ้าที่สั้นลง
ความสามารถในการปรับขนาดที่เพิ่มขึ้นสําหรับคลัสเตอร์ AI ขนาดใหญ่

ข้อดีเหล่านี้ส่งผลโดยตรงต่อประสิทธิภาพการฝึกอบรมแบบกระจายและประสิทธิภาพระดับระบบ

7. ผลกระทบต่อการบํารุงรักษาศูนย์ข้อมูล

CPO เปลี่ยนเวิร์กโฟลว์การบํารุงรักษาแบบดั้งเดิมอย่างมีนัยสําคัญ:

การ ความ

ด้าน	เลนส์แบบเสียบได้	ซีพีโอ
แยกความล้มเหลว	ระดับโมดูล	ระดับบอร์ด/ระบบ
วิธีการเปลี่ยน	ถอดเปลี่ยนได้	การเปลี่ยนกระดานเต็ม
เอ็มทีทีอาร์	ต่ํา	จุดสูง
ซับซ้อนในการดําเนินงาน	ต่ํา	จุดสูง

ผลกระทบในการดําเนินงาน:

ความต้องการการบํารุงรักษาเชิงคาดการณ์ที่เพิ่มขึ้น
ระบบการวัดและส่งข้อมูลทางไกลและการตรวจสอบที่ได้รับการปรับปรุง
การพึ่งพาความซ้ําซ้อนมากขึ้น (เช่น สถาปัตยกรรม N+1)

8. ปัญหาทั่วไปและแนวทางแก้ไขทางวิศวกรรม

การ การ ความ

ปัญหา	สาเหตุที่แท้จริง	วิธีการแก้
รบกวนทางความร้อน	ข้อต่อความร้อน ASIC-optics	แยกความร้อน + การระบายความร้อนด้วยของเหลว
ความสามารถในการซ่อมบํารุงไม่ดี	ระดับการบูรณาการสูง	การออกแบบ CPO แบบแยกส่วน
ซับซ้อนในการผลิต	การจัดตําแหน่งออปติคัลที่มีความแม่นยําสูง	กระบวนการบรรจุภัณฑ์อัตโนมัติ
ความแปรผันของการสูญเสียแสง	การลอยตัวของอุณหภูมิ	การควบคุมตาม TEC
ค่าใช้จ่ายสูง	การประดิษฐ์ที่ซับซ้อน	การกําหนดมาตรฐานและการปรับขนาด

9. CPO กับ Pluggable Optics

cpo_vs_pluggable_structure

มิติ	ซีพีโอ	เลนส์แบบเสียบได้
สถาปัตยกรรม	การผสานรวมระดับแพ็คเกจ	โมดูลที่แผงด้านหน้า
ประสิทธิภาพการใช้พลังงาน	ใช้พลังงานต่ํา	การใช้พลังงานที่สูงขึ้น
แบนด์วิดท์	สูงเป็นพิเศษ	จํากัดที่ความเร็วสูงสุด
ความสามารถในการซ่อมบํารุง	ยาก	ง่าย
การจัดการความร้อน	คอมเพล็กซ์	ง่ายกว่า
ครบกําหนด	เกิดใหม่	ผู้ใหญ่

สรุป:
CPO และออปติกแบบเสียบได้จะอยู่ร่วมกันในระยะใกล้ถึงระยะกลาง CPO จะถูกนําไปใช้ในคลัสเตอร์ AI ไฮเปอร์สเกลที่ต้องการความหนาแน่นของแบนด์วิดท์สูงเป็นหลัก

10. แผนงานความเร็วและวิวัฒนาการเทคโนโลยี

เป้าหมายความเร็วในปัจจุบันและอนาคต:

800G (ปัจจุบันใช้งาน)
1.6T (อยู่ระหว่างการพัฒนา)
3.2T (แผนงานในอนาคต)

เทคโนโลยีที่เปิดใช้งานที่สําคัญ:

224 จี เซอร์เดส
ซิลิคอนโฟโตนิกส์ (SiPh)
บรรจุภัณฑ์ขั้นสูง (การรวม 2.5D/3D)
สถาปัตยกรรมเลเซอร์ภายนอก

CPO อยู่ในตําแหน่งที่เป็นโซลูชันระยะยาวสําหรับการเอาชนะขีดจํากัดการปรับขนาด I/O ไฟฟ้า

11. คําถามที่พบบ่อย

Q1: CPO จะแทนที่เลนส์แบบเสียบได้ทั้งหมดหรือไม่?

ไม่ เทคโนโลยีทั้งสองจะอยู่ร่วมกัน CPO เหมาะที่สุดสําหรับสภาพแวดล้อม AI ที่มีแบนด์วิดท์สูงเป็นพิเศษ ในขณะที่ออปติกแบบเสียบได้ยังคงใช้งานได้จริงสําหรับเครือข่ายเอนกประสงค์

Q2: อะไรคือความท้าทายที่ยิ่งใหญ่ที่สุดในการปรับใช้ CPO

การจัดการความร้อนและการซ่อมบํารุงเป็นคอขวดทางวิศวกรรมหลัก

Q3: เหตุใดจึงต้องการสถาปัตยกรรมเลเซอร์ภายนอก

ช่วยลดภาระความร้อนภายในบรรจุภัณฑ์และปรับปรุงอายุการใช้งานของเลเซอร์และความน่าเชื่อถือของระบบ

Q4: ประโยชน์ที่แท้จริงของ CPO ในปริมาณงาน AI คืออะไร

ช่วยลดการใช้พลังงานในการสื่อสารและเพิ่มความหนาแน่นของแบนด์วิดท์ปรับปรุงประสิทธิภาพการฝึกอบรมโดยรวมและความสามารถในการปรับขนาด

Co-Packaged Optics (CPO) ในศูนย์ข้อมูล AI: สถาปัตยกรรม การแลกเปลี่ยน และความเป็นจริงทางวิศวกรรม

สารบัญ

1. พื้นฐานทางเทคนิคของ CPO

2. เหตุใดศูนย์ข้อมูล AI จึงขับเคลื่อนการนํา CPO มาใช้

3. สถาปัตยกรรมระบบ CPO และส่วนประกอบหลัก

3.1 ส่วนประกอบหลัก

4. เส้นทางสัญญาณและกลไกการทํางาน

5. ความท้าทายด้านการออกแบบระบายความร้อนและความน่าเชื่อถือ

5.1 ปัญหาการมีเพศสัมพันธ์ด้วยความร้อน

5.2 โซลูชั่นทางวิศวกรรม

5.3 ความเสี่ยงด้านความน่าเชื่อถือในระยะยาว

6. ประโยชน์ด้านประสิทธิภาพและคุณค่าของระบบ

7. ผลกระทบต่อการบํารุงรักษาศูนย์ข้อมูล

8. ปัญหาทั่วไปและแนวทางแก้ไขทางวิศวกรรม

9. CPO กับ Pluggable Optics

10. แผนงานความเร็วและวิวัฒนาการเทคโนโลยี

11. คําถามที่พบบ่อย

Q1: CPO จะแทนที่เลนส์แบบเสียบได้ทั้งหมดหรือไม่?

Q2: อะไรคือความท้าทายที่ยิ่งใหญ่ที่สุดในการปรับใช้ CPO

Q3: เหตุใดจึงต้องการสถาปัตยกรรมเลเซอร์ภายนอก

Q4: ประโยชน์ที่แท้จริงของ CPO ในปริมาณงาน AI คืออะไร

บทความที่เกี่ยวข้อง