Co-Packaged Optics (CPO) ในศูนย์ข้อมูล AI: สถาปัตยกรรม การแลกเปลี่ยน และความเป็นจริงทางวิศวกรรม

Co-Packaged Optics (CPO) รวมเอ็นจิ้นออปติคัลเข้ากับสวิตช์ ASIC โดยตรงในระดับแพ็คเกจ ซึ่งช่วยลดการเชื่อมต่อระหว่างกันทางไฟฟ้าได้อย่างมาก สิ่งนี้ช่วยลดการใช้พลังงานของ SerDes ปรับปรุงความหนาแน่นของแบนด์วิดท์ และเพิ่มความสมบูรณ์ของสัญญาณ CPO กําลังกลายเป็นตัวขับเคลื่อนหลักสําหรับ 800G, 1.6T และอื่นๆ โดยเฉพาะอย่างยิ่งในเครือข่ายศูนย์ข้อมูลที่ขับเคลื่อนด้วย AI อย่างไรก็ตาม มันนําเสนอความท้าทายทางวิศวกรรมใหม่ๆ ในการจัดการความร้อน ความน่าเชื่อถือ ความสามารถในการผลิต และความสามารถในการซ่อมบํารุง บทความนี้ให้การวิเคราะห์ทางเทคนิคเชิงลึกเกี่ยวกับสถาปัตยกรรม CPO ส่วนประกอบของระบบ ข้อจํากัดด้านความร้อน การแลกเปลี่ยนในการดําเนินงาน และผลกระทบเมื่อเทียบกับเลนส์แบบเสียบได้แบบดั้งเดิม

สารบัญ

1. พื้นฐานทางเทคนิคของ CPO

Co-Packaged Optics (CPO) โดยพื้นฐานแล้วเป็น แนวทางการออกแบบร่วมระหว่างโฟโตนิกส์และบรรจุภัณฑ์เซมิคอนดักเตอร์ขั้นสูง แทนที่จะกําหนดเส้นทางสัญญาณไฟฟ้าความเร็วสูงผ่านร่องรอย PCB ยาวไปยังโมดูลออปติคัลที่แผงด้านหน้า CPO จะวางเครื่องยนต์ออปติคัลไว้ใกล้กับสวิตช์ ASIC ภายในแพ็คเกจหรือวัสดุพิมพ์เดียวกัน

การเปลี่ยนแปลงทางสถาปัตยกรรมนี้ส่งผลให้:

  • ลดความยาวร่องรอยไฟฟ้าจากเซนติเมตรเป็นมิลลิเมตร
  • ลดการใช้พลังงานของ SerDes ลงอย่างมาก (โดยทั่วไป 20–40%)
  • ปรับปรุงความสมบูรณ์ของสัญญาณ (ลดการสูญเสียการแทรกและความกระวนกระวายใจ)
  • ลดการพึ่งพาวัสดุ PCB ระดับไฮเอนด์และตัวจับเวลา

CPO กําหนดขอบเขตระหว่างโดเมนไฟฟ้าและออปติคัลใหม่ในเครือข่ายศูนย์ข้อมูล

2. เหตุใดศูนย์ข้อมูล AI จึงขับเคลื่อนการนํา CPO มาใช้

ปริมาณงาน AI โดยเฉพาะการฝึกอบรมแบบกระจาย กําหนดความต้องการอย่างมากต่อโครงสร้างพื้นฐานเครือข่าย:

  • แบนด์วิดท์สูงพิเศษ (การเชื่อมต่อระหว่างกันระดับ Tbps)
  • เวลาแฝงต่ํา (การสื่อสารระดับไมโครวินาที)
  • ประสิทธิภาพการใช้พลังงานสูง (การเพิ่มประสิทธิภาพ W / Gbps)

เลนส์แบบเสียบได้แบบดั้งเดิมต้องเผชิญกับข้อจํากัดหลายประการ:

  • เพิ่มการใช้พลังงาน SerDes ที่ 112G/224G PAM4
  • การเสื่อมสภาพของสัญญาณในร่องรอย PCB ที่ยาว
  • ข้อจํากัดความหนาแน่นของแบนด์วิดท์ที่แผงด้านหน้า

CPO จัดการกับข้อจํากัดเหล่านี้โดยการย้ายออปติกเข้าใกล้การประมวลผลมากขึ้น

  • ลดการสูญเสียทางไฟฟ้า
  • เส้นทางข้อมูลที่มีเวลาแฝงต่ํา
  • ความหนาแน่นของพอร์ตและความสามารถในการปรับขนาดที่สูงขึ้น

สิ่งนี้ทําให้ CPO เหมาะอย่างยิ่งสําหรับคลัสเตอร์ GPU ขนาดใหญ่และแฟบริคการฝึกอบรม AI

3. สถาปัตยกรรมระบบ CPO และส่วนประกอบหลัก

cpo_architecture_overview

3.1 ส่วนประกอบหลัก

1) สลับ ASIC

  • ให้ความสามารถในการสลับระดับ Tbps
  • รวม SerDes ความเร็วสูง (112G / 224G PAM4)

2) เครื่องยนต์ออปติคัล

  • ทําการแปลงไฟฟ้าเป็นออปติคัล (E/O) และออปติคัลเป็นไฟฟ้า (O/E)
  • โดยทั่วไปจะใช้ซิลิคอนโฟโตนิกส์ (SiPh) หรืออินเดียมฟอสไฟด์ (InP)

3) แหล่งกําเนิดเลเซอร์

  • มักใช้เป็นแหล่งกําเนิดเลเซอร์ภายนอก (ELS)
  • ปรับปรุงเสถียรภาพทางความร้อนและความน่าเชื่อถือ

4) พื้นผิวแพ็คเกจ / Interposer

  • เปิดใช้งานการเชื่อมต่อระหว่างกันที่มีความหนาแน่นสูง
  • รองรับบรรจุภัณฑ์ขั้นสูง (การรวม 2.5D/3D)

5) อินเทอร์เฟซการมีเพศสัมพันธ์กับไฟเบอร์

  • ใช้ตะแกรงหรือข้อต่อขอบ
  • ต้องการความแม่นยําในการจัดตําแหน่งระดับไมครอน

4. เส้นทางสัญญาณและกลไกการทํางาน

การไหลของสัญญาณ CPO สามารถอธิบายได้ดังนี้:

  1. สวิตช์ ASIC สร้างสัญญาณไฟฟ้าความเร็วสูง
  2. สัญญาณเดินทางผ่านการเชื่อมต่อระหว่างกันทางไฟฟ้าที่สั้นเป็นพิเศษ (<10 มม.)
  3. เครื่องยนต์ออปติคัลแปลงสัญญาณไฟฟ้าเป็นสัญญาณออปติคัล
  4. สัญญาณออปติคัลถูกส่งผ่านไฟเบอร์โดยมีการสูญเสียน้อยที่สุด
  5. ที่เครื่องรับสัญญาณออปติคัลจะถูกแปลงกลับเป็นสัญญาณไฟฟ้า

การเพิ่มประสิทธิภาพทางวิศวกรรมที่สําคัญ:

  • การกําจัดตัวจับเวลา
  • ลดค่าใช้จ่ายในการแก้ไขข้อผิดพลาดไปข้างหน้า (FEC)
  • อัตราความผิดพลาดบิตที่ต่ํากว่า (BER)

5. ความท้าทายด้านการออกแบบระบายความร้อนและความน่าเชื่อถือ

cpo_thermal_distribution

5.1 ปัญหาการมีเพศสัมพันธ์ด้วยความร้อน

CPO นําเสนอความท้าทายที่สําคัญ: การวางตําแหน่ง ASIC กําลังสูงร่วมกับส่วนประกอบออปติคัลที่ไวต่อความร้อน

  • กําลังไฟ ASIC: โดยทั่วไป 400W–800W+
  • ส่วนประกอบออปติคัลต้องการอุณหภูมิที่เสถียรและค่อนข้างต่ํากว่า

สิ่งนี้สร้างความต้องการด้านความร้อนที่ขัดแย้งกันภายในขนาดกะทัดรัด

5.2 โซลูชั่นทางวิศวกรรม

  • โครงสร้างการแยกความร้อนระหว่าง ASIC และออปติก
  • ระบบระบายความร้อนด้วยของเหลวโดยตรงไปยังชิป
  • สถาปัตยกรรมแหล่งกําเนิดเลเซอร์ภายนอก (ELS)
  • เทอร์โมอิเล็กทริกคูลเลอร์ (TEC) เพื่อการควบคุมที่แม่นยํา

5.3 ความเสี่ยงด้านความน่าเชื่อถือในระยะยาว

  • การหมุนเวียนความร้อนที่นําไปสู่ความเครียดเชิงกล
  • การเสื่อมสภาพด้วยเลเซอร์เมื่อเวลาผ่านไป
  • การดริฟท์การจัดตําแหน่งด้วยแสงที่ส่งผลต่อประสิทธิภาพของการมีเพศสัมพันธ์

6. ประโยชน์ด้านประสิทธิภาพและคุณค่าของระบบ

คุณค่าของ CPO ไม่เพียงแต่อยู่ที่ความเร็วที่สูงขึ้นเท่านั้น แต่ยังอยู่ที่ การเปิดใช้งานความเร็วที่สูงขึ้นอย่างมีประสิทธิภาพ:

  • การลดพลังงาน: ~20–40%
  • ความหนาแน่นของแบนด์วิดท์: การปรับปรุง >2×
  • ลดเวลาแฝงผ่านเส้นทางไฟฟ้าที่สั้นลง
  • ความสามารถในการปรับขนาดที่เพิ่มขึ้นสําหรับคลัสเตอร์ AI ขนาดใหญ่

ข้อดีเหล่านี้ส่งผลโดยตรงต่อประสิทธิภาพการฝึกอบรมแบบกระจายและประสิทธิภาพระดับระบบ

7. ผลกระทบต่อการบํารุงรักษาศูนย์ข้อมูล

CPO เปลี่ยนเวิร์กโฟลว์การบํารุงรักษาแบบดั้งเดิมอย่างมีนัยสําคัญ:

การ ความ
ด้าน เลนส์แบบเสียบได้ ซีพีโอ
แยกความล้มเหลว ระดับโมดูล ระดับบอร์ด/ระบบ
วิธีการเปลี่ยน ถอดเปลี่ยนได้ การเปลี่ยนกระดานเต็ม
เอ็มทีทีอาร์ ต่ํา จุดสูง
ซับซ้อนในการดําเนินงาน ต่ํา จุดสูง

ผลกระทบในการดําเนินงาน:

  • ความต้องการการบํารุงรักษาเชิงคาดการณ์ที่เพิ่มขึ้น
  • ระบบการวัดและส่งข้อมูลทางไกลและการตรวจสอบที่ได้รับการปรับปรุง
  • การพึ่งพาความซ้ําซ้อนมากขึ้น (เช่น สถาปัตยกรรม N+1)

8. ปัญหาทั่วไปและแนวทางแก้ไขทางวิศวกรรม

การ การ ความ
ปัญหา สาเหตุที่แท้จริง วิธีการแก้
รบกวนทางความร้อน ข้อต่อความร้อน ASIC-opticsแยกความร้อน + การระบายความร้อนด้วยของเหลว
ความสามารถในการซ่อมบํารุงไม่ดี ระดับการบูรณาการสูง การออกแบบ CPO แบบแยกส่วน
ซับซ้อนในการผลิต การจัดตําแหน่งออปติคัลที่มีความแม่นยําสูง กระบวนการบรรจุภัณฑ์อัตโนมัติ
ความแปรผันของการสูญเสียแสง การลอยตัวของอุณหภูมิ การควบคุมตาม TEC
ค่าใช้จ่ายสูง การประดิษฐ์ที่ซับซ้อน การกําหนดมาตรฐานและการปรับขนาด

9. CPO กับ Pluggable Optics

cpo_vs_pluggable_structure

มิติ ซีพีโอ เลนส์แบบเสียบได้
สถาปัตยกรรม การผสานรวมระดับแพ็คเกจ โมดูลที่แผงด้านหน้า
ประสิทธิภาพการใช้พลังงาน ใช้พลังงานต่ํา การใช้พลังงานที่สูงขึ้น
แบนด์วิดท์ สูงเป็นพิเศษ จํากัดที่ความเร็วสูงสุด
ความสามารถในการซ่อมบํารุง ยาก ง่าย
การจัดการความร้อน คอมเพล็กซ์ ง่ายกว่า
ครบกําหนด เกิดใหม่ ผู้ใหญ่

สรุป:
CPO และออปติกแบบเสียบได้จะอยู่ร่วมกันในระยะใกล้ถึงระยะกลาง CPO จะถูกนําไปใช้ในคลัสเตอร์ AI ไฮเปอร์สเกลที่ต้องการความหนาแน่นของแบนด์วิดท์สูงเป็นหลัก

10. แผนงานความเร็วและวิวัฒนาการเทคโนโลยี

เป้าหมายความเร็วในปัจจุบันและอนาคต:

  • 800G (ปัจจุบันใช้งาน)
  • 1.6T (อยู่ระหว่างการพัฒนา)
  • 3.2T (แผนงานในอนาคต)

เทคโนโลยีที่เปิดใช้งานที่สําคัญ:

  • 224 จี เซอร์เดส
  • ซิลิคอนโฟโตนิกส์ (SiPh)
  • บรรจุภัณฑ์ขั้นสูง (การรวม 2.5D/3D)
  • สถาปัตยกรรมเลเซอร์ภายนอก

CPO อยู่ในตําแหน่งที่เป็นโซลูชันระยะยาวสําหรับการเอาชนะขีดจํากัดการปรับขนาด I/O ไฟฟ้า

11. คําถามที่พบบ่อย

Q1: CPO จะแทนที่เลนส์แบบเสียบได้ทั้งหมดหรือไม่?

ไม่ เทคโนโลยีทั้งสองจะอยู่ร่วมกัน CPO เหมาะที่สุดสําหรับสภาพแวดล้อม AI ที่มีแบนด์วิดท์สูงเป็นพิเศษ ในขณะที่ออปติกแบบเสียบได้ยังคงใช้งานได้จริงสําหรับเครือข่ายเอนกประสงค์

Q2: อะไรคือความท้าทายที่ยิ่งใหญ่ที่สุดในการปรับใช้ CPO

การจัดการความร้อนและการซ่อมบํารุงเป็นคอขวดทางวิศวกรรมหลัก

Q3: เหตุใดจึงต้องการสถาปัตยกรรมเลเซอร์ภายนอก

ช่วยลดภาระความร้อนภายในบรรจุภัณฑ์และปรับปรุงอายุการใช้งานของเลเซอร์และความน่าเชื่อถือของระบบ

Q4: ประโยชน์ที่แท้จริงของ CPO ในปริมาณงาน AI คืออะไร

ช่วยลดการใช้พลังงานในการสื่อสารและเพิ่มความหนาแน่นของแบนด์วิดท์ปรับปรุงประสิทธิภาพการฝึกอบรมโดยรวมและความสามารถในการปรับขนาด