พบข้อบกพร่องประหลาดเรื่องประสิทธิภาพใน CPU AMD เมื่อส่งผ่านข้อมูลขนาดใหญ่ด้วยการ Pass by Value

ทีมชุมชน BigGo

พบข้อบกพร่องประหลาดเรื่องประสิทธิภาพใน CPU AMD เมื่อส่งผ่านข้อมูลขนาดใหญ่ด้วยการ Pass by Value

ในโลกของการประมวลผลสมรรถนะสูง แม้แต่รายละเอียดการใช้งานเล็กๆ น้อยๆ ก็สามารถส่งผลกระทบอย่างมากได้ การตรวจสอบทางเทคนิคล่าสุดเกี่ยวกับค่าใช้จ่ายในการส่งผ่านข้อมูลด้วยค่า (by value) เทียบกับการส่งผ่านด้วยการอ้างอิง (by reference) ได้เผยให้เห็นสิ่งที่ดูเหมือนจะเป็นความผิดปกติด้านประสิทธิภาพที่สำคัญซึ่งส่งผลต่อโปรเซสเซอร์ของ AMD การค้นพบนี้ได้จุดประกายการอภิปรายอย่างเข้มข้นในหมู่ผู้พัฒนาซอฟต์แวร์และผู้ที่ชื่นชอบฮาร์ดแวร์เกี่ยวกับความซับซ้อนที่ซ่อนอยู่ของสถาปัตยกรรม CPU สมัยใหม่

จุดผิดปกติด้านประสิทธิภาพอันน่าพิศวง

การตรวจสอบพบว่า การส่งผ่านโครงสร้างข้อมูล (structs) ที่มีขนาดระหว่าง 4046-4080 ไบต์ และ 8161-8176 ไบต์ ด้วยค่า (by value) บนโปรเซสเซอร์ AMD Ryzen 3900X ใช้เวลานานกว่าการส่งผ่านโครงสร้างข้อมูลที่เล็กกว่าหรือใหญ่กว่าเพียงเล็กน้อยประมาณสี่เท่า ความผิดปกติที่สามารถทำซ้ำได้นี้แสดงให้เห็นจุดที่มีประสิทธิภาพลดลงอย่างมากที่ขนาดข้อมูลเฉพาะเจาะจงมากๆ จากนั้นจึงกลับสู่สภาวะปกติ

นี่เป็นบั๊กของ CPU ที่น่าสนใจจริงๆ ผมค่อนข้างสงสัยว่ามันเกิดขึ้นได้อย่างไร

ชุมชนทางเทคนิคได้มีการตั้งทฤษฎีเกี่ยวกับสาเหตุรากเหง้าของความผิดปกติด้านประสิทธิภาพเหล่านี้อย่างต่อเนื่อง ผู้เชี่ยวชาญทางเทคนิคหลายคนชี้ให้เห็นถึงความขัดแย้งในการกำหนดที่อยู่แคช (cache addressing conflicts) ว่าเป็นตัวการ โดยมีผู้ใช้ท่านหนึ่งระบุว่านี่อาจเกี่ยวข้องกับปรากฏการณ์ 4K aliasing ซึ่งเป็นปรากฏการณ์ที่การดำเนินการกับหน่วยความจำได้รับผลกระทบด้านประสิทธิภาพเมื่อเข้าถึงตำแหน่งที่ห่างกันพอดีที่ขอบเขต 4KB

ขนาด Struct ที่มีปัญหาบน AMD Ryzen 3900X:

4046-4080 ไบต์: ประสิทธิภาพลดลงประมาณ 4 เท่า
8161-8176 ไบต์: ประสิทธิภาพมีการกระโดดขึ้นลงอย่างมีนัยสำคัญ
ประสิทธิภาพกลับมาเป็นปกตินอกช่วงขนาดเหล่านี้

สถาปัตยกรรมแคชและขอบเขตเพจ

การอภิปรายทางเทคนิคในชุมชนมุ่งเน้นไปที่การทำงานร่วมกันระหว่างระบบแคชของ CPU สมัยใหม่กับการจัดการหน่วยความจำ ระบบ x86 ส่วนใหญ่ใช้แคชไลน์ขนาด 64 ไบต์ ซึ่งทำหน้าที่เป็นหน่วยพื้นฐานของการถ่ายโอนข้อมูลระหว่าง CPU และลำดับชั้นของหน่วยความจำ ขนาดที่เป็นปัญหาที่ค้นพบในการทดสอบมาตรฐานนี้สอดคล้องอย่างน่าสงสัยกับขอบเขต 4KB (4096 ไบต์) และ 8KB (8192 ไบต์) ชี้ให้เห็นว่าปัญหาอาจเกี่ยวข้องกับการข้ามขอบเขตเพจหรือความขัดแย้งของชุดแคช

ผู้ใช้ท่านหนึ่งอธิบายรายละเอียดทางเทคนิคเพิ่มเติม: โดยปกติแล้วแคช L1 จะเป็นแบบ N-way associative ดังนั้นปัญหานี้ควรจะเกิดขึ้นอย่างสม่ำเสมอก็ต่อเมื่อคุณเข้าถึงที่อยู่ N ที่แตกต่างกันซึ่งมีคีย์เดียวกัน ข้อมูลเชิงลึกนี้ชี้ให้เห็นว่าการลดลงของประสิทธิภาพอาจเกิดขึ้นเมื่อการเข้าถึงหน่วยความจำหลายครั้งแข่งขันเพื่อใช้ทรัพยากรแคชที่มีจำกัดอันเนื่องมาจากการจัดเรียงที่อยู่ที่ไม่เหมาะสม

ทฤษฎีทางเทคนิคจากชุมชน:

4K aliasing ที่ทำให้เกิดการชนกันของ cache
บทลงโทษจากการข้ามขอบเขต page boundary
ข้อจำกัดของ cache set associativity
ปัญหาการทำงานของ microcode ใน rep movs

ผลกระทบในโลกจริงและการพิจารณาตัวแปลภาษา

ในขณะที่ผู้แสดงความคิดเห็นบางท่านตั้งคำถามถึงความสำคัญในทางปฏิบัติของมาตรฐานการทดสอบขนาดเล็ก (microbenchmarks) ในการทำนายประสิทธิภาพการทำงานจริง การค้นพบนี้มีผลกระทบในวงกว้างต่อการออกแบบตัวแปลภาษาและการเพิ่มประสิทธิภาพระบบ ผลการวิจัยชี้ให้เห็นว่าผู้พัฒนาตัวแปลภาษาอาจนำการเพิ่มประสิทธิภาพเฉพาะทางมาใช้เพื่อแก้ไขข้อจำกัดของฮาร์ดแวร์เหล่านี้ เช่น การปรับเปลี่ยนรูทีนการคัดลอกเพื่อหลีกเลี่ยงช่วงขนาดที่มีปัญหาในโปรเซสเซอร์ AMD ที่ได้รับผลกระทบ

การอภิปรายยังได้触及到พื้นฐานความหมายของภาษาโปรแกรม โดยผู้เชี่ยวชาญถกเถียงกันว่าการส่งผ่านด้วยค่า (pass by value) เทียบกับการส่งผ่านด้วยการอ้างอิง (pass by reference) ควรถูกมองว่าเป็นเพียงความแตกต่างทางความหมายล้วนๆ หรือว่าจำเป็นต้องบ่งบอกถึงกลยุทธ์การใช้งานเฉพาะทาง การอภิปรายเชิงปรัชญานี้มีผลกระทบในทางปฏิบัติต่อวิธีการที่ตัวแปลภาษาสามารถเพิ่มประสิทธิภาพโค้ด across translation boundaries

เกณฑ์ประสิทธิภาพที่สำคัญ:

ขนาดไม่เกิน 256 ไบต์: ใช้การคัดลอกด้วย SIMD register แบบเร็ว
เกิน 256 ไบต์: ใช้คำสั่ง rep movs
257 ไบต์: จุดเปลี่ยนผ่านระหว่างการคัดลอกแบบ vectorized และ microcoded

ความแปรผันของประสิทธิภาพข้ามแพลตฟอร์ม

ที่น่าสนใจคือ สมาชิกในชุมชนสังเกตว่าความผิดปกติด้านประสิทธิภาพเฉพาะเจาะจงเหล่านี้ดูเหมือนจะเกิดขึ้นเฉพาะในโปรเซสเซอร์ AMD เท่านั้น โดยชิปของ Intel แสดงรูปแบบพฤติกรรมที่แตกต่าง ลักษณะเฉพาะตามแพลตฟอร์มนี้เน้นย้ำถึงความแตกต่างทางสถาปัตยกรรมที่ยังคงมีอยู่ระหว่างผู้ผลิต CPU รายใหญ่ แม้จะอยู่ในยุคที่ชุดคำสั่งเป็นมาตรฐาน การค้นพบนี้เป็นเครื่องเตือนใจว่าการเพิ่มประสิทธิภาพการทำงานมักต้องการการปรับแต่งเฉพาะแพลตฟอร์มและความเข้าใจในรายละเอียดการใช้งานฮาร์ดแวร์พื้นฐาน

การตรวจสอบสิ่งที่เริ่มต้นจากคำถามง่ายๆ เกี่ยวกับค่าใช้จ่ายในการส่งผ่านพารามิเตอร์ ได้เผยให้เห็นถึงความซับซ้อนที่คาดไม่ถึงในการออกแบบโปรเซสเซอร์สมัยใหม่ ดังที่ผู้ใช้ท่านหนึ่งให้ความเห็น ผลการวิจัยแสดงให้เห็นว่าขนาดบางขนาดถูกสาปใส่ - เป็นคำอธิบายที่ขี้เล่นแต่ตรงประเด็นว่าการจัดเรียงข้อมูลเฉพาะบางอย่างสามารถกระตุ้นให้เกิดบทลงโทษด้านประสิทธิภาพที่ซ่อนอยู่ในสถาปัตยกรรม CPU ที่ซับซ้อนได้อย่างไร

การอภิปรายที่ยังคงดำเนินอยู่ underscores ว่าการตรวจสอบโดยชุมชนและความรู้ทางเทคนิคที่แบ่งปันกันยังคงเปิดเผยแง่มุมที่ละเอียดอ่อนแต่สำคัญของพฤติกรรมระบบคอมพิวเตอร์ เตือนใจผู้พัฒนาว่าแม้ในปี 2025 การทำความเข้าใจพื้นฐานของฮาร์ดแวร์ยังคงมีความสำคัญอย่างยิ่งสำหรับการบรรลุประสิทธิภาพการทำงานที่เหมาะสมที่สุด

อ้างอิง: Quantifying pass-by-value overhead

ข่าวที่เกี่ยวข้อง

‌

‌
‌

‌

‌
‌

‌