Poker Game Theory ทฤษฎีเกมโป๊กเกอร์ (GTO)

โป๊กเกอร์ได้วิวัฒนาการไปมากในไม่กี่ปีมานี้ ทำให้กลยุทธ์ต่างๆจากหนังสือ วิดีโอ และสื่อดิจิตอลอื่นๆล้าสมัยไปมาก เห็นได้ชัดๆจากผู้เล่นรุ่นเก่าทำเงินได้เป็นล้านๆจากการใช้กลยุทธ์แบบ Exploitative Play (กลยุทธ์การปรับสไตล์การเล่นของเราเพื่อเล่นงานสไตล์การเล่นของผู้อื่น) แต่ปัจจุบันผู้เล่นส่วนใหญ่ทำเงินล้านได้จากการใช้ทฤษฎีเกมโป๊กเกอร์ (Poker Game Theory)

 

ในหัวข้อนี้เราจะมาพูดถึงเรื่อง

  • พื้นฐานของทฤษฎีเกมและโป๊กเกอร์
  • ทำไมถึงต้องใช้กลยุทธ์แบบทฤษฎีเกม
  • ตัวอย่างจาก Doug Polk ที่แสดงให้เห็นถึงความสำคัญของทฤษฎีเกม
  • ประโยชน์ 4 ประการของการใช้กลยุทธ์แบบทฤษฏีเกม

มาว่ากันโลด !!

 

ทฤษฎีเกมและโป๊กเกอร์

จอน แนช (John Nash) ได้คิดค้นทฤษฎีเกมขึ้นซึ่งเป็นสาขานึงของคณะคณิตศาสตร์ที่มหาวิทยาลัยพรินซ์ตันเมื่อประมาณปี 1950 เมื่อโป๊กเกอร์เป็นที่นิยมมากขึ้นใน 15 ปีให้หลัง ผู้เล่นจำนวนมากก็พัฒนาขึ้นจนถึงจุดที่ยากจะทำกำไรได้ในระยะยาวโดยไม่มีความรู้เรื่องทฤษฎีเกมเลย

ถ้ามองจากมุมทางคณิตศาสตร์แล้ว ความซับซ้อนของเกมโป๊กเกอร์นั้นลึกมาก จากการเปิดไพ่แค่มือเดียวจากตำแหน่งสักตำแหน่งนึงไปจนถึงการเช็คพอทเล็กๆตรงริเวอร์ที่ดูไม่สำคัญอะไร ทุกๆการตัดสินใจมีผลต่อ Win Rate ของคุณทั้งนั้น ซึ่งสามารถวัดได้จากค่าความคาดหวัง (Expected Value – EV) ถ้าการตัดสินใจนั้นทำให้เกิดกำไรก็พูดได้ว่าเป็น +EV ถ้าไม่ทำกำไรก็จะเป็น –EV

ตัวอย่างนึงที่ง่ายมากๆคือการใช้กลยุทธ์บาลานซ์ทางทฤษฎีเมื่อผู้เล่นคนหนึ่งเปิดไพ่ (open-raise) ตัวอย่างด้านล่างจะเป็น Range การเปิดไพ่ทั่วๆไปของผู้เล่นที่อยู่ตำแหน่ง UTG (คนเล่นคนแรก)

อาจจะเข้าใจกันมาว่าตำแหน่ง UTG ควรเล่นเฉพาะไพ่ที่แข็งมากๆถึงจะกำไร แต่การเล่นแต่ไพ่แข็งๆพวกนั้นจะทำให้อ่านทางง่ายเกินไป การเปิดไพ่ด้วยไพ่ที่ดีน้อยกว่าอย่าง 89s หรือ คู่ 6 (การบาลานซ์ Range การเปิดไพ่) จะทำให้คนสู้กับเรายากขึ้น เพราะจะทำให้เราติด Monster Hand ได้แม้ฟลอปจะไพ่มากลางๆ หรือต่ำๆเช่น
  

 

ทำไมถึงต้องใช้กลยุทธ์ GTO (game theory optimal)?

คุณอาจจะสงสัยว่าทำไมต้องใช้กลยุทธ์แบบทฤษฎีเกมก็ในเมื่อเรากินเงินจากคนเล่นอ่อนกว่าหรือคนที่เล่นไม่ค่อยจริงจัง

มีเหตุผลหลักๆอยู่สองข้อ

  • กลยุทธ์แบบ GTO ที่วางไว้แบบสมดุลนั้นจะทำให้คุณชนะในระยะยาวไม่ว่าคู่ต่อสู้จะเก่งแค่ไหน
  • การสวนกลับอีกฝ่ายนั้นง่ายกว่าถ้าคุณมีฐานว่าควรจะปรับตรงไหนดี (อ่านเพิ่มเติมด้านล่าง)

จากมุมมองของ GTO คุณควรจะวิเคราะห์ไพ่แบบตามจริงโดยไม่มีอคติ (objectively)  จากมุมมองนั้นคุณควรจะดูว่า Range ของคุณที่เล่นไปแบบนั้นมันบาลานซ์ไหม นอกจากนี้จากมุมของ GTO คุณควรจะรู้ว่าสถานการณ์นั้นๆควรจะทำอะไร ไม่ใช่ดูแต่ไพ่ในมือสองใบละค่อยตัดสินใจ เพราะฉะนั้นตอนที่คุณมานั่งวิเคราะห์เกมของคุณย้อนหลังนั้น คุณควรจะถามตัวเองว่าถ้าคุณถือไพ่อีกแบบ คุณจะทำยังไง

ถ้าคุณยิงเพื่อเอา Value ในบางสถานการณ์ คุณก็ควรจะผสมลูกบลัฟลงไปด้วยในสถานการณ์แบบเดียวกัน เพราะมันจะทำให้คู่ต่อสู้ของคุณงงว่าคุณมีจริงหรือหลอกกันแน่ ถ้าคุณยิงเอา Value อย่างเดียวตรงริเวอร์บางแบบ คู่ต่อสู้คุณก็จะหลบคุณทุกรอบเพราะรู้ว่าคุณมีของ  ในทางกลับกัน ถ้าคุณบลัฟในบอร์ดบางแบบมากไป คู่ต่อสู้คุณก็จะคอลคุณทุกครั้งเพราะรู้ว่าคุณไม่น่าจะมีไพ่ดี

ถ้าคุณยังไม่แน่ใจว่ากลยุทธ์แบบ GTO มันดีจริงๆละก็ ลองมาดูตัวอย่างสมมติจาก Doug Polk

 

ตัวอย่างการใช้ GTO

ตรงริเวอร์ คุณยิง 100$ ใส่พอท 100$ คู่ต่อสู้คุณต้องคอล 100$ เพื่อหวังเอา 200$ ดังนั้นคู่ต่อสู้ก็จะได้ราคา Pot Odd 2 ต่อ 1 และต้องชนะ 33% ถึงจะเท่าทุน (break even)

การคำนวณง่ายๆแบบนี้แสดงให้เห็นถึงสัดส่วนที่ดีที่สุด (optimal) ในการผสมลูกบลัฟเข้าไปใน Range นี้ตรง River คือ 33% (บลัฟ 1 ครั้งต่อของจริง 2 ครั้ง) ความถี่เท่านี้จะดีที่สุดเพราะมันจะทำให้คุณชนะพอทได้โดยที่อีกฝ่ายสู้กลับไม่ได้

ลองมาทดสอบดูสัดส่วน Bluff ต่อ Value Bet จะได้เห็นภาพว่าทำไม Range การบลัฟ 33% และ Value Bet 66% ถึงดีที่สุดจากมุมมองของ GTO และคู่ต่อสู้ของคุณก็สู้กลับไม่ได้ด้วย

เพื่อความเข้าใจง่ายๆ ขอสมมติว่าเราได้เงินเมื่อมีคนคอล Value Bet ของเรา และเราเสียเงินเมื่อมีคนคอล Bluff ของเราตลอด

 

เหตุการณ์ที่ 1 – Bluff 0%, Value Bet 100%:

คู่ต่อสู้ของคุณสามารถหมอบ 100% ทำให้ผลกำไรรวมของ Range การเล่นแบบนี้อยู่ที่ 100$

 

เหตุการณ์ที่ 2 – Bluff 100%, Value Bet 0%:

คู่ต่อสู้ของคุณสามารถคอล 100% ทำให้ผลกำไรรวมของ Range การเล่นแบบนี้อยู่ที่ -100$

 

เหตุการณ์ที่ 3 – Bluff 50%, Value Bet 50%:

ถ้าคู่ต่อสู้คุณคอล 100% คุณจะได้กำไรจากการ Value Bet 200$ และขาดทุน 100$ จากการ Bluff ทำให้คุณทำกำไรทั้งหมด 50$ ถ้าคู่ต่อสู้คุณคอลตลอด (50%x -100$ = -50$ : 50%x200$ = 100$ >> 100$-50$ = 50$)

ในขณะที่ ถ้าคู่ต่อสู้คุณหมอบตลอด คุณก็ได้ 100$ (เหมือนกับเหตุการณ์ที่ 1)

ซึ่งเหตุการณ์นี้แสดงให้เห็นว่าการไม่บลัฟเลย ให้ผลกำไรเท่ากับการบลัฟ 50%

 

เหตุการณ์ที่ 4 – Bluff 33%, Value Bet 67%:

ถ้าคู่ต่อสู้ของคุณคอลตลอด คุณจะได้กำไร 200$ เวลาคุณ Value Bet และเสีย 100$ เวลาคุณบลัฟ กรณีนี้คุณเสีย 100$ 33% และได้กำไร 200$ 67% ซึ่งรวมเป็นกำไร 100$ (33% x 100$ = -33$, 67% x 200$ = 133$ >> 133$ – 33$ = 100$)

 

อัตราส่วน Bluff ต่อ Value Bet ในเหตุการณ์นี้ดีที่สุด (optimal) เพราะ :

  • คุณกำไร 100$ ถ้าคู่ต่อสู้คุณคอลตลอด
  • คุณกำไร 100$ ถ้าคู่ต่อสู้คุณหมอบตลอด
  • คุณทำกำไร 100$ ไม่ว่าคู่ต่อสู้คุณจะเลือกคอลหรือหมอบ

การปรับอัตราส่วนนี้เพื่อเล่นงาน (exploit) ผู้เล่นแย่ๆจะยิ่งทำกำไรมากขึ้นไปอีก แต่ก็ต้องมีเหตุผลรองรับเพียงพอด้วยเช่นกัน ถ้าคุณต้องการขยับลิมิตไปเล่นสูงขึ้นและทำกำไรในระยะยาวแล้ว การเข้าใจกลยุทธ์ GTO นั้นมีความสำคัญอย่างยิ่งยวด

 

ประโยชน์ 4 ประการของการใช้ GTO

สุดท้ายแล้วมาดูประโยชน์ 4 ประการจากการใช้กลยุทธ์ GTO กัน

1. หลีกเลี่ยงการคิดวน

เคล็ดวิชาโป๊กเกอร์เก่าแก่จากยุค 90 นั้นจะพยายามรู้ว่าอีกฝ่ายคิดที่ ”เลเวล” ไหน

  • เลเวลแรกเริ่มจากดูที่ไพ่ของคุณเอง
  • คู่ต่อสู้คุณน่าจะมีอะไร
  • คู่ต่อสู้คุณคิดว่าคุณมีอะไร
  • คุณคิดว่าคู่ต่อสู้คุณคิดว่าคุณมีอะไร
  • ไปเรื่อยๆ

ในอุดมคติแล้วคุณย่อมจะพยายามรู้ว่าคู่ต่อสู้คุณคิดเลเวลไหนและก็ปรับตัวเองตามนั้น แต่ความจริงแล้วกระบวนการนี้ใช้ได้ไม่ค่อยดีเวลาสู้กับผู้เล่นห่วยๆ และถ้าเจอกับคนที่มีประสบการณ์ การใช้กลยุทธ์นี้อาจจะไม่จบสิ้นเพราะผู้เล่นทั้งสองฝ่ายก็พยายามจะคิดมากกว่าอีกฝ่าย 1 ขั้น

คลิปนี้เป็นตัวอย่างอย่างดีของการคิดเป็นเลเวลระหว่างนักโป๊กเกอร์ชื่อตำนานสองคน

ผมคงไม่ตั้งคำถามกับ Patrik Antonius ในเรื่องการเล่น Texas Hold’em แต่พวกเราชาวโลกธรรมดาสามารถหลีกเลี่ยงสถานการณ์แบบนี้ได้โดยการใช้กลยุทธ์การบลัฟแบบ GTO ซึ่งช่วยกันเราออกจากการทำให้ตัวเองสับสนและจมสู่สงครามการคิดซ้อนบนฟลอปที่มันไม่มีโอกาสอะไรเลย (no equity)

 

2. หลีกเลี่ยงการตั้งสมมติฐาน

ประโยชน์อีกอย่างของการใช้ GTO กับโป๊กเกอร์คือการหลีกเลี่ยงการตั้งสมมติฐานผิดๆต่ออีกฝ่าย แน่นอนว่าข้อสมมติฐานบางอย่างอาจจะมีได้ ถ้าคุณเล่นกับบางคนนานพอ แต่การตั้งสมมติฐานธรรมดาๆนี่แหละอาจจะทำให้เสียหายหนักได้

ตัวอย่างเช่น การพูดว่า “นี่ไม่ใช่บลัฟแน่ๆ” หรือ “ไอ้หมอนี่มันมีแน่ๆมาถึงนี่แล้ว” มันไม่ฉลาดเอาเสียเลย และคุณไม่ควรจะตั้งสมมติฐานว่าผู้เล่นคนนึง (ที่คุณไม่เคยเล่นด้วย) นั้นไม่น่าจะมีมือนี้ได้แน่ๆ หรือว่าเฮ้ย ไอ้คนนี้มันโคตร Tight หรือเปิดไพ่โคตรกว้างเลย

การใช้กลยุทธ์ GTO ที่วางมาอย่างดีนั้นช่วยขจัดความสับสน และทำให้คุณทำกำไรได้ในระยะยาว

 

3. การคิดตามจริง (objective)

ผู้เล่นหลายๆคนวิเคราะห์การเล่นของตัวเอง (ในมือนั้นๆ) จากผลลัพธ์ที่ออกมา แต่ยิ่งมีประสบการณ์มากเท่าไหร่ก็จะยิ่งตระหนักว่าจะไปมองที่ผลลัพธ์โดดๆเลยไม่ได้

แต่การคิดตามจริงก็ยังเป็นงานยากอยู่ดี โดยเฉพาะที่ผลลัพธ์ของมือนั้นๆสามารถเป็นได้ทั้งดีมากๆ และแย่มากๆ การที่คุณติดฟูลเฮ้าส์ตรงริเวอร์แล้วกินอีกฝ่ายหมดตักไม่ได้แปลว่าการคอลสองรอบเป็นการเล่นที่ถูก

ถ้าคุณรีวิวเกมของคุณด้วยกลยุทธ์ GTO และรู้ว่าในสถานการณ์นั้นๆควรจะทำอะไรแล้วละก็ ก็ลองวิเคราะห์ดูว่าถ้าคุณเล่นแบบนั้นกับ Range คุณแล้ว (ดูเป็น Range ไม่ใช่แค่ 2 ใบในมือ) คุณจะทำกำไรในระยะยาวหรือไม่

นักโป๊กเกอร์ที่ประสบความสำเร็จทุกคนรู้ว่าการยอมรับข้อผิดพลาดนั้นสำคัญต่อการเล่นให้ดีขึ้น และทฤษฎีเกมก็สามารถเป็นฐานตั้งต้นเพื่อช่วยให้คุณมองเห็นข้อผิดพลาดได้ง่ายขึ้น

 

4. ทำให้การปรับเกมง่ายขึ้น

เพราะเหตุใดการใช้ทฤษฏีมาปรับเกมคุณมันจึงสำคัญนัก? ลองมาเล่นเกมเล็กๆกันหน่อย

สมมติว่าคุณลืมกลยุทธ์โป๊กเกอร์ทุกอย่าง ยกเว้นกติกาทั่วไป และก็เริ่มเล่นมือแรกของชีวิตเลย

ไลฟ์เกม 1$/2$ หน้าตัก 200$

Hero ถือ   ตำแหน่ง big blind
ทุกคนหมอบมาถึง BTN และ BTN เร้ส ไป $7 sb หมอบ Hero คอล

ฟลอป ($14)   
Hero เช็ค BTN ยิง $9 Hero คอล

เทิร์น ($32) 
Hero เช็คBTN ยิง $21 Hero คอล

ริเวอร์ ($74) 
Hero เช็ค BTN ยิง$50 Hero คอล

BTN เปิด   Hero รวบ $174 ด้วย 2 คู่

พอเห็น BTN เล่นดุขนาดนี้ด้วย Top pair กากๆแล้วคุณคิดว่าไง? คุณจะปรับเกมเพื่อเล่นงานไอ้หมอนี่ยังไงต่อไป? ถ้าคุณไม่รู้ว่าคุณจะเล่นมือนั้นยังไง คุณก็คงไม่รู้ว่าจะเริ่มตรงไหน

แต่ถ้าคุณรู้วิธีเล่น A2o ที่ถูกต้องตามทฤษฎีจากตำแหน่ง BTN แล้วละก็ คุณก็พอจะรู้ว่าหมอนี่มันหลุดขอบไปแค่ไหน ซึ่งจะทำให้เราคิดวิธีเล่นงานเขากลับง่ายขึ้น

ด้านล่างนี้เป็นการปรับเกมเพื่อเล่นงานกลยุทธ์ Thin Value Bet (การ Value Bet แบบก้ำกึ่งว่าเราจะกินหรือไม่) ของไอ้หมอนี่กลับ :

  • เล่นงานกลับไม่แรง : คอลจนสุดทางด้วยไพ่กว้างขึ้นอีกหน่อย (แต่อย่ามากเกิน)
  • เล่นงานกลับแรงๆ : อัดกลับเวลาเขา Check (ซึ่งน่าจะไม่ค่อยมีไพ่) ด้วยลูกผสมระหว่าง Thin Value Bet กับ Bluff

บ่อยครั้งที่การรู้ว่าจะเล่นมือนั้นๆแบบไหน (ให้ถูกตามทฤษฎี) ทำให้การเล่นง่ายอีกฝ่ายง่ายขึ้น เพราะคุณจะรู้ว่าอีกฝ่ายหลุดขอบไปมากแค่ไหน และถ้าคุณไม่รู้ว่าอะไรถูก ก็คงจะรู้ว่าอะไรผิดจริงไหม?

 

ข้อสรุป

การพยายามเล่นโดยการใช้กลยุทธ์ GTO ให้สมบูรณ์ที่สุดแบบอาจจะฟังดูมีเหตุผล แต่ความจริงแล้วก็ไม่มีใครใช้กลยุทธ์ GTO ได้ตลอด ปริศนาของโป๊กเกอร์ยังไม่ได้ไขกระจ่างหมดทั้งโดยคนหรือเครื่องจักร แต่กระนั้นแล้วเราก็ยังแนะนำให้ใช้กลยุทธ์ GTO กับเกมของคุณให้มากที่สุด ซึ่งหมายความว่าคุณต้องวิเคราะห์เกมคุณทั้งตอนเล่นและตอนไม่ได้เล่น

บทความนี้เป็นพื้นฐานคร่าวๆที่สรุปเรื่องการใช้ทฤษฎีเกมกับโป๊กเกอร์ แต่ก็หวังว่าคุณจะได้อะไรกลับไปบ้าง หรืออย่างน้อยก็รู้สึกอยากศึกษาเกี่ยวกับทฤษฎีเกมขึ้นบ้าง

 

สรุปโดย #GM : https://www.upswingpoker.com/gto-poker-game-theory-optimal-strategy/

จากผู้เขียน : Rory Corrigan

แสดงความเห็น