Bryan Pellegrino dari Tim Polk Berbicara Tentang Riset AI-nya dan Cara Membantu Merumuskan Strategi Memenangkan $ 1,2 Juta

Wawancara ini ditampilkan dalam edisi terbaru Majalah Pemain Kartu, tersedia sekarang online untuk GRATIS.

Sepanjang hari-hari awal ledakan poker, Bryan Pellegrino bisa dibilang salah satu pemain sit-n-go head-up terbaik di planet ini, meneror lawan dengan nama 'PrimordialAA.' Seperti banyak pro poker lain dari generasinya, dia keluar dari perguruan tinggi untuk mengejar poker penuh waktu dan membuat hidup yang cukup baik mengalahkan beberapa taruhan tertinggi yang tersedia secara online.

Dia juga membuat percikan kecil di dunia turnamen langsung, membuat tiga putaran dalam di acara utama Hold'em World Series of Poker $ 10.000 tanpa batas, finis runner-up di acara hold'em pot-limit WSOP $ 1.500 tahun 2012, dan dua lagi proses mendalam di acara head-up hold'em WSOP $ 10.000 tanpa batas.

Sekitar tahun 2015, bagaimanapun, Pellegrino memutuskan untuk pindah dari poker. Setelah liburan selama setahun berkeliling dunia bersama istri dan putranya, Pellegrino terjun ke dunia komputer. Dia menciptakan model pembelajaran mesin yang berfokus pada pengurutan nada yang dia jual ke waralaba Major League Baseball dan kemudian mendirikan bisnis cryptocurrency di Silicon Valley.

Namun, pada tahun 2020, dunia komputer membawanya kembali ke poker. Juli lalu, penduduk asli New Hampshire membantu menerbitkan makalah penelitian dengan Noam Brown dari departemen penelitian kecerdasan buatan Facebook. Makalah ini membahas tentang bagaimana kecerdasan buatan dapat menggunakan teori permainan untuk menyempurnakan strategi poker dan menggunakan konsep yang sama untuk memecahkan masalah di dunia nyata.

Ketika Negreanu menerima tantangan itu, Polk segera mulai membentuk tim untuk menyempurnakan permainan head-up secara keseluruhan. Dia menyewa beberapa pelatih kepala untuk membantunya menerapkan strategi dengan cara terbaik, sekelompok orang untuk turun tangan untuk membuat database informasi tentang kecenderungan Negreanu, dan tim lain untuk membantu memperkuat apa yang disebut Polk sebagai 'strategi preflop'. . '

Pellegrino dibawa untuk membantu pekerjaan preflop. Dia duduk dengan _Card Player_ untuk membahas apa yang dia lakukan di balik layar dengan Polk, bagaimana AI-nya merupakan peningkatan dari pemecah lain yang tersedia untuk umum, dan bagaimana teknologi ini dapat menyelesaikan masalah dunia nyata.

Steve Schult: Doug akhirnya menghubungi Anda baru-baru ini untuk menjadi bagian dari timnya. Apakah kalian memiliki hubungan saat bermain secara profesional? Bagaimana dia menemukanmu?

Bryan Pellegrino: Kami berdua bermain head-up. Dia bermain uang tunai dan saya bermain head-up sit-n-go. Saya akhirnya mendapatkan pelatihan dari (Daniel Cates) dan mulai bekerja dengan uang muka, tetapi saya tidak pernah benar-benar terjun ke dalam adegan itu. Namun demikian, melalui hal-hal AI, kami akhirnya melakukan penelitian, dan melalui penelitian AI Facebook kami akhirnya menerbitkan makalah akademis. Pekerjaan yang telah dilakukan di sekitar minimisasi penyesalan kontra-faktual, khususnya area yang dapat digunakan di luar poker, adalah salah satu area yang kami anggap menarik. Tapi untuk membuktikannya, kami menginginkan tolok ukur akademis sejak dini.

Doug mengulurkan tangan menanyakan apakah saya masih aktif dalam game dan komunitas. Saya pikir dia mencari opini yang bervariasi tentang sumber belajar terbaik dan cara terbaik untuk mempersiapkan pertandingan. Dia sangat rajin, lebih dari siapa pun yang pernah saya kenal. Saya telah bermain poker selama 15 tahun dan saya rasa saya belum pernah melihat orang melakukan pekerjaan seperti Doug, dalam hal belajar, pengulangan, dan mengumpulkan semua materi yang tepat.

Dan Doug sangat akrab dengan Noam Brown, salah satu orang yang bekerja di koran. Doug dan timnya adalah orang-orang yang bertarung melawan Claudico dan Libratus (bot poker AI tingkat lanjut), jadi dia tahu tentang Noam dan pekerjaannya. Saya mengatakan kepadanya bahwa saya baru saja menerbitkan makalah ini dengan Noam dan hasilnya sangat fenomenal. Dia tertarik pada bagaimana kami dapat memanfaatkan penelitian menjadi bahan studi.

SS: Apa sebenarnya minimisasi penyesalan kontrafaktual? Bagaimana hubungannya dengan poker?

BP: Cara yang sangat sederhana untuk menjelaskannya adalah bahwa di masa lalu, banyak orang akan mencontohkan keputusan dengan memaksimalkan hasil Anda. Anda ingin mencoba dan menang paling banyak, bukan? Tetapi yang ditemukan orang adalah bahwa apa yang sebenarnya ingin Anda coba dan lakukan adalah meminimalkan penyesalan Anda.

Itu akan membawa Anda ke ekuilibrium Nash. Itu akan menuntun Anda ke GTO strategi (teori permainan optimal). Katakanlah kita bermain batu, kertas, gunting dan saya menggunakan minimisasi penyesalan kontrafaktual. Jika saya melempar batu dan Anda melempar gunting, saya akan menyesal -1, artinya saya tidak akan menyesal. Saya akan merasa baik-baik saja. Jika Anda melempar batu, saya akan bersikap netral. Dan jika Anda melempar kertas, saya punya 1. Saya menyesal.

Jadi yang akan saya lakukan adalah menggunakan penyesalan itu pada tiga hasil untuk mengubah strategi saya. Jadi, sekarang alih-alih melempar batu 100% dari waktu, saya akan lebih sedikit membuangnya, sesuai dengan penyesalan saya secara keseluruhan. Dan jika Anda melakukannya triliunan kali, Anda akan mendapatkan a GTO strategi batu, kertas, gunting.

Hal yang sama berlaku untuk poker. Kecuali daripada tiga opsi sederhana, Anda memiliki pohon raksasa dengan setiap ukuran taruhan yang dapat digunakan orang dan setiap tindakan yang dapat mereka lakukan. Dan tujuannya adalah untuk mengambil pohon itu dan meminimalkan penyesalan. Jika Anda melakukannya, Anda akan mendapatkannya GTO strategi. Sebuah strategi yang tidak akan pernah menyesali apapun. Tidak ada yang bisa dilakukan lawan untuk mengeksploitasi Anda yang akan membuat Anda sangat menyesal.

SS: Bisakah Anda merinci apa makalah penelitian itu tentang istilah orang awam?

BP: Kami menerbitkan makalah berjudul Membuka Potensi Jaringan Nilai Kontra Faktual Dalam. University of Alberta dan Carnegie Mellon University semuanya telah melakukan penelitian ini pada dasarnya poker AI. Mereka menggunakan teknik ini dan pada dasarnya kami menemukan banyak varian dari teknik ini. Kami membuat varian DCFR + baru, seperti performa kecepatan keseluruhan 5.000x di atas agen teratas sebelumnya seperti DeepStack, dan kami memainkan pemenang yang terakhir. ACPC (Kompetisi Poker Komputer Tahunan) yaitu Slumbot.

Semua akademisi berkumpul dan mereka menjalankan tantangan. Mereka memiliki penelitian terbaru untuk poker dan mereka semua memainkannya melawan satu sama lain. Jadi, kami mengambil pemenangnya dan memainkannya. Dan kami mengalahkannya untuk 20 tirai besar per 100 tangan. Kami benar-benar menghancurkannya.

Saya putus sekolah, jadi fakta bahwa saya menerbitkan makalah akademis dengan tim riset AI Facebook berarti kami melakukan sesuatu yang cukup mengesankan di sini. Komunitas akademis sangat luar biasa, dan saya pikir sangat terkesan dengan hasil makalah kami. Dan makalah kami baru saja diterbitkan tepat pada saat Doug memikirkan tantangannya dengan Daniel.

SS: Apa yang dia katakan kepada Anda yang membuat Anda ingin menjadi bagian dari timnya?

BP: Saya tidak ingin terlalu rewel terhadap komunitas akademis, tetapi sangat sulit untuk membandingkan dengan AI terkenal lainnya. Kami menjangkau setiap AI utama lainnya dan tidak ada dari mereka yang tertarik untuk membandingkan dengan kami, terutama karena beberapa agen ini menghabiskan biaya hingga jutaan per hari untuk menjalankannya. Slumbot kebetulan adalah publik dan sangat dihormati.

Tapi setelah kami menerbitkannya, kami tidak punya pekerjaan lain. Kami tidak akan melanjutkan penelitian ini, jadi kami terjun ke banyak bidang lain… semacam penerapan teknologi. Tetapi ketika Doug mengulurkan tangan, ini adalah kesempatan yang menarik untuk melihat bagaimana seseorang yang belajar dengan ini melakukannya di alam liar. Inilah kesempatan untuk mengintegrasikan ini ke dalam tantangan profil tinggi. Kami telah menghubungi (Phil) Galfond di masa lalu untuk melihat apakah dia tertarik pada sesuatu, tetapi pada akhirnya itu hanya cara untuk membantu Doug dan berpotensi menarik perhatian pada penelitian itu sendiri.

SS: Anda menyebutkan bahwa jenis pekerjaan ini dapat digunakan di area lain di luar poker. Bisakah Anda menjelaskan di mana dan bagaimana?

BP: Tantangan ini luar biasa dan menerbitkan dengan Noam Brown dari penelitian AI Facebook adalah suatu kehormatan besar. Beberapa hal yang kami jelajahi adalah kendaraan otonom. Kami sedang mengerjakan masalah perutean dalam mobil yang bisa mengemudi sendiri, dan kami juga melihat robotika di rumah kaca. Ada teknologi rumah kaca yang dapat membantu menciptakan produk senilai puluhan miliar dolar dan bagaimana teknologi AI dapat memengaruhi hal ini dan membuat perbedaan. Kami sedang menjajaki penemuan obat sekarang. Kami terpesona dengan prosesnya dan bersemangat tentang apa yang bisa dilakukan di sana.

SS: Bagaimana minimisasi penyesalan kontrafaktual berlaku untuk sesuatu seperti mobil tanpa pengemudi?

BP: Jika Anda mencoba merutekan melalui jaringan besar ini dan ada lalu lintas serta semua hal lain yang terjadi, pada dasarnya Anda dapat mencontohkan masalah tersebut tentang cara mencapai tujuan Anda dengan sesedikit mungkin. Katakanlah waktu adalah penyesalan dan Anda ingin meminimalkan jumlah waktu yang dibutuhkan untuk mencapainya. Tetapi tidak harus ada waktu. Bisa jadi waktu, bisa kondisi jalan, atau bisa juga tol. Anda dapat menemukan semua aplikasi dunia nyata yang mengagumkan ini.

SS: Doug berkata bahwa Anda adalah salah satu orang yang membantu membangun jarak preflop-nya. Bagaimana kamu melakukan ini?

BP: Makalah pada dasarnya adalah pemecah. Kami menciptakan pemecah yang kebetulan sangat bagus dan cepat. Cara modern sebagian besar pemecah ini bekerja adalah ketika mereka melakukan rentang preflop, mereka harus sangat mengabstraksikan apa yang mereka lakukan.

Jadi, Anda dapat membuat pohon preflop berukuran sedang. Tidak banyak pilihan dan tidak terlalu besar atau kompleks dari pohon, tapi kemudian Anda akan mengalami sejumlah besar jepit dan sejumlah besar belokan. Jadi pohon-pohon ini menjadi sangat besar… ratusan terabyte. Lebih dari yang bisa Anda muat di komputer mana pun. Jadi, yang mereka lakukan adalah mengabstraksi mereka. Mereka hanya melihat 10 flop atau 56 flop, apapun subsetnya. Dan itu datang dengan serangkaian akurasinya sendiri. Anda harus memilih jepit yang Anda harap mewakili segalanya dan memberi Anda gambaran yang bagus.

Bersama kami, kami tidak melakukan itu sama sekali. Kami menggunakan jaringan saraf untuk menanyakan hal-hal ini. Jadi kita bisa membangun pohon sebesar dan serumit mungkin secara manusiawi. Hal-hal yang membutuhkan 500 terabyte yang tidak dapat diselesaikan oleh komputer modern mana pun, dapat kami lakukan dalam 30 detik. Ini akan memungkinkan Doug berkata, “Hei, kami ingin mencari tahu ukuran terbaik di setiap ukuran tumpukan. Jadi mari kita jalankan 2x, a 2.1x, 2.2x, 2.3x ”dan seterusnya, dan dia dapat melakukannya di setiap ukuran tumpukan. Ini bisa menjadi sangat terperinci.

Di mana praktis untuk menerapkan mengubah ukuran Anda? Bagaimana jika Daniel … dan Anda harus ingat, ini sebelum mereka memainkan tangan apa pun pada awalnya. Bagaimana jika Daniel terbuka untuk ukuran ini? Bagaimana jika dia pincang? Apakah dia akan bertaruh tiga untuk ukuran ini? Berapa ukuran tiga taruhan optimal kami? Itu hanya sejumlah besar lari.

Doug akan mengambil hasil ini dan dia akan mengumpulkannya dan membahasnya dengan pelatihnya. Ini adalah keseimbangan antara apa yang praktis untuk diterapkan di dunia nyata, karena Anda tidak dapat memiliki 57 ukuran berbeda dan dapat mengingat semuanya. Jadi, Anda dapat memilih satu atau dua ukuran dan mencari tahu seberapa kompleks strategi yang ingin Anda terapkan dan apakah itu layak atau tidak berdasarkan EV (nilai yang diharapkan).

Awalnya, banyak sekali. Hanya sejumlah besar percobaan yang mencoba mencari tahu ukuran optimal dan cara mempermainkan sesuatu, mencari tahu apa yang mungkin dilakukan 'DNegs'. Namun jika Anda berbicara tentang salah satu pemecah lain yang tersedia di pasar, akan dibutuhkan waktu seminggu untuk melakukan masing-masing langkah ini dan mendapatkan hasil ini, dan itu terjadi pada sebagian kecil kegagalan.

Kami dapat menjalankan 150 dari mereka dalam semalam dan hanya memiliki laporan besar untuknya di pagi hari. Dan itulah yang dia lakukan. Dia akan kembali dengan pengulangan lain dan berkata, "Hei, ini menarik. Mari kita jelajahi lebih lanjut. " Dia ada di lab. Dia pasti ada di lab.

SS: Seperti apa jadwalnya? Apakah dia baru saja mendatangi Anda setelah setiap pertandingan dengan pertanyaan dan bertemu dengan Anda di hari libur di antaranya?

BP: Itu lebih dari pelatihnya. Saya pikir dia menjalani strategi dan seberapa baik dia menerapkan strategi tersebut dengan para pelatih tersebut. Dan bagi kami, itu seperti "Hei, kami ingin menjelajahi ini." Kami akan bertanya jenis pohon apa yang dia ingin kami jalankan dan mencari tahu apa yang dia coba untuk keluar dari ini. Dan kemudian kami akan kembali dan menjalankan semua hal ini dan hanya memberinya laporan besar untuk dicoba dan dilakukan.

Dia tidak kembali dan membicarakan tentang detail penerapan tertentu dalam game-nya. Itu terutama dengan tim kepelatihannya. Bagi kami, ini lebih tentang mengapa sesuatu terjadi. Ada saat-saat di mana dia salah membangun pohon atau dia pikir ada sesuatu yang aneh. Bagi kami, ini benar-benar tentang memberinya data sebanyak mungkin secara manusiawi.

SS: Negreanu sangat terbuka tentang membuat perubahan pada permainannya saat pertandingan berlangsung. Apakah Anda harus menjalankan data khusus untuk perubahan tersebut? Bagaimana rasanya melihat permainan Negreanu berkembang dari sudut pandang Anda?

BP: Kami pasti memperhatikan beberapa kecenderungannya. Dia melakukan beberapa hal yang seharusnya tidak pernah Anda lakukan. Dia merayu raja saku dan ratu saku dari posisi yang salah, misalnya. Ada semua permainan ini yang bahkan tidak bisa dianggap sebagai strategi campuran. Mereka hanyalah hal-hal yang seharusnya berada di titik nol.

Kami harus mencari tahu dari dunia apa strateginya ditarik. Dari mana dia mendapatkan barang-barang ini. Saya agak mempertanyakan realitas sebentar. Saya tahu ini seharusnya tidak menjadi apa-apa, tetapi itu adalah sesuatu, terutama karena dia lebih cepat panas. Ada beberapa hal yang membuat kami mengajukan pertanyaan, tetapi kami harus mengulanginya kembali.

Dia mulai mencampurkan ukuran lain, dan setelah mereka mulai bermain, Anda melihat di mana dia akan mengubah ukurannya dan kapan dia tidak mengubah ukurannya sama sekali. Atau kami pikir dia akan menggunakan ukuran tiga taruhan tertentu, tetapi dia sebenarnya menggunakan ukuran lain. Itu adalah proses yang berkelanjutan dan ada banyak rentang yang dibuang setiap hari selama seluruh tantangan. Doug hanyalah seekor binatang. Dia ingin belajar lebih banyak, dia ingin mendalami lebih banyak.

SS: Mendengar Anda berbicara tentang hal-hal ini sangat menarik, tetapi apakah menurut Anda rata-rata pemain poker takut untuk bermain poker head-up setelah mendengar tentang seberapa dalam beberapa hal ini berjalan?

BP: Dalam arti tertentu memang menakutkan, tetapi tidak ada yang boleh kecewa dengan apa yang diperlukan untuk menjadi yang terbaik di dunia. Anda melihat sebuah NBA pemain dan Anda mungkin ingin percaya bahwa mereka sangat berbakat secara alami sehingga yang mereka lakukan hanyalah menginjak lapangan dan menghancurkan, tetapi pada kenyataannya mereka memiliki tim bantuan yang sangat besar seperti ahli diet, dan pelatih menembak lemparan bebas, pelatih khusus untuk semua yang mereka lakukan .

Setiap orang yang elit dalam sesuatu yang kompetitif seperti poker tahu bahwa itu membutuhkan lebih banyak pekerjaan. Ketika saya memulainya pada tahun 2002, itu hanya jenis orang pintar yang mencoba untuk mengecoh satu sama lain. Bahkan tidak ada pemecah masalah. Anda baru saja berbicara teori dengan teman-teman Anda. Saya yakin seperti itulah bola basket di tahun 70-an, tetapi banyak hal berkembang seiring semakin kompetitif.

Pada akhirnya, itulah yang diperlukan untuk menjadi salah satu yang terbaik di dunia. Karena ukuran yang terbaik di dunia saat ini jauh lebih baik daripada 10 tahun yang lalu. Dengan cara yang sama Steph Curry dan Lebron James lebih baik dalam bola basket daripada siapa pun generasi yang lalu.

Kebanyakan orang hanya akan menonton poker dan mereka hanya akan melihat pikiran orang-orang ini bekerja dengan cara yang sama seperti Anda menonton atlet di TV. Anda tidak melihat banyaknya pekerjaan yang dilakukan untuk mendapatkan keterampilan itu dan mampu bersaing di level tersebut. ♠

. (tagsToTranslate) Bryan Pellegrino (t) PrimordialAA (t) Doug Polk (t) Daniel Negreanu (t) Poker Strategy (t) Advanced Poker Strategy (t) Heads-Up Poker (t) Heads-Up Match