Техас Холдем покер нь 150 саяас их хүн тоглодог дэлхий нийтэд түгсэн тоглоом билээ. Дэлхийн аварга шалгаруулах тэмцээн нь гэхэд л хэдэн сая долларын төлөө хоорондоо тоглодог. Энэ тоглоомд компьютер хүчээ сорих цаг иржээ.
Одоогоос арван долоон жилийн "IBM" компанийн хөгжүүлсэн Гүн Хөх (Deep Blue) супер компьютер дэлхийн олон удаагийн шатрын аварга Гарри Каспаровыг ялж компьютер хүнээс илүү гэдгээ харуулсан. Мөн тэр онд даам, дөрөв дарааллуулах (Connect Four) тоглоомуудын алгоритмууд гарсан байдаг. Харин покерын хиймэл оюун ухааныг хийнэ гэдэг дээрх тоглоомуудаас тэс өөр зүйл юм. Дээрх тоглоомуудын бүх нүүдэл, мэдээлэл нь тодорхой байдаг бол покерт тоглогч бүр нь хоёрхон хөзөртэй, тооцоолол хийх мэдээлэл тун хомс байдаг юм. Харин Канадын Албертагийн Их Сургуулийн компьютерын эрдэмтэн судлаачид математик аргаар бооцоогоо хамгийн бага алдаж, олон тоглолтын туршид зөв шийдвэр гаргадаг компьютерыг бүтээж чаджээ.
Үнэндээ уг компьютерыг бүтээсэн хүмүүс Техас Холдемыг тоглодоггүй гэнэ. Математик бодлого болгон бодох нь чухал учир тоглодог, тоглодоггүй нь нээх чухал зүйл биш юм. Өө, нээрээ компьютерын нэрийг нь хэлэхээ мартсан байна, Сифиүс (Cepheus).
Компьютерыг хөгжүүлэгчдийн нэг Нейл Бөрч (Neil Birch) хэлэхдээ: "Та Сифиүстэй нэг удаа тоглоод, тэр тоглолтод Сифиүс хөзрөө хаяж та хожиж болно. Энэ чинь л покер. Покер гэдэг бол та хэр удаан тоглосон вэ? гэдгээр хэмжигддэг. Та Сифиүстэй удаан тоглох бол Сифиүс хэзээ ч хожигдохгүй. Хэзээ ч алдаа гаргадаггүй юм." гэжээ.
Саяхан 2015 оны нэгдүгээр сарын 8-нд Бөрч болон түүний хамтрагчид "Шинжлэх ухаан" сэтгүүлд эрдэм шинжилгээний бүтээлээ нийтлүүлжээ. Уг нийтлэлд компьютерын шинжлэх ухааны үүднээс хоёрхон тоглогчтой, бооцооны хэмжээ, бооцоо өсгөх хэмжээнүүд нь өгөгдсөн тохиолдолд шууд тооцоо хийж болно. Гэвч бодит байдал ийм байдаггүй. Тиймээс нийт покерын тоглолтуудын мэдээлэлд суурилсан статистик тооцоололд суурилах нь чухал юм. Сифиүс тооцооллоо өдөрт 12 цаг, цагт 200 тоглолттой 70 жилийн мэдээллийг агуулсан 11 терабайт өгөгдлийг агуулсан хүснэгтийг ашиглаж зөв үйлдлээ тооцоолдог байна.
Уг компьютерын тооцооллыг хийдэг алгоритмыг "CFR+" гэдэг. Энэ алгоритм нь өмнө нь гарсан байсан "CFR" (Counterfactual Regret Minimization) буюу тооцоолоогүй гарзыг багасгах алгоритмын сайжруулсан хувилбар юм. "CFR" алгоритм нь олон тоглолт бүрд тооцоолоогүй гарз гарахад гарзаа хамгийн бага байлгах замыг олж шийдвэр гаргадаг. Сул тал нь нэг тоглоомыг бүрэн тооцоолоход маш их хэмжээний буюу 262 терабайт санах ой шаарддаг. Өөрөөл хэлбэл 1 гигабайт санах ойгоос 268,288 дахин их гэсэн үг.
Энэ алгоритмын хялбаршуулсан хувилбарыг өдгөө хүртэл бусад покерын компьютер тоглоомууд ашигладаг байжээ. "CFR+" нь өмнөхөөсөө гарзыг багасгах ондоо техник ашигладаг, бүх өмнөх стратегиудээс хамгийн сүүлийн стратегийг нь сонгодог үе шатуудыг хөнгөвчилж шууд хамгийн сүүлд ашигласан стратегийг нь сонгодог болгосон байна.
Бөрч хэлэхдээ: "Бид гурван үйлдэл хийдэг байсныг нь хоёр болгосон." гэжээ. Ингэснээр "CFR+" нь хуучин алгоритмаасаа илүү үр ашигтай, илүү олон алхмын цаад талыг хардаг болсон. Санах ойн 11 терабайтыг хүсээгүй тохиолдлыг хадгалахад, 6 терабайтыг үндсэн тооцоолол хийхэд ашигладаг байна. Ийм хэмжээний санах ойг бүтээхийн тулд нэгж тус бүр нь 1ГГц "AMD" цөм, 32ГБ рам, 1ТБ хатуу дисктэй 24 ширхэг компьютероос бүрдэх 200 тооцоолох нэгжийн кластерыг байгуулсан байна.
"CFR+" алгоритмыг хөгжүүлэгчид энэ алгоритмыг өөр бусад тоглоомуудад ашиглахаас гадна бодит амьдралд, батлан хамгаалах салбарт ч хэрэглэгдэж болно гэж найдаж байгаа байна.
Эх сурвалж:
Техас Холдем покер нь 150 саяас их хүн тоглодог дэлхий нийтэд түгсэн тоглоом билээ. Дэлхийн аварга шалгаруулах тэмцээн нь гэхэд л хэдэн сая долларын төлөө хоорондоо тоглодог. Энэ тоглоомд компьютер хүчээ сорих цаг иржээ.
Одоогоос арван долоон жилийн "IBM" компанийн хөгжүүлсэн Гүн Хөх (Deep Blue) супер компьютер дэлхийн олон удаагийн шатрын аварга Гарри Каспаровыг ялж компьютер хүнээс илүү гэдгээ харуулсан. Мөн тэр онд даам, дөрөв дарааллуулах (Connect Four) тоглоомуудын алгоритмууд гарсан байдаг. Харин покерын хиймэл оюун ухааныг хийнэ гэдэг дээрх тоглоомуудаас тэс өөр зүйл юм. Дээрх тоглоомуудын бүх нүүдэл, мэдээлэл нь тодорхой байдаг бол покерт тоглогч бүр нь хоёрхон хөзөртэй, тооцоолол хийх мэдээлэл тун хомс байдаг юм. Харин Канадын Албертагийн Их Сургуулийн компьютерын эрдэмтэн судлаачид математик аргаар бооцоогоо хамгийн бага алдаж, олон тоглолтын туршид зөв шийдвэр гаргадаг компьютерыг бүтээж чаджээ.
Үнэндээ уг компьютерыг бүтээсэн хүмүүс Техас Холдемыг тоглодоггүй гэнэ. Математик бодлого болгон бодох нь чухал учир тоглодог, тоглодоггүй нь нээх чухал зүйл биш юм. Өө, нээрээ компьютерын нэрийг нь хэлэхээ мартсан байна, Сифиүс (Cepheus).
Компьютерыг хөгжүүлэгчдийн нэг Нейл Бөрч (Neil Birch) хэлэхдээ: "Та Сифиүстэй нэг удаа тоглоод, тэр тоглолтод Сифиүс хөзрөө хаяж та хожиж болно. Энэ чинь л покер. Покер гэдэг бол та хэр удаан тоглосон вэ? гэдгээр хэмжигддэг. Та Сифиүстэй удаан тоглох бол Сифиүс хэзээ ч хожигдохгүй. Хэзээ ч алдаа гаргадаггүй юм." гэжээ.
Саяхан 2015 оны нэгдүгээр сарын 8-нд Бөрч болон түүний хамтрагчид "Шинжлэх ухаан" сэтгүүлд эрдэм шинжилгээний бүтээлээ нийтлүүлжээ. Уг нийтлэлд компьютерын шинжлэх ухааны үүднээс хоёрхон тоглогчтой, бооцооны хэмжээ, бооцоо өсгөх хэмжээнүүд нь өгөгдсөн тохиолдолд шууд тооцоо хийж болно. Гэвч бодит байдал ийм байдаггүй. Тиймээс нийт покерын тоглолтуудын мэдээлэлд суурилсан статистик тооцоололд суурилах нь чухал юм. Сифиүс тооцооллоо өдөрт 12 цаг, цагт 200 тоглолттой 70 жилийн мэдээллийг агуулсан 11 терабайт өгөгдлийг агуулсан хүснэгтийг ашиглаж зөв үйлдлээ тооцоолдог байна.
Уг компьютерын тооцооллыг хийдэг алгоритмыг "CFR+" гэдэг. Энэ алгоритм нь өмнө нь гарсан байсан "CFR" (Counterfactual Regret Minimization) буюу тооцоолоогүй гарзыг багасгах алгоритмын сайжруулсан хувилбар юм. "CFR" алгоритм нь олон тоглолт бүрд тооцоолоогүй гарз гарахад гарзаа хамгийн бага байлгах замыг олж шийдвэр гаргадаг. Сул тал нь нэг тоглоомыг бүрэн тооцоолоход маш их хэмжээний буюу 262 терабайт санах ой шаарддаг. Өөрөөл хэлбэл 1 гигабайт санах ойгоос 268,288 дахин их гэсэн үг.
Энэ алгоритмын хялбаршуулсан хувилбарыг өдгөө хүртэл бусад покерын компьютер тоглоомууд ашигладаг байжээ. "CFR+" нь өмнөхөөсөө гарзыг багасгах ондоо техник ашигладаг, бүх өмнөх стратегиудээс хамгийн сүүлийн стратегийг нь сонгодог үе шатуудыг хөнгөвчилж шууд хамгийн сүүлд ашигласан стратегийг нь сонгодог болгосон байна.
Бөрч хэлэхдээ: "Бид гурван үйлдэл хийдэг байсныг нь хоёр болгосон." гэжээ. Ингэснээр "CFR+" нь хуучин алгоритмаасаа илүү үр ашигтай, илүү олон алхмын цаад талыг хардаг болсон. Санах ойн 11 терабайтыг хүсээгүй тохиолдлыг хадгалахад, 6 терабайтыг үндсэн тооцоолол хийхэд ашигладаг байна. Ийм хэмжээний санах ойг бүтээхийн тулд нэгж тус бүр нь 1ГГц "AMD" цөм, 32ГБ рам, 1ТБ хатуу дисктэй 24 ширхэг компьютероос бүрдэх 200 тооцоолох нэгжийн кластерыг байгуулсан байна.
"CFR+" алгоритмыг хөгжүүлэгчид энэ алгоритмыг өөр бусад тоглоомуудад ашиглахаас гадна бодит амьдралд, батлан хамгаалах салбарт ч хэрэглэгдэж болно гэж найдаж байгаа байна.
Эх сурвалж: