ÉèÎªÊ×Ò³ ÊÕ²Ø±¾Õ¾ ÔÚÏß¶©²Í ·¿²ú½»Ò×²éÑ¯ ·±ÌåÖÐÎÄ

¿ªÆô¸¨Öú·ÃÎÊ

ÎÂÄá²®Õ¾»ÂÛÌ³ › ÎÂÄá²®Õ¾ › ×ÊÑ¶ÐÅÏ¢ › ½«Àë²ßÂÔÆÀ¹À¿´×÷·ÖÀà£¬¹È¸èÌá³öÐÂÐÍÇ¿»¯Ñ§Ï°Ä£ÐÍÑ¡Ôñ·½ ...

·µ»ØÁÐ±í

·¢ÐÂÌû

²é¿´: 126|»Ø¸´: 0

ÉÏÒ»Ö÷Ìâ

ÏÂÒ»Ö÷Ìâ

[×ÛºÏ×ÊÑ¶] ½«Àë²ßÂÔÆÀ¹À¿´×÷·ÖÀà£¬¹È¸èÌá³öÐÂÐÍÇ¿»¯Ñ§Ï°Ä£ÐÍÑ¡Ôñ·½·¨OPC

[¸´ÖÆÁ´½Ó]

ÎÂÄá²®Õ¾

14Íò Ö÷Ìâ	14Íò Ìû×Ó	29Íò »ý·Ö

ÓÐbug£¬ÓÐÎÊÌâÇëË½ÐÅ¡£

Rank: 9 Rank: 9 Rank: 9

»ý·Ö: 290469

·¢ÏûÏ¢

µçÌÝÖ±´ï

Ìø×ªµ½Ö¸¶¨Â¥²ã

Â¥Ö÷

·¢±íÓÚ 2019-7-23 01:03:00 | Ö»¿´¸Ã×÷Õß |Ö»¿´´óÍ¼ »ØÌû½±Àø

»ØÌû½±Àø

|µ¹Ðòä¯ÀÀ |ÔÄ¶ÁÄ£Ê½

Ñ¡×ÔGoogle AI Blog
×÷Õß£ºAlex Irpan
»úÆ÷Ö®ÐÄ±àÒë
²ÎÓë£ºGeek AI¡¢Â·

ÍêÈ«µÄÀë²ßÂÔÇ¿»¯Ñ§Ï°¿ÉÒÔ»ùÓÚÖ®Ç°ÖÇÄÜÌåÊÕ¼¯µ½µÄÊý¾ÝÑµÁ·¶à¸öÄ£ÐÍ£¬µ«ËüÎÞ·¨ÔÚÃ»ÓÐÕæÊµ»úÆ÷ÈËµÄÇé¿öÏÂ½øÐÐÄ£ÐÍÆÀ¹À¡£¶øÀë²ßÂÔÆÀ¹À¡¸off-policy evaluation£¬OPE¡¹¿ÉÒÔ°ïÖúÑÐ¾¿ÈËÔ±Ñ¡Ôñ×îÓÐÇ±Á¦µÄÄ£ÐÍ£¬½ø¶øÔÚÕæÊµ»·¾³ÖÐÆÀ¹À¡£¹È¸è×î½üÌá³öÒ»ÖÖÐÂÐÍÀë²ßÂÔÆÀ¹À·½·¨¡ª¡ªÀë²ßÂÔ·ÖÀà£¬½«ÆÀ¹ÀÊÓÎªÒ»¸ö·ÖÀàÈÎÎñ£¬¸ù¾Ý¹ýÈ¥µÄÊý¾ÝÆÀ¹ÀÖÇÄÜÌåµÄÐÔÄÜ£¬ÆäÖÐÖÇÄÜÌåµÄ¶¯×÷¡¸action¡¹±»±ê×¢Îª¡¸¿ÉÄÜµ¼ÖÂ³É¹¦¡¹»ò¡¸Ò»¶¨µ¼ÖÂÊ§°Ü¡¹¡£OPC ¿ÉÒÔÀ©Õ¹µ½¸ü¹ã·ºµÄÈÎÎñ£¬°üÀ¨ÏÖÊµÊÀ½çÖÐ»ùÓÚÊÓ¾õµÄ»úÆ÷ÈË×¥È¡ÈÎÎñ¡£

Ç¿»¯Ñ§Ï°£¨RL£©ÊÇÒ»ÖÖÈÃÖÇÄÜÌå¸ù¾Ý¾ÑéÑ§Ï°¾ö²ßµÄ¿ò¼Ü¡£Àë²ßÂÔÇ¿»¯Ñ§Ï°ÊÇÖÚ¶àÇ¿»¯Ñ§Ï°±äÌåÖÐµÄÒ»ÖÖ£¬ÆäÖÐÃ¿¸öÖÇÄÜÌåÊ¹ÓÃÓÉÆäËüÖÇÄÜÌåÊÕ¼¯µ½µÄÊý¾Ý£¨Àë²ßÂÔÊý¾Ý£©ÒÔ¼°Ëü×Ô¼ºÊÕ¼¯µ½µÄÊý¾Ý½øÐÐÑµÁ·£¬´Ó¶øÑ§Ï°¡¸»úÆ÷ÈËÐÐ×ßºÍ×¥È¡¡¹µÈ¿É·º»¯¼¼ÄÜ¡£
ÁíÒ»·½Ãæ£¬ÍêÈ«µÄÀë²ßÂÔÇ¿»¯Ñ§Ï°ÖÐ£¬ÖÇÄÜÌåÍêÈ«¸ù¾Ý¾ÉµÄÊý¾Ý½øÐÐÑ§Ï°£¬Õâ·Ç³£ÓÐÎüÒýÁ¦£¬ÒòÎªËüÈÃÄ£ÐÍ¿ÉÒÔÔÚ²»ÐèÒªÊµÌå»úÆ÷ÈËµÄÇé¿öÏÂ½øÐÐµü´ú¡£Í¨¹ýÍêÈ«µÄÀë²ßÂÔÇ¿»¯Ñ§Ï°£¬ÎÒÃÇ¿ÉÒÔÊ¹ÓÃÖ®Ç°µÄÖÇÄÜÌåÊÕ¼¯µ½µÄÍ¬Ñù¹Ì¶¨Êý¾Ý¼¯À´ÑµÁ·¶à¸öÄ£ÐÍ£¬È»ºó´ÓÖÐÑ¡È¡×î¼ÑÄ£ÐÍ¡£
È»¶ø£¬ÍêÈ«µÄÀë²ßÂÔÇ¿»¯Ñ§Ï°Ò²´øÀ´ÁËÒ»¸öÎÊÌâ£º¾¡¹Ü¿ÉÒÔÔÚÃ»ÓÐÕæÊµ»úÆ÷ÈËµÄÇé¿öÏÂ½øÐÐÑµÁ·£¬µ«ÊÇ²¢²»ÄÜ½øÐÐÄ£ÐÍµÄÆÀ¹À¡£´ËÍâ£¬Ê¹ÓÃÊµÌå»úÆ÷ÈË½øÐÐÕæÖµ£¨ground truth£©ÆÀ¹ÀµÄÐ§ÂÊÊµÔÚÊÇÌ«µÍÁË£¬ÎÞ·¨²âÊÔÐèÒª¶Ô´óÁ¿Ä£ÐÍ½øÐÐÆÀ¹ÀµÄÓÐÇ±Á¦µÄ·½·¨£¨ÀýÈçÊ¹ÓÃ AutoML ½øÐÐ×Ô¶¯»¯Éñ¾ÍøÂç¼Ü¹¹ËÑË÷£©¡£
ÕâÒ»ÌôÕ½ÍÆ¶¯ÁËÀë²ßÂÔÆÀ¹À£¨OPE£©µÄ·¢Õ¹£¬OPE ¼´Ê¹ÓÃÆäËüÖÇÄÜÌåÊÕ¼¯µ½µÄÊý¾ÝÑÐ¾¿ÐÂÖÇÄÜÌåÖÊÁ¿µÄ¼¼Êõ¡£Í¨¹ý OPE µÄÅÅÐò£¬ÎÒÃÇ¿ÉÒÔÓÐÑ¡ÔñÐÔµØÔÚÕæÊµ»úÆ÷ÈËÉÏ²âÊÔ×îÓÐÇ±Á¦µÄÄ£ÐÍ£¬Õâ¿ÉÒÔÔÚÍ¬ÑùµÄÕæÊµ»úÆ÷ÈËÔ¤ËãÏÂÏÔÖøµØÀ©Õ¹ÊµÑé¹æÄ£¡£

½«Àë²ßÂÔÆÀ¹À¿´×÷·ÖÀà£¬¹È¸èÌá³öÐÂÐÍÇ¿»¯Ñ§Ï°Ä£ÐÍÑ¡Ôñ·½·¨OPC

¿ª·¢ÕæÊµÊÀ½çÄ£ÐÍµÄÊ¾ÒâÍ¼¡£¼ÙÉèÎÒÃÇÃ¿Ìì¿ÉÒÔÆÀ¹À 10 ¸öÄ£ÐÍ£¬ÔÚÃ»ÓÐÀë²ßÂÔÆÀ¹ÀµÄÇé¿öÏÂ£¬ÎÒÃÇ½«ÐèÒª 100 ±¶µÄÊ±¼äÀ´½øÐÐÄ£ÐÍÆÀ¹À¡£
¾¡¹Ü OPE ¿ò¼Ü·Ç³£ÓÐ·¢Õ¹Ç°¾°£¬µ«ÊÇËü¼ÙÉèÎÒÃÇÓµÓÐÒ»ÖÖ»ùÓÚ¾ÉÊý¾Ý¶ÔÄ£ÐÍÐÔÄÜ½øÐÐ×¼È·ÅÅÐòµÄÀë²ßÂÔÆÀ¹À·½·¨¡£È»¶ø£¬ÊÕ¼¯¹ýÈ¥¾ÑéµÄÖÇÄÜÌå¿ÉÄÜÓëÐÂÑ§µÃµÄÖÇÄÜÌåÔÚÐÐÎª·½Ê½ÉÏ´æÔÚºÜ´ó²î±ð£¬ÕâÊ¹µÃÎÒÃÇºÜÄÑµÃµ½Á¼ºÃµÄÐÔÄÜÆÀ¹À¡£
ÔÚÂÛÎÄ¡¸Off-Policy Evaluation via Off-Policy Classification¡¹ÖÐ£¬¹È¸èÌá³öÁËÒ»ÖÖ½Ð×÷¡¸Àë²ßÂÔ·ÖÀà¡¹£¨Off-policy classification£¬OPC£©µÄÐÂÐÍÀë²ßÂÔÆÀ¹À·½·¨¡£¸Ã·½·¨½«ÆÀ¹ÀÊÓÎªÒ»¸ö·ÖÀàÈÎÎñ£¬¸ù¾Ý¹ýÈ¥µÄÊý¾ÝÆÀ¹ÀÖÇÄÜÌåµÄÐÔÄÜ£¬ÆäÖÐÖÇÄÜÌåµÄ¶¯×÷£¨action£©±»±ê×¢Îª¡¸¿ÉÄÜµ¼ÖÂ³É¹¦¡¹»ò¡¸Ò»¶¨µ¼ÖÂÊ§°Ü¡¹¡£
¸Ã·½·¨ÊÊÓÃÓÚÍ¼Ïñ£¨Ïà»ú£©ÊäÈë£¬¶øÇÒ²»ÐèÒªÍ¨¹ýÖØÒªÐÔ²ÉÑù»òÊ¹ÓÃÄ¿±ê»·¾³µÄ×¼È·Ä£ÐÍ£¨ÕâÁ½ÖÖ·½·¨ÔÚÖ®Ç°¹¤×÷ÖÐ¾³£±»Ê¹ÓÃ£©ÖØÐÂµ÷ÕûÊý¾ÝÈ¨ÖØ¡£ÕâÏîÑÐ¾¿±íÃ÷£¬OPC ¿ÉÒÔÀ©Õ¹µ½¸ü´óµÄÈÎÎñ£¬°üÀ¨ÏÖÊµÊÀ½çÖÐ»ùÓÚÊÓ¾õµÄ»úÆ÷ÈË×¥È¡ÈÎÎñ¡£
OPC ÊÇÈçºÎ¹¤×÷µÄ£¿
OPC ½¨Á¢ÔÚÁ½¸ö¼ÙÉèÖ®ÉÏ£º1£©×îÖÕµÄÈÎÎñ¾ßÓÐÈ·¶¨ÐÔ¶¯Ì¬£¨deterministic dynamics£©£¬¼´×´Ì¬µÄ±ä»¯²»´æÔÚËæ»úÐÔ£»2£©ÔÚÃ¿´ÎÊÔÑé½áÊøÊ±£¬ÖÇÄÜÌåÒªÃ´³É¹¦ÒªÃ´Ê§°Ü¡£¶ÔÓÚºÜ¶àÈÎÎñ£¨ÀýÈçÊ°È¡ÎïÌå¡¢×ßÃÔ¹¬¡¢Ó®µÃÓÎÏ·µÈ£©£¬µÚ¶þ¸ö¼ÙÉèÊÇºÜ×ÔÈ»µÄ¡£ÓÉÓÚÃ¿´ÎÊÔÑéÒªÃ´³É¹¦ÒªÃ´Ê§°Ü£¬Òò´ËÎÒÃÇ¿ÉÒÔÎªÃ¿¸ö¶¯×÷´òÉÏÒ»¸ö¶þ·ÖÀà±êÇ©¡£Èç¹ûÄ³¸ö¶¯×÷¿ÉÒÔµ¼ÖÂ³É¹¦£¬ÎÒÃÇ¾Í½«Æä³ÆÎª¡¸ÓÐÐ§µÄ¡¹£¨effective£©£»¶øÈç¹ûÄ³¸ö¶¯×÷Ò»¶¨»áµ¼ÖÂÊ§°Ü£¬ÎÒÃÇ¾Í½«Æä³ÆÎª¡¸ÔÖÄÑÐÔµÄ¡¹£¨catastrophic£©¡£
OPC Ê¹ÓÃµ½ÁËÒ»¸ö Q º¯Êý£¬ËüÍ¨¹ý Q Ñ§Ï°Ëã·¨Ñ§µÃ¡£Èç¹ûÖÇÄÜÌåÑ¡ÔñÔÚµ±Ç°×´Ì¬ÏÂ²ÉÈ¡Ä³¸ö¶¯×÷£¬Ôò Q º¯Êý»á¹À¼ÆÎ´À´µÄ×Ü½±Àø£¨reward£©¡£½Ó×Å£¬ÖÇÄÜÌå»áÑ¡Ôñ¾ßÓÐ×î´ó×Ü½±Àø¹À¼ÆÖµµÄ¶¯×÷¡£¹È¸èÑÐ¾¿ÈËÔ±ÔÚÂÛÎÄÖÐÖ¤Ã÷ÁË£¬ÖÇÄÜÌåµÄÐÔÄÜÊÇ¸ù¾ÝËüËùÑ¡ÔñµÄ¶¯×÷¡¸ÓÐÐ§¡¹µÄÆµÂÊÀ´ºâÁ¿µÄ£¬ÕâÈ¡¾öÓÚ¡¸Q º¯Êý¡¹½øÐÐ¶¯×÷·ÖÀàµÄ×¼È·ÂÊ¡£¶ø¸Ã·ÖÀà×¼È·ÂÊ±»×÷ÎªÀë²ßÂÔÆÀ¹À·ÖÊý¡£
È»¶ø£¬ÒÔÍùµÄÊÔÑéËùµÃµ½µÄÊý¾ÝÖ»½øÐÐÁË²¿·ÖµÄ±ê×¢¡£ÀýÈç£¬Èç¹ûÒ»¸öÖ®Ç°µÄÊÔÑéÊ§°ÜÁË£¬ÓÉÓÚÎÒÃÇ²»ÖªµÀÄÄ¸ö¶¯×÷ÊÇ¡¸ÔÖÄÑÐÔ¡¹µÄ£¬ÎÒÃÇ²»»áµÃµ½¸º±êÇ©¡£ÎªÁË½â¾öÕâ¸öÎÊÌâ£¬¹È¸èÑÐ¾¿ÈËÔ±ÀûÓÃ°ë¼à¶½Ñ§Ï°ÖÐµÄ¼¼Êõ PU Ñ§Ï°£¨positive-unlabeled learning£©£¬¸ù¾Ý²¿·Ö±ê×¢Êý¾ÝµÃµ½¶Ô·ÖÀà×¼È·ÂÊµÄ¹À¼Æ¡£ÕâÀïµÄ×¼È·ÂÊ¾ÍÊÇ OPC µÃ·Ö¡£
¶Ô Sim-to-Real Learning µÄÀë²ßÂÔÆÀ¹À

ÔÚ»úÆ÷ÈËÑ§ÖÐ£¬¾³£Ê¹ÓÃ·ÂÕæÊý¾ÝºÍÇ¨ÒÆÑ§Ï°¼¼ÊõÀ´½µµÍÑ§Ï°»úÆ÷ÈË¼¼ÄÜµÄÑù±¾¸´ÔÓ¶È¡£ÕâÖÖ×ö·¨·Ç³£ÊµÓÃ£¬µ«ÊÇÕë¶ÔÕæÊµÊÀ½ç»úÆ÷ÈËµ÷ÕûÕâÐ© sim-to-real ¼¼ÊõÊÇ·Ç³£¾ßÓÐÌôÕ½ÐÔµÄ¡£ÕâºÜÏñ²»Ê¹ÓÃÕæÊµ»úÆ÷ÈËÑµÁ·µÄÀë²ßÂÔÇ¿»¯Ñ§Ï°£¬ËüÒ²ÊÇÔÚ·ÂÕæ»·¾³ÖÐÑµÁ·µÄ£¬µ«ÊÇ¶ÔÓÚÕâÖÖ²ßÂÔµÄÆÀ¹ÀÈÔÈ»ÐèÒªÊ¹ÓÃÒ»¸öÕæÊµ»úÆ÷ÈË¡£
ÔÚÕâÀï£¬Àë²ßÂÔÆÀ¹À¿ÉÒÔÔÙ´Î·¢»Ó×÷ÓÃ£¬ÎÒÃÇ¿ÉÒÔ²ÉÓÃÒ»ÖÖ½ö½öÔÚ·ÂÕæ»·¾³ÏÂÑµÁ·µÄ²ßÂÔ£¬È»ºóÊ¹ÓÃÖ®Ç°µÄÕæÊµÊÀ½çÊý¾ÝÀ´ÆÀ¹ÀËü£¬´Ó¶øºâÁ¿ËüÇ¨ÒÆµ½ÕæÊµ»úÆ÷ÈËÉÏµÄÐÔÄÜ¡£¹È¸èÔÚÍêÈ«µÄÀë²ßÂÔÇ¿»¯Ñ§Ï°ºÍ sim-to-real Ç¿»¯Ñ§Ï°Á½ÖÖ³¡¾°ÏÂ²âÊÔÁË OPC¡£

½«Àë²ßÂÔÆÀ¹À¿´×÷·ÖÀà£¬¹È¸èÌá³öÐÂÐÍÇ¿»¯Ñ§Ï°Ä£ÐÍÑ¡Ôñ·½·¨OPC

·ÂÕæ¾ÑéÓëÕæÊµÊÀ½ç¾ÑéµÄÇø±ðÊ¾Àý¡£ÕâÀï£¬·ÂÕæÍ¼Ïñ£¨×óÍ¼£©±ÈÕæÊµÊÀ½çÍ¼Ïñ£¨ÓÒÍ¼£©µÄÊÓ¾õ¸´ÔÓ¶ÈµÍ¡£
ÊµÑé½á¹û
ÑÐ¾¿ÈËÔ±Ê×ÏÈÉèÖÃÁËÒ»¸ö»úÆ÷ÈË×¥È¡ÈÎÎñµÄ·ÂÕæ°æ±¾£¬·½±ãÑÐ¾¿ÕßÇáËÉÑµÁ·ºÍÆÀ¹À¶à¸öÄ£ÐÍ£¬´Ó¶ø¶ÔÀë²ßÂÔÆÀ¹À½øÐÐ»ù×¼¶Ô±È²âÊÔ¡£ÕâÐ©Ä£ÐÍ¶¼ÊÇÍ¨¹ýÍêÈ«µÄÀë²ßÂÔÇ¿»¯Ñ§Ï°ÑµÁ·µÄ£¬È»ºóÍ¨¹ýÀë²ßÂÔÆÀ¹À·½·¨À´ÆÀ¹À¡£ÑÐ¾¿ÈËÔ±·¢ÏÖ£¬ÔÚ¶à¸ö»úÆ÷ÈËÈÎÎñÖÐ£¬Ò»ÖÖ±»³ÆÎª¡¸SoftOPC¡¹µÄ OPC ±äÌåÔÚÔ¤²â×îÖÕ³É¹¦ÂÊÊ±È¡µÃÁË×î¼ÑÐÔÄÜ¡£

½«Àë²ßÂÔÆÀ¹À¿´×÷·ÖÀà£¬¹È¸èÌá³öÐÂÐÍÇ¿»¯Ñ§Ï°Ä£ÐÍÑ¡Ôñ·½·¨OPC

ÔÚ·ÂÕæµÄ×¥È¡ÈÎÎñÖÐµÄÊµÑé½á¹û¡£ºìÉ«ÇúÏßÊÇÔÚÑµÁ·¹ý³ÌÖÐ¼ÇÂ¼µÄÎÞÁ¿¸Ù SoftOPC µÃ·Ö£¨»ùÓÚ¾ÉÊý¾ÝÆÀ¹À£©¡£À¶É«ÇúÏßÊÇ·ÂÕæ»·¾³ÏÂµÄ×¥È¡³É¹¦ÂÊ¡£ÎÒÃÇ¿ÉÒÔ¿´µ½£¬ÔÚ·ÂÕæÆ÷ÖÐ£¬»ùÓÚ¾ÉÊý¾ÝµÄ SoftOPC ÓëÄ£ÐÍµÄ³É¹¦×¥È¡ÃÜÇÐÏà¹Ø¡£
ÔÚ·ÂÕæ»·¾³ÏÂÈ¡µÃ³É¹¦ºó£¬ÑÐ¾¿ÈËÔ±ÔÚÕæÊµÊÀ½çÈÎÎñÖÐ³¢ÊÔÊ¹ÓÃ SoftOPC¡£ËûÃÇÑ¡È¡ÁË 15 ¸öÄ£ÐÍ£¬¾¹ýÑµÁ·ÕâÐ©Ä£ÐÍ¶Ô·ÂÕæºÍÕæÊµ»·¾³µÄ²îÒìÓÐ²»Í¬³Ì¶ÈµÄÂ³°ôÐÔ¡£ÔÚÕâÐ©Ä£ÐÍÖÐ£¬ÓÐ 7 ¸ö½öÔÚ·ÂÕæ»·¾³ÏÂ½øÐÐÑµÁ·£¬ÆäÓà 8 ¸öÄ£ÐÍÔòÔÚ·ÂÕæºÍÕæÊµÊÀ½çÊý¾Ý»ìºÏµÄ»·¾³ÏÂ½øÐÐÑµÁ·¡£
¶ÔÓÚÃ¿¸öÄ£ÐÍ£¬ÑÐ¾¿Õß»ùÓÚÀë²ßÂÔÕæÊµÊÀ½çÊý¾ÝÆÀ¹À SoftOPC£¬È»ºó¶ÔÕæÊµÊÀ½çÖÐµÄ³É¹¦×¥È¡½øÐÐÆÀ¹À£¬¿´¿´ SoftOPC Ô¤²âÕâÐ©Ä£ÐÍÐÔÄÜµÄÄÜÁ¦ÈçºÎ¡£½á¹û±íÃ÷£¬ÔÚÕæÊµÊý¾ÝÉÏ£¬SoftOPC È·Êµ»áµÃµ½ÓëÕæÕýµÄ³É¹¦×¥È¡Ïà¹ØµÄµÃ·Ö£¬ËùÒÔÎÒÃÇ¿ÉÒÔÊ¹ÓÃ¹ýÈ¥µÄÕæÊµ¾Ñé¶Ô sim-to-real ¼¼Êõ½øÐÐÅÅÐò¡£

½«Àë²ßÂÔÆÀ¹À¿´×÷·ÖÀà£¬¹È¸èÌá³öÐÂÐÍÇ¿»¯Ñ§Ï°Ä£ÐÍÑ¡Ôñ·½·¨OPC

ÈýÖÖ²»Í¬ sim-to-real ·½·¨µÄ SoftOPC µÃ·ÖºÍÕæÊµÐÔÄÜ£º»ùÏß·ÂÕæ¡¢¾ß±¸Ëæ»úÎÆÀíºÍ¹âÕÕµÄ·ÂÕæ£¬ÒÔ¼°Ê¹ÓÃ RCAN ÑµÁ·µÄÄ£ÐÍ¡£ÒÔÉÏÈýÖÖÄ£ÐÍ¶¼Ê¹ÓÃ·ÇÕæÊµÊý¾ÝÑµÁ·£¬È»ºóÔÚÒ»×éÕæÊµÊý¾ÝÑéÖ¤¼¯ÉÏÊ¹ÓÃÀë²ßÂÔÆÀ¹À·½·¨½øÐÐÆÀ¹À¡£½á¹û±íÃ÷£¬SoftOPC µÃ·ÖµÄË³ÐòÓëÕæÊµ³É¹¦×¥È¡µÄË³ÐòÏà·û¡£
ÏÂÍ¼ÊÇ¸ù¾ÝËùÓÐ 15 ¸öÄ£ÐÍµÄ½á¹û»æÖÆµÄÉ¢µãÍ¼¡£Ã¿¸öµã´ú±íÃ¿¸öÄ£ÐÍµÄÀë²ßÂÔÆÀ¹ÀµÃ·ÖºÍÕæÊµÊÀ½ç³É¹¦×¥È¡Çé¿ö¡£ÑÐ¾¿Õß½«²»Í¬µÄ´ò·Öº¯ÊýÓëÆä×îÖÕ³É¹¦×¥È¡Çé¿öµÄÏà¹ØÐÔ½øÐÐÁË¶Ô±È¡£SoftOPC ²¢²»ÍêÈ«ÓëÕæÊµµÄ³É¹¦×¥È¡Ïà¹ØÁª£¬µ«ÊÇÆäµÃ·ÖÒªÃ÷ÏÔµØ±ÈÊ±Ðò²î·ÖÎó²î£¨TD error£¬Ò»ÖÖ±ê×¼µÄ Q Ñ§Ï°ËðÊ§£©µÈ»ùÏß·½·¨¸ü¿É¿¿¡£

½«Àë²ßÂÔÆÀ¹À¿´×÷·ÖÀà£¬¹È¸èÌá³öÐÂÐÍÇ¿»¯Ñ§Ï°Ä£ÐÍÑ¡Ôñ·½·¨OPC

sim-to-real ÆÀ¹ÀÊµÑéµÄ½á¹û¡£×óÍ¼ÊÇ»ùÏß£¬Ä£ÐÍµÄÊ±Ðò²î·ÖÎó²î¡£ÓÒÍ¼ÊÇ SoftOPC¡£ÒõÓ°ÇøÓòÊÇ 95% ÖÃÐÅÇø¼ä¡£SoftOPC µÄÏà¹ØÐÔÃ÷ÏÔÒª¸üÇ¿¡£
Î´À´µÄ¹¤×÷
Î´À´¹¤×÷µÄÒ»¸öÓÐÇ°¾°µÄ·½ÏòÊÇ£ºÄÜ·ñ·Å¿í¶Ô¸ÃÈÎÎñµÄ¼ÙÉè£¬´Ó¶øÖ§³ÖÔÚ¶¯Ì¬·½Ãæ¾ßÓÐ¸ü¶àÔëÉùµÄÈÎÎñ£¬¼´¶ÔÊÇ·ñ³É¹¦Ö»ÄÜµÃµ½²¿·ÖÐÅ¶È¡£
ÔÎÄÁ´½Ó£ºhttps://ai.googleblog.com/2019/06/off-policy-classification-new.html

ÊÕ²Ø0 Ö§³Ö0 ·´¶Ô0

¡¾Ö£ÖØÉùÃ÷¡¿ÎÂÄá²®Õ¾Ì³¿¯ÔØ´ËÎÄ²»´ú±íÍ¬ÒâÆäËµ·¨»òÃèÊö£¬½öÎªÌá¹©¸ü¶àÐÅÏ¢£¬Ò²²»¹¹³ÉÈÎºÎÍ¶×Ê»òÆäËû½¨Òé¡£×ªÔØÐè¾±¾ÍøÍ¬Òâ²¢×¢Ã÷³ö´¦¡£±¾ÍøÕ¾ÓÐ²¿·ÖÎÄÕÂÊÇÓÉÍøÓÑ×ÔÓÉÉÏ´«£¬¶ÔÓÚ´ËÀàÎÄÕÂ±¾Õ¾½öÌá¹©½»Á÷Æ½Ì¨£¬²»ÎªÆä°æÈ¨¸ºÔð£»²¿·ÖÄÚÈÝ¾ÉçÇøºÍÂÛÌ³×ªÔØ£¬Ô×÷ÕßÎ´Öª£¬Èç¹ûÄú·¢ÏÖ±¾ÍøÕ¾ÉÏÓÐÇÖ·¸ÄúµÄÖªÊ¶²úÈ¨µÄÎÄÕÂ£¬Çë¼°Ê±ÓëÎÒÃÇÁªÂç£¬ÎÒÃÇ»á¼°Ê±É¾³ý»ò¸üÐÂ×÷Õß¡£

»Ø¸´

Ê¹ÓÃµÀ¾ß ¾Ù±¨

·µ»ØÁÐ±í

·¢ÐÂÌû

ÊÖ»ú°æ|ÎÂÄá²®Õ¾

GMT-5, 2024-4-25 05:18 , Processed in 0.092385 second(s), 41 queries , Gzip On.

ÎÂÄá²®Õ¾°æÈ¨ËùÓÐ

All right reserved by Winnipeg Chinese Media.

¿ìËÙ»Ø¸´ ·µ»Ø¶¥²¿ ·µ»ØÁÐ±í