Reinforcement learning là gì

Share:

Trong nghành nghề trí tuệ tự tạo nói thông thường và nghành học máy nói riêng thì Reinforcement learing (RL) là một cách tiếp cận tập trung vào câu hỏi học để kết thúc được phương châm bằng việc liên can trực tiếp cùng với môi trường.

Bạn đang đọc: Reinforcement learning là gì

1. Reinforcement Learning (RL):

RL là học loại để thực hiện, tức là từ các trường hợp thực tế để lấy ra các action duy nhất định, miễn sao maximize được reward. Machine ko được bảo về cái action để triển khai mà chũm vào kia phải mày mò ra action hoàn toàn có thể tạo ra được nhiều reward nhất. Trong nhân loại của RL thì bọn họ có khái niệm call là agent, nó tất cả một chút nào đấy hàm ý về một thực thể mà bạn muốn train nó để hoàn toàn có thể làm được một task nào đó mà bạn giao phó (đương nhiên là nó sẽ tiến hành theo cách đã có được reward nhiều nhất).

Vì RL được ứng đụng không hề ít trong robotic với game đề nghị tôi đã lấy một ví dụ từ đây cho bạn hình dung. Dưới đó là 1 tựa mini game nhưng mà tôi ao ước bạn xem qua. Lối chơi thì tôi nghĩ về các bạn sẽ dễ dàng để hiểu được. Tên của chính nó là CoastRunners


Nhiệm vụ của người sử dụng là xong xuôi được khoảng đua thuyền một cách sớm nhất có thể và nếu rất có thể thì phải ở vị trí cao nhất trên. đưa sử như bạn muốn training một agent để nó tất cả thể xong chặng đua nhanh nhất thì về cơ phiên bản bạn phải thi công được một reward function và từ đó bạn sẽ train agent dựa trên reward function này. Chúng ta cũng có thể xem nó là Loss function nhưng cụ vì bắt buộc minimize hàm loss như trong số mạng Neural Network thông yêu đương thì nghỉ ngơi đây bọn họ sẽ đề nghị maximize nó như tôi đã nói sinh sống trên. Việc chọn ra một reward function thoạt nhìn trong khá dễ dàng vì nó chỉ dựa vào các tiêu chuẩn rất phân biệt của một task cố kỉnh thể, chẳng hạn như ở trò nghịch ở trên thì ta có dựa trên tiêu chuẩn là thời gian chấm dứt chặng đua chẳng hạn. (Việc thiết kế cụ thể tôi xin phép dời lại làm việc một nội dung bài viết khác về sau). Mặc dù nhiên, nếu khách hàng đưa ra các tiêu chí không giỏi thì sẽ agent mà chúng ta train có thể có các behavior tương đối kỳ lạ hệt như thử nghiệm tiếp sau đây mà team OpenAI đã trải qua khi reward mà người ta chọn lại dưa trên tiêu chí của score trong trò chơi thay do là thời gian hoàn thành chặng đua. Và đấy là kết quả.


Agent không bắt buộc phải dứt chặng đua nhưng lại vẫn có thể đạt được score cao.

Điều này thoạt xem qua cái vẻ khá "thú vị" trong bối cảnh của video game nhưng lại trong lĩnh vực tự động hóa hoá giỏi robotics chẳng hạn thì các cái behavior này rất có thể gây ra những hành vi không mong muốn hoặc thậm chí nguy hiểm. Rộng lớn hơn, những agent này (được nhúng vào vào robot chẳng hạn) hoàn toàn có thể có số đông hành vi không ổn định hoặc không theo các nguyên lý cơ bạn dạng về phương diện kỹ thuật nói thông thường mà có thể dãn đến những hiểm hoạ cực kỳ tiềm tàng.


*

Các chúng ta có thể bài viết liên quan về idea trong bài bác báo của OpenAI về cái mà người ta gọi là Safety AI

2. Mô hình hoá toán học tập của RL:

Bây giờ tôi đã dẫn các bạn đi qua 1 chút về những khái niệm chủ yếu trong RL:| .

Các hình sau đây tôi xem thêm từ khoá học 6.S191 intro deep learning của MIT

2.1 Đây là một trong ví dụ trực quan tiền về Agent:


*

*

2.4 sau khoản thời gian nhận được sự ảnh hưởng từ agent thì enviroment có sự đổi khác trạng thái so với agent:


2.6 cơ hội này, agent cảm nhận reward r(t). Reward này phụ thuộc vào action a(t) của agent cùng State S(t) của enviroment ở thời khắc trước đó, tức là ở thời điểm t:


2.7 bởi ta lừng chừng thời điểm kết thúc của sự lặp đi lặp lại này bắt buộc tổng reward sẽ là một trong chuỗi vô hạn của các reward yếu tố tại các thời điểm không giống nhau kể từ thời điểm t (lúc đầu):


2.9 do chuỗi này không thể nào hội tụ (convergence) được nên trên thực tiễn các đơn vị nghiên cứu hoàn toàn có thể dùng một cái trick để chuỗi này hoàn toàn có thể hội tụ được. Như hình bên dưới đây, họ đưa vào thêm một term hay được gọi là discount factor (discount rate) để gia công cho chuỗi này hội tụ.

Xem thêm: Sau Hope Là Ving Hay To V - Cấu Trúc Hope, Cách Dùng Động Từ Hope (Chính Xác)

*Nên lưu giữ việc quy tụ là cần nếu bạn muốn train thành công một agent nói riêng hay là một mạng Neural Network nào đó nói chung.


Tất cả các thứ nhưng mà mình vừa trình bày sơ qua nó dựa trên một framework được hotline là Markov Decision Processes (MDPs). Về cơ bản thì một MDP cung ứng một framework toán học tập cho vấn đề modelling các trường hợp decision-making. Ở đây, các hiệu quả (outcomes) xẩy ra một bí quyết ngẫu nhiên một trong những phần và phần sót lại thì phụ thuộc vào trên các action của agent (hoặc decision maker) đã tạo ra trước đó. Reward thu được vị decision maker dựa vào trên action mà decision maker lựa chọn và dựa trên cả hai State mới (S(t+1)) và cũ (S(t)) của enviroment.

Một reward Rai(sj,sk)R_ai(s_j, s_k)Rai​(sj​,sk​) thu được khi agent chọn kích hoạt aia_iai​ ở state sjs_jsj​ và tạo nên enviorment thay đổi từ state sjs_jsj​ sang sks_ksk​. Agent nó follow theo một policy πpiπ. Rõ ràng là π(⋅):S→Api(cdot):mathcalS ightarrow mathcalAπ(⋅):S→A làm sao cho với từng một state sj∈Ss_j in mathcalSsj​∈S thì agent chọn cho nó một kích hoạt ai∈Aa_i in mathcalAai​∈A. Vậy nên policy là lắp thêm bảo với agent cái kích hoạt nào bắt buộc được chọn trong mỗi state.

Để hoàn toàn có thể train được agent thì phương châm của họ là phải tìm được policy πpiπ sao cho:


*βetaβ là discount factor với βetaβ reward (có tình mang lại discount factor như đã đề cập ngơi nghỉ trên) nghỉ ngơi mỗi state ví dụ từ lúc bước đầu đến khi chấm dứt (dẫu mang lại T → ightarrow→ ∞infty∞, vì chúng ta chưa biết lúc nào thì quá trình này chấm dứt nên nó vẫn vẫn là một chuỗi vô hạn), và đương nhiên là phải dựa trên policy πpiπ bởi agent của họ base trên nó để lựa chọn reward tốt nhất có thể mà. Bản chất thì đấy là một việc tối ưu (optimazation problem).

Ở trên là một tiêu chuẩn mà chúng ta cũng có thể dùng để optimize cho việc tìm và đào bới ra nghịệm (optimal policy). Nắm thể họ gọi tiêu chuẩn này là infinite horizon sum reward criteria. Cũng đều có một vài reward criteria khác nhưng mà tôi tạm thời không gác lại vào khuôn khổ nội dung bài viết này.

Phụ nằm trong vào những criteria khác nhau mà bọn họ sẽ có những algorithm không giống nhau để tìm thấy optimal policy. Với infinite horizon sum reward criteria thì bạn có thể sử dụng một thuật toán RL cũng khá kinh điển đó là Q-Learning để giải quyết (tôi sẽ nói về alogorithm này ở một bài viết khác).

Tôi xin trong thời điểm tạm thời gác lại phần kim chỉ nan sơ cỗ ở đây. Hẹn gặp mặt lại bạn ở bài viết sau về Q-Learning và cách để impement nó.

Bài viết liên quan