SPS 연구실 석사과정 이예슬입니다. 이번 발표는 Reinforcement Learning for PID tuning에 대한 2가지 논문을 다루고 있습니다. PID(Proportional-Integral-Differential) Control이란 제어 대상의 출력 값(output)을 측정하여 원하는 설정 값(setPpoint)와 비교한 오차(error)를 계산하고 이 오차 값을 이용하여 제어에 필요한 제어 값을 계산하는 구조입니다. 1. Reinforcement learning approach to autonomous PID tuning (2022) 본 논문은 제어 및 모니터링 분야에서 강화학습 방법을 적용한 논문입니다. 기존 부정확한 모델, 충분하지 못한 데이터 등의 문제로 실시간에서 사용하기 어렵다는 학습하는 동안 penalty를 줌으로써 agent의 행동을 제한시키는 RL을 제안하였습니다. 기존 알고리즘보다 빠르게 수렴하여 over-shooting 을 완화할 수 있다는 장점이 있습니다. 2. Meta-reinforcement learning for the tuning of PI controllers: An offline approach (2022) 본 논문은 meta-learning을 접목하여 single task를 학습할 때 sample efficiency를 개선할 수 있는 분포를 학습하도록 하였습니다. meta-learing을 통해서 agent가 현재 환경에서 최적 정책을 빠르게 찾기 위해 다른 환경으로부터 얻은 경험을 사용하여 새로운 환경에서의 정책을 빠르게 찾을 수 있다는 장점이 있습니다. PID tuning은 새로운 데이터에서도 빠르게 적응(수렴)하기 위해 파라미터를 설정하는 방법을 연구하는 분야입니다. process-specific한 학습 없이 online에서 튜닝이 가능하고 추후 PID 제어에도 적용하여 task distribution 확장 개선이 가능합니다. 이러한 면에서 강화학습이 이러한 튜닝에 적합한 방법이라고 생각했습니다. 발표 감사합니다\^^/
SPS연구실 석박통합과정 윤기오 입니다. 이번 발표는 강화학습을 활용한 PID 튜닝에 대한 연구 2개를 소개하고 있습니다. PID(Proportional-Integral-Differential) Control이란, 제어 대상의 출력 값을 측정하고 원하는 설정 값과 비교한 오차를 계산하여 제어에 필요한 제어 값을 계산하는 구조입니다. 첫번째 논문은 ‘Reinforcement learning approach to autonomous PID tuning’ 으로, 안전상의 문제나 충분하지 못한 데이터, 혹은 부정확한 모델 등으로 인한 문제를 해결하기 위해 agent의 행동을 제한하는 Constrained RL을 제안합니다. 전체적인 구조는 A3C와 유사하며, 에이전트가 탐험하는 PI Controller의 파라미터에 범위로 제약을 두는 등의 방법을 활용합니다. 기존의 알고리즘보다 빠르게 수렴하며, over-shooting 현상을 완화합니다. 두번째 논문은 ‘Meta-reinforcement learning for the tuning of PI controllers’로, 강화학습을 활용하여 Meta-learning을 접목하여 task를 학습할 때 sample efficiency를 개선할 수 있는 분포를 학습하도록 제안하는 방법입니다. 이를 통해 Agent는 현재 환경에서 최적 정책을 빠르게 찾기 위해 다른 환경들로부터 얻은 경험들을 합성하여 새로운 환경에서의 정책을 빠르게 적용하는 효과를 얻을 수 있습니다. 전체적인 구조는 A2C와 유사합니다. 결과적으로 Process Dynamic에 성공적으로 잘 적응한다고 주장하고 있습니다. 동적인 환경에서 강화학습을 활용하는 것의 효과를 확인할 수 있었습니다.
SPS 연구실 석박통합과정 이진혁입니다. 이번 발표는 자동 제어 분야에서 주로 사용되는 PID 제어의 파라미터 튜닝을 심층 강화학습으로 수행하는 두 가지 논문을 다루고 있습니다. PID 제어는 Target value에 도달하는 데 Overshoot과 Seturation을 줄이는 데 뛰어나기 때문에 사용되는 대표적인 자동 제어 기법입니다. 첫 번째 논문인 'Reinforcement learning approach to autonomous PID tuning'은 A3C 알고리즘과 유사하게 구성되긴 하지만 안전상의 문제와 합리적인 학습을 위해 agent의 행동을 제한하는 Constrained Reinforcement Learning을 제안합니다. 논문 상에서 PID 제어가 아닌 PI 제어를 사용하며, 기존 PI 알고리즘보다 빠르게 수렴하는 장점을 가집니다. 두 번째 논문인 'Meta-reinforcement learning for the tuning of PI controllers'는 강화 학습과 Meta-learning을 접목하여 sample 효율성을 개선할 수 있는 방향으로 학습이 진행됩니다. 본 알고리즘에서 Agent는 현재 환경에서 최적 정책을 효과적으로 찾기 위해 다른 환경의 경험을 참고하여 정책을 학습합니다. 이에따라 논문의 저자들은 Process dynamic에 알고리즘이 성공적으로 잘 적응한다고 주장하고 있습니다. 강화 학습을 활용하여 얻을 수 있는 장점을 활용한 논문 두 편에 대한 내용을 들을 수 있어서 흥미로웠던 발표였습니다. 발표 잘 들었습니다 감사합니다.
SPS 연구실 석사과정 신감성입니다. 첫 번째 논문인 ‘Reinforcement learning approach to autonomous PID tuning(2022)’ 에서는 강화학습을 사용하여 안전하고 자율적인 PI 튜닝을 수행하고 밴딧 접근 방식에 의존하여 문제를 단순화 시키고 있습니다. 이 연구는 간단한 튜닝 절차를 따라, 오프라인 튜닝 규칙을 사용하여 초기 또는 기준 PI 매개변수를 얻어 RL 에이전트를 위한 기준을 제공합니다. 복잡한 프로세스의 지속적인 식별이 어려운 산업 분야에서 유용하며, 인간의 튜닝이 비용이 많이 드는 경우나 온라인에서 처음부터 학습하는 것이 비용이나 위험으로 이어질 수 있는 경우에 적합하다고 볼 수 있습니다. 두 번째 논문인 ‘Meta-reinforcement learning for the tunning of PI Controllers - An offline approach(Journal of Process Control, 2022)’ 에서는 메타 강화학습(meta-RL) 기반의 제어 전략을 고안하여 PID컨트롤러를 튜닝할 수 있도록 하였습니다. 메타-강화학습 에이전트를 완전히 오프라인으로 미리 훈련하고 공업적으로 관련성 있는 PI 컨트롤러 및 비선형 동적을 다루는 새로운 시뮬레이션 연구하였습니다. 기존 연구와 대비해서 메타-RL 에이전트를 통해 훈련 및 배치 과정이 단순화 되고, 프레임워크의 메타-RL 에이전트는 정밀한 시스템 식별에 의존하지 않고, 공정 동적의 대략적인 이해만 필요한 부분이 차이라고 볼 수 있습니다.
SPS 연구실 석사과정 이예슬입니다. 이번 발표는 Reinforcement Learning for PID tuning에 대한 2가지 논문을 다루고 있습니다. PID(Proportional-Integral-Differential) Control이란 제어 대상의 출력 값(output)을 측정하여 원하는 설정 값(setPpoint)와 비교한 오차(error)를 계산하고 이 오차 값을 이용하여 제어에 필요한 제어 값을 계산하는 구조입니다.
1. Reinforcement learning approach to autonomous PID tuning (2022)
본 논문은 제어 및 모니터링 분야에서 강화학습 방법을 적용한 논문입니다. 기존 부정확한 모델, 충분하지 못한 데이터 등의 문제로 실시간에서 사용하기 어렵다는 학습하는 동안 penalty를 줌으로써 agent의 행동을 제한시키는 RL을 제안하였습니다. 기존 알고리즘보다 빠르게 수렴하여 over-shooting 을 완화할 수 있다는 장점이 있습니다.
2. Meta-reinforcement learning for the tuning of PI controllers: An offline approach (2022)
본 논문은 meta-learning을 접목하여 single task를 학습할 때 sample efficiency를 개선할 수 있는 분포를 학습하도록 하였습니다. meta-learing을 통해서 agent가 현재 환경에서 최적 정책을 빠르게 찾기 위해 다른 환경으로부터 얻은 경험을 사용하여 새로운 환경에서의 정책을 빠르게 찾을 수 있다는 장점이 있습니다.
PID tuning은 새로운 데이터에서도 빠르게 적응(수렴)하기 위해 파라미터를 설정하는 방법을 연구하는 분야입니다. process-specific한 학습 없이 online에서 튜닝이 가능하고 추후 PID 제어에도 적용하여 task distribution 확장 개선이 가능합니다. 이러한 면에서 강화학습이 이러한 튜닝에 적합한 방법이라고 생각했습니다. 발표 감사합니다\^^/
SPS연구실 석박통합과정 윤기오 입니다. 이번 발표는 강화학습을 활용한 PID 튜닝에 대한 연구 2개를 소개하고 있습니다. PID(Proportional-Integral-Differential) Control이란, 제어 대상의 출력 값을 측정하고 원하는 설정 값과 비교한 오차를 계산하여 제어에 필요한 제어 값을 계산하는 구조입니다. 첫번째 논문은 ‘Reinforcement learning approach to autonomous PID tuning’ 으로, 안전상의 문제나 충분하지 못한 데이터, 혹은 부정확한 모델 등으로 인한 문제를 해결하기 위해 agent의 행동을 제한하는 Constrained RL을 제안합니다. 전체적인 구조는 A3C와 유사하며, 에이전트가 탐험하는 PI Controller의 파라미터에 범위로 제약을 두는 등의 방법을 활용합니다. 기존의 알고리즘보다 빠르게 수렴하며, over-shooting 현상을 완화합니다. 두번째 논문은 ‘Meta-reinforcement learning for the tuning of PI controllers’로, 강화학습을 활용하여 Meta-learning을 접목하여 task를 학습할 때 sample efficiency를 개선할 수 있는 분포를 학습하도록 제안하는 방법입니다. 이를 통해 Agent는 현재 환경에서 최적 정책을 빠르게 찾기 위해 다른 환경들로부터 얻은 경험들을 합성하여 새로운 환경에서의 정책을 빠르게 적용하는 효과를 얻을 수 있습니다. 전체적인 구조는 A2C와 유사합니다. 결과적으로 Process Dynamic에 성공적으로 잘 적응한다고 주장하고 있습니다. 동적인 환경에서 강화학습을 활용하는 것의 효과를 확인할 수 있었습니다.
SPS 연구실 석박통합과정 이진혁입니다. 이번 발표는 자동 제어 분야에서 주로 사용되는 PID 제어의 파라미터 튜닝을 심층 강화학습으로 수행하는 두 가지 논문을 다루고 있습니다. PID 제어는 Target value에 도달하는 데 Overshoot과 Seturation을 줄이는 데 뛰어나기 때문에 사용되는 대표적인 자동 제어 기법입니다. 첫 번째 논문인 'Reinforcement learning approach to autonomous PID tuning'은 A3C 알고리즘과 유사하게 구성되긴 하지만 안전상의 문제와 합리적인 학습을 위해 agent의 행동을 제한하는 Constrained Reinforcement Learning을 제안합니다. 논문 상에서 PID 제어가 아닌 PI 제어를 사용하며, 기존 PI 알고리즘보다 빠르게 수렴하는 장점을 가집니다. 두 번째 논문인 'Meta-reinforcement learning for the tuning of PI controllers'는 강화 학습과 Meta-learning을 접목하여 sample 효율성을 개선할 수 있는 방향으로 학습이 진행됩니다. 본 알고리즘에서 Agent는 현재 환경에서 최적 정책을 효과적으로 찾기 위해 다른 환경의 경험을 참고하여 정책을 학습합니다. 이에따라 논문의 저자들은 Process dynamic에 알고리즘이 성공적으로 잘 적응한다고 주장하고 있습니다. 강화 학습을 활용하여 얻을 수 있는 장점을 활용한 논문 두 편에 대한 내용을 들을 수 있어서 흥미로웠던 발표였습니다.
발표 잘 들었습니다 감사합니다.
SPS 연구실 석사과정 신감성입니다. 첫 번째 논문인 ‘Reinforcement learning approach to autonomous PID tuning(2022)’ 에서는 강화학습을 사용하여 안전하고 자율적인 PI 튜닝을 수행하고 밴딧 접근 방식에 의존하여 문제를 단순화 시키고 있습니다. 이 연구는 간단한 튜닝 절차를 따라, 오프라인 튜닝 규칙을 사용하여 초기 또는 기준 PI 매개변수를 얻어 RL 에이전트를 위한 기준을 제공합니다. 복잡한 프로세스의 지속적인 식별이 어려운 산업 분야에서 유용하며, 인간의 튜닝이 비용이 많이 드는 경우나 온라인에서 처음부터 학습하는 것이 비용이나 위험으로 이어질 수 있는 경우에 적합하다고 볼 수 있습니다. 두 번째 논문인 ‘Meta-reinforcement learning for the tunning of PI Controllers - An offline approach(Journal of Process Control, 2022)’ 에서는 메타 강화학습(meta-RL) 기반의 제어 전략을 고안하여 PID컨트롤러를 튜닝할 수 있도록 하였습니다. 메타-강화학습 에이전트를 완전히 오프라인으로 미리 훈련하고 공업적으로 관련성 있는 PI 컨트롤러 및 비선형 동적을 다루는 새로운 시뮬레이션 연구하였습니다. 기존 연구와 대비해서 메타-RL 에이전트를 통해 훈련 및 배치 과정이 단순화 되고, 프레임워크의 메타-RL 에이전트는 정밀한 시스템 식별에 의존하지 않고, 공정 동적의 대략적인 이해만 필요한 부분이 차이라고 볼 수 있습니다.