선정 배경
- 현업에서 데이터 모델링을 하게 되면, 도메인 지식에 대한 고려 없이 모델링을 하는 경우가 있다. 하지만 데이터만 입력된 모델은 오히려 과대적합되어, 데이터에 내재된 물리 법칙을 위반하는 경우가 많다. 그래서 물리 지식을 위반하지 않으며 신경망을 학습하는 방법이 연구됐으며, 바로 PINN이다.
- 무엇보다 물리 법칙은 해당 분야에서 상당한 검증 끝에 채택된 것이므로 그 분야의 물리 지식(Latent Function)을 위반하지 않고 학습하도록 신경망에 제약(regularization)을 걸 수 있다면, 현업에서 보다 정확한 도메인 기반 학습이 가능할 것으로 보인다. Small Sample만 존재하거나 기존에 학습되지 않은 데이터가 입력되더라도 정확한 추론이 가능할 수 있을 것으로 보인다.
- PINN을 화학 분야인 배터리 퇴화 모델링에 적용한 연구도 있다.(Renato G. Nascimento et al)
Main Contribution
- 물리학 법칙은 보통 비선형 편미분방정식(Nonlinear Partial Differential Equation) 형태로 표현된다고 한다. PINN 논문은 데이터를 이용해서 주어진 NPDE의 해와 파라미터를 근사하는 방법론을 제시한다.
- Data-Driven Solution of Partial Differential Equation
- Data-Driven Discovery of Partial Differential Equation
- 선행 연구에서는 비선형성을 국소적으로 선형화해서 접근하였으나, 이번 논문에서는 신경망을 도입해서 비선형성 자체를 근사하는 방법을 사용하였다.
선행 연구 리뷰(Literature Review)
- 두 가지 접근법이 있다.
- Gaussian Process Regression을 이용해서 선형 미분방정식을 함수 형태로 표현하고 data-driven으로 접근한 연구
- 베이지안 접근법인 Gaussian Process Regression은 Prior 가정 및 Robustness/Objectiveness에 관한 한계가 있다고 힌다.
- 이후 비선형 미분방정식을 다룬 연구도 발표됐다.
- 비선형 미분방정식을 다룬 연구는 비선형성을 국소적으로 선형화하는 접근을 취했다. 그렇기에 데이터가 강한 비선형 패턴을 보이면, 예측 성능이 떨어진다고 한다.
- 시간 구간 수를 무한히 늘려서 평균변화를 연결하거나 무한히 많은 점에서 테일러 근사한 결과를 합치는 방법을 생각해 봤는데, 현실적으로 무한히 구간을 늘리는 것은 불가능하기 때문이다.
미분방정식(Differential Equation)
- 미분방정식은 미지의 함수 $f(t)$와 그 도함수 $f'(t)$로 이루어진 방정식이며, 미지의 함수가 2개 이상의 변수로 이루어지면 편미분방정식이 된다.
- 미분방정식의 해를 구한다는 것은 해당 방정식을 만족하는 원함수 $f(t)$를 찾는 것을 말한다. 간단한 미분방정식 예시는 아래와 같다.
$$
\frac{df(t)}{dt} = f(t) \quad \longleftrightarrow \quad f(t) = e^{t + C}
$$
- 일반적인 비선형 편미분방정식은 다음과 같은 꼴로 표현 가능하다. 여기서 N이 비선형 연산자이다.
$$
u_{t} + N(u(x, t) ; \lambda) = 0, \quad x \in \Omega \subset R^{D}, \quad t \in [0, T]
$$
핵심 아이디어(Main Idea)
- Data-Driven Solution of Partial Differential Equation
- 파라미터 $\lambda$가 고정된 값일 때, 미분방정식 $u_{t} + N(u(x, t)) = 0$을 만족하는 미지의 원함수 $u(x, t)$ 를 찾는 문제
-
미분방정식을 만족하는 데이터를 수집한다. 해당 데이터는 영역의 경계에 위치한 Boundary Condition, 초기값인 Initial Condition 그리고 그 외의 Collocation Point이다.
-
해당 데이터들을 학습할 신경망 u를 정의한다.( 신경망 u는 아직 학습되지 않았다.)
-
신경망 u에 아무런 조건이 없으면 학습 시 물리법칙을 벗어날 수도 있다. 따라서, u와 파라미터를 공유하는 또 다른 신경망 f를 정의하는데, 이 때 신경망 f는 특정 편미분 방정식을 그대로 구현한다.
-
편미분 방정식의 초기 조건값과 경계 조건값에서 신경망 u와 실제값의 loss를 최소화한다. 미분방정식은 초기 조건과 경계 조건이 정해지면 그 외에서는 전부 추적이 가능하기 때문으로 보인다. 또한, 편미분 방정식을 따라가도록 Collocation Point에서 loss도 최소화하도록 Loss function을 정의한다.
- Step 1. Collect data on boundary condition, initial condition and collocation points
- Step 2. Define a neural network $u$ which approximates solutions of the pde
- Step 3. Define a neural network $f$ which regularizes the solution
$$
f = u_{t} + N(u(x, t))
$$
- Step 4. minimize Loss $L = MSE_{u} + MSE_{f}$
$$
L = MSE_{u} + MSE_{f}
$$