[Paper] Adversarial Patch(NIPS'17)

생성적 적대 신경망 아키텍처를 사용한 화풍모사, Pix2Pix

Written by Jung Eun

2 minute read

인공지능 모델에 물리적 위협을 가하는 `Physical Adversarial Attack’분야의 새로운 공격 방법
어떤 이미지든지 뭍이기만 하면 오작동을 발생시키는 patch 생성
to create universal, robust, targeted adversarial image patches
- universal: 어떤 이미지든지
- robust: 이미지가 변형 or 조작되든지 상관없이
- targeted: 특정한 target에
- 공격 가능한 패치를 생성한다.

딥러닝 모델은 Adversarial Examples에 취약하다. Adversarial Examples은 입력값에 사람이 인지하지 못할 정도의 조작을 가해 뉴럴네트워크의 예측를 빗나가게 하는 샘플을 의미한다.

다양한 공격 방법으로 L-BFGS, Fast Gradient Sign Method (FGSM), DeepFool, Projected Gradient Descent (PGD) 등이 있다.
Adversarial Examples은 현실 세계에서도 존재한다.

[기존 연구]

[본 연구]

[장점]

어떤 이미지에 붙일지 고려하지 않아도 됨
- 기존 공격 기법은 하나의 이미지를 최대한 조금 변형해 오작동을 일으키는 데 집중
- 본 공격 기법은 하나의 패치를 만들어 어떤 이미지든지 붙여도 작동하도록 설계
하나의 패치를 만들어 다양하게 사용 가능!

본 논문은 이미지의 일부분의 조작을 patch로 대신하는 방법으로 공격한다.
이 패치는 어떤 모양이어도 가능하고, 여러 이미지에 대해서 transformations(such as scale and rotations)을 통해 학습한다
gradient descent 방법으로 최적화 되었다.
너비 w, 높이 h, 채널 c(rgb인 경우 3채널)인

본 논문에서는 변형된 패치를 얻기 위한 목적함수는 다음과 같다.

–>

이 공격을 테스트하기 위해 1개의 control patch에 대해 2개의 화이트박스 공격, 1개의 블랙박스 공격을 비교했다.

본 논문에서 universal, robust, targeted한 패치를 만들어냈고, 다른 아이템과 관계 없이 뉴럴 네트워크를 잘 속일 수 있음을 보여줬다. 프린트하여 현실 세계에서도 사용할 수 있다.

작은 perturbation에 대한 방어기법들은 많이 연구되어 왔지만, 본 논문과 같이 large perturbation 공격은 연구된 바가 많지 않다.

References