38 How to decide whether to include inconsistent data
뉴욕의 집값을 예측하는 것을 학습하길 원한다고 가정해 보자. 주어진 집의 크기 (입력 feature x) 에 대해서, (목표 레이블 y) 가격을 예측하고 싶다.
뉴욕에서의 집값은 매우 비싸다. 집값이 훨씬 저렴한 디트로이트, 미시간에서의 집값에 대한 두번째 데이터를 가지고 있다고 가정해 보자. 이 데이터를 학습 데이터셋에 포함 시켜야만 할까?
주어진 집의 크기 x에 대해서, 집값 y는 뉴욕이냐 디트로이트냐라는 사실에 꽤나 의존적이다. 뉴욕의 집값만이 예측하길 희망하는 대상이라면, 디트로이트와 뉴욕에서 수집된 데이터 모두를 함께 사용하는 것은 성능에 해를 끼칠 것이다. 이 경우, 상황에 부합하지 않는 디트로이트 데이터를 배제하는 것이 더 나을 것이다.
뉴욕에 대한 데이터와 일관성이 없는 디트로이트에 대한 데이터의 문제를 표현하기 위한 한가지 방법은, 학습 데이터에 도시를 표현하기 위한 추가적인 feature를 추가해 보는 것이다. 그러면, 도시를 명시하는 입력 x에 대해서, 목표 값 y는 모호해진다. 그러나, 실질적으로 이러한 일이 발생하는 것을 자주 본 적은 없다.
뉴욕 vs. 디트로이트에 대한 예제가, 인터넷에서 수집된 고양이 이미지 vs. 사용자가 업로드한 고양이 이미지 경우와 어떻게 다른가?
고양이 이미지에 대한 예제는 다르다. 왜냐하면, 주어진 사진 x에 대해서, 고양이가 있는지 없는지를 나타내는 레이블 y를 안정적으로 예측하는 것이 가능하다. 예를 들어서, 인풋 x를 목표 출력 y로 안정적으로 매핑하는 f(x)라는 함수가 있다. 그렇기 때문에, 인터넷 이미지로부터 고양이를 인식하는 작업은 사용자가 업로드한 이미지에서 고양이를 인식하는 작업과 비교해 봤을때, 일관적이다고 볼 수 있다. 이는 모든 데이터를 포함시키는 것에 미비한 단점이 있으나, 의미 있는 긍정적인 면도 있을 가능성이 있음을 의미한다. 반면에, 뉴욕, 디트로이드, 미시간에서의 데이터는 일관성이 없다. 동일한 x (집의 크기)에 대해서, 가격은 집이 어디에 있는지에 따라서 꽤나 달라진다.