ML Theory
-
[정보이론] 3. Cross Entropy, KL-DivergenceML Theory 2024. 7. 8. 00:39
두 확률분포의 차이를 어떻게 재 볼 수 있을까요?Cross entropy, KL-divergence 를 다뤄봅니다.들어가기에 앞서정보이론 2편의 글 에서 entropy를 정보량의 기댓값, 즉,$$\mathcal{H}(x) = E[h(x)] = E[log_{2}\frac{1}{p(x=a)}]$$으로 정의하였습니다.날씨 예보 v2집에 누워 날씨예보를 보고 있는 우리 모습을 또 한번 더 상상해 봅니다.이번엔 부산의 날씨만 예측하려 합니다. 부산 날씨가 워낙 변화무쌍해서, 기상청이 날씨에 대한 읋은 예측은 항상 하지는 못합니다. 그래서 예보관을 여럿 두고 있는데요, 예보관들은 날씨에 대해 다음과 같은 확률을 가지고 있다고 믿고 예보를 한다고 해 봅시다.Weather맑음바람비눈Prob. (부산)0.30.40.20..
-
[정보이론] 2. EntropyML Theory 2024. 1. 8. 20:32
어떠한 사건으로부터 얼마나 많은 정보를 우리는 기대할 수 있을까요?Shannon의 Entropy가 그것을 말해줍니다.들어가기에 앞서정보이론 1편의 글 에서 우리는 shannon information content를 다음과 같이 정의하였습니다.$$h(x=a) = log_{2}\frac{1}{p(x=a)}$$어떠한 $a$ 라는 사건이 발생 했을 때, 그 사건이 주는 정보가 얼마나 되는가 (혹은 그 사건이 얼마나 놀라운가 등등)를 $bit$ 단위로 표현해줍니다.날씨 예보집에 누워 날씨예보를 보고 있는 우리 모습을 상상해 봅시다.기상청에서는 우리에게 날씨에 대한 정보를 전달해 주고 있는데요, 기상청이 우리에게 주는 날씨에 대한 정보는 몇 $bit$ 짜리일까요?우선 상황을 단순하게 보기 위해, (1) 기상청이 제..
-
[정보이론] 1. 정보를 측정하는 방법ML Theory 2024. 1. 7. 00:11
지금 읽고 계신 이 글은 얼마나 많은 정보를 우리에게 줄 수 있을까요?같은 글이라도 누군가는 별거 아니라고 보실 수 있고, 누군가에겐 (감사하게도) 유익한 글이 될 겁니다.정보라는 건 참 추상적이고 주관적인 개념입니다.이러한 "정보" 라는 것을 객관적으로 수치화 할 수 있을까요?Bits조선시대의 봉수대 횃불은 다음과 같이 정보를 전달했다고 합니다. 특정 위치의 봉화를 끄고 키는 과정을 통해 다른 정보를 표현 한 것이죠. 현대의 컴퓨터도 이러한 구조를 통해 정보를 처리합니다. 끄고 (0), 켭니다 (1). 끄고 켤 수 있는 하나의 단위를 비트(bit)라고 볼 수 있겠네요.그렇다면, 위와 같이 5개의 봉화(bit)가 있다면, 몇가지의 메시지를 전달 할 수 있을까요? 각각을 끄고, 켤수 있는 경우가 있기에, ..