[출처 : http://latest.tistory.com/entry/Dices-coefficient]


키워드간의 유사성을 측정하는 수학 공식이다.



n 와 n에 대한 각 bigrams 의 개수를 구하고 그 중에 중복된 bigrams의 개수를 nt 라고 한다.

예를 들면 아래와 같다.

night => {ni,ig,gh,ht}
nacht  => {na,ac,ch,ht}

공식에 대입하면 아래와 같은 결과를 얻을 수 있다.

s
 = (2 · 1) / (4 + 4) = 0.25.


참고 url : http://en.wikipedia.org/wiki/Dice's_coefficient

+ Recent posts