[출처 : http://latest.tistory.com/entry/Dices-coefficient]
키워드간의 유사성을 측정하는 수학 공식이다.
nx 와 ny 에 대한 각 bigrams 의 개수를 구하고 그 중에 중복된 bigrams의 개수를 nt 라고 한다.
예를 들면 아래와 같다.
night => { nacht => {
nx 와 ny 에 대한 각 bigrams 의 개수를 구하고 그 중에 중복된 bigrams의 개수를 nt 라고 한다.
예를 들면 아래와 같다.
ni
,ig
,gh
,ht
}na
,ac
,ch
,ht
}공식에 대입하면 아래와 같은 결과를 얻을 수 있다.
s = (2 · 1) / (4 + 4) = 0.25.
참고 url : http://en.wikipedia.org/wiki/Dice's_coefficient