2011 年 11 月 のアーカイブ

レーベンシュタイン距離で文字列の類似度を測る

2011 年 11 月 18 日 金曜日 by 山平

過去にネットで見かけてその存在だけは知っていたレーベンシュタイン距離について追ってみます。
編集距離 (Levenshtein Distance) - naoyaのはてなダイアリー

すでにrubyで実装されている方がいらっしゃったので、それを使うことにします。
ruby でレーベンシュタイン距離(編集距離)の計算 - Moderation is a fatal thing. Nothing succeeds like excess.

(私的な)使い勝手向上のために以下2点の修正を加えています。

  1. Stringクラスを再オープンしてメソッドを定義
  2. メソッド名をldに変更

(続きを読む…)

N-gramで文字列の類似度を測る

2011 年 11 月 4 日 金曜日 by 山平

とある2つの文字列がどれぐらい似ているのかを比較するにはどうすればいいのかを調べる必要があったので、ネットで検索してみました。
perlにはString::Trigramというモジュールがあるようです。

String::Trigram でテキストの類似度を測る

rubyで同じようなものが見つからなかったので、取り急ぎ作って見ました。

(続きを読む…)