というわけで、改めて「training.dat」で検索をかけてみると色々この手のことが書いているサイトが見つかり、流し読みしてみたりしています
とりあえず、「学習データを初期化」「迷惑メールフォルダの全メール(約530通)を迷惑メールに再認識」「分類していない非迷惑メール(約500通)を非迷惑メールと再認識」させて、様子を見ています
ミィ:「全部の保存メールで認識させようとするとおかしくなったんだっけ?」
フィルタ構成がおかしく表示されていたみたいなんで、ね
メイシェル:「今のものでもおかしくなりませんか?」
それでも全部読み込むよりはかなりましかと
色々読んでみたり、フィルタを眺めてみたりしていると、やっぱり日本語に対する認識が弱いなと感じたり。
そもそも、届くメールの中には文字コードが設定されていないものもあり、文字が化けた状態になっていたりしています。
また、フィルタの構成を見ると全角文字一文字でフィルタリングしようとしているものも多数あり、そういった部分をどうにかして学習させれればいいなぁと思ったりしています。
ミィ:「でも、どうやるの?」
あくまでも希望であって、やり方は知らないんだよね
確かに、日本語の分割に対応したバージョンもあるようだけど、正規版を使っていたいっていう考えがあるから、ね
メイシェル:「色々と資料を見て勉強、ですか?」
そうなるかもしれないけど……これ以上趣味を増やすのもなぁ……
Comments