- 2008-02-19 (火) 22:09
- デジモノ
WEBサイトを作るときのレギュレーションを決めようやないのと、用語辞書を作ることになりましたとさ。やり口は色々やろけど、今回は現サイトで使ってる単語を調べて、一覧化して、類似用語を抜いて、ここからルールを決めることにした。
「茶筅」or「和布蕪」とかの形態素解析ソフトを使うにせよ今回はイッパツものなんんでこんな感じでやってみる。
- 検査対象のHTMLページ(PHPとかも)もローカル保存
- HTML -> テキスト変換ツールで余計なタグを除去
- テキストを1ファイルにマージ
- 形態素解析ソフトで解析して「単語+出現件数」が出力
- エクセルとかにまとめて用語集化
- 完成!
HTMLをテキストに変換して単語の登場頻度を調べる
- 調査対象を落とす
Website Explorer で検査対象のURLチェックする
フォルダ小窓を右クリ→ファイル出力
HTMLファイルがだらだれ出力されるわけですわ - HTMLからテキストに変換する
HTML→テキスト変換ツール H2Tconv for Windows でテキスト化したファイルをいっきにテキストファイル化 - ファイルマージ
テキストファイルをcopyコマンドで1つにまとめ
copy *.txt marge.txt - 形態素解析ソフトで解析
xxxxxxっていうソフトやったような気がする。
わすれた。 - エクセルでソート
- どうするべ会議する
- Newer: 検索エンジンからtouna.comにアクセスあったときの検索ワード
- Older: ラボ系メモ
Comments:0
Trackbacks:0
- Trackback URL for this entry
- http://www.touna.com/wordpress/2008/02/19/webeadhieaiiadhienauoaue/trackback/
- Listed below are links to weblogs that reference
- WEBに登場する単語の登場頻度を調べる from TOUNA.com(いたみ)
