Windows10でRとRMeCabを使いたい
経緯
久々の更新です。
この度、研究テーマを変えることになりまして、どういった方面の研究をするか検討中です。
その中でRによるテキストマイニングが気になりはするものの、本を読んでもイマイチよくわからない…といった感じでしたので、本を参考にしながらすることにしました。
参考にした本はこちら。
他の書籍と読み比べたわけではないので、あしからず。
やっている中で文字化けと実行に失敗に悩まされましたのでそれも残しておきます。
RとRMeCab
ここで、RとRMeCabについて簡単な説明を。
R
Rは、多様なデータ分析とグラフ機能を備えたデータ解析環境です。
四則演算から複雑な計算まで行うことができ、最新のデータ解析手法も拡張機能の「パッケージ」として無料で利用することができます。
RMeCab
有名な日本語形態素解析フリーウェアMeCabをRでも使えるようにしたものです。
インストール
インストールについては分かりやすいページを添付し、代えさせていただきます。
R
RMeCab
なお、RMeCabがインストールされたかを確認するコマンドはこちら。
library(RMeCab) RMeCabC("すもももももももものうち)
若しくは
library(RMeCab) unlist(RMeCabC("すもももももももものうち"))
結果の違いは形態素解析後の単語が改行によって区切られるか、スペースによって区切られるか、です。うまくいくと下のスクリーンショットのようになります。
問題の発生
先ほど添付したRMeCabのインストール説明は、開発者の方が作られたページです。ここにたどり着いたのは文字化けの問題が発生したためでした。
問題の概要
上のスクリーンショットのように文字化けし、形態素解析もされていないような状態になりました。
環境
問題の原因
原因としては、インストールの際に文字コードをUTF-8で選択してインストールしてしまったためのようでした。
WindowsはShift-JISが標準の文字コードですから、UTF-8でしたら文字化けしますよね…。
解決までのいろいろ
Google先生に頼っていろいろしました。
特に確認の際に役立ちそうだった文字コードの確認方法を残しておきます。
文字コードの確認
Rのシステム上に登録されているコードを確認するコマンドです。
Sys.setlocale()
ここで、各種文字コードが確認できます。「Japanese_Japan.932」がShift-JISのことです。
「LC_NUMERIC」がCになっている以外はすべて「Japanese_Japan.932」になっていることが確認できれば問題はないかと思います。
まとめ
簡単ですが、こんなところで。Rについては文字コードが少し面倒くさそうな印象です。実際に使うかわかりませんが少し勉強になりました。