import twitter

api = twitter.Api(
    consumer_key=CONSUMER_KEY,
    consumer_secret=CONSUMER_SECRET,
    access_token_key=ACCESS_TOKEN_KEY,
    access_token_secret=ACCESS_TOKEN_SECRET
)

tweets = api.GetUserTimeline(screen_name='jumpyoshim', count=2)

collectionsのnamedtupleのようなデータ構造で返却されるため、注意が必要です。

[tweet.text for tweet in tweets]

OUT

['RT @akucchan_world: 吉村さんのLTです。\n#pyconjp https://t.co/ZCvHY9ebcw',
 'PytestのTDD実践ためになった #pyconjp']

文章のベクトル化

続いて、収集したツイートを数値計算しやすいようにベクトル化します。

ベクトル化の手法として、3つほど確認できました。

https://tifana.ai/words/natural-language-processing/9302.htmltifana.ai

deepage.net

Word2VecやDoc2Vecに関しては、まだ咀嚼しきれない部分があったため、今回はBoWを選択しました。

BoWは、単語の頻出度のみを考慮して、単語の頻出度をベクトル化したものが最も近いデータを推定結果としているだけです。

Word2VecやDoc2Vecは単語の並び順なども考慮するらしく、推定精度が上がるらしいです。まだまだ勉強不足、今後の課題です。

形態素解析

ベクトル化するために、まずは形態素解析をする必要があります。

形態素解析のツールとして、3つほど確認できましたが、環境構築が容易で速度もはやいMeCabを選択してみました。

import MeCab

tagger = MeCab.Tagger('mecabrc')
data = []
for tweet in tweets:
    node = tagger.parseToNode(tweet.text)
    words = []
    while node:
        meta = node.feature.split(',')
        if meta[0] == '名詞':
            words.append(node.surface.lower())
        node = node.next
    data.append(words)
print(data)

OUT

[['rt', '@', 'akucchan', '_', 'world', ':', '吉村', 'さん', 'lt', '#', 'pyconjp', 'https', '://', 't', '.', 'co', '/', 'zcvhy', '9', 'ebcw'], ['pytest', 'tdd', '実践', 'ため', '#', 'pyconjp']]

※ 形態素解析の際、実際にはURLや@アカウント名、リツイートなどを正規表現で空文字で置換することで、形態素解析された際に意味をなさない単語を排除します。

MeCabとJanomeに関してはpipでインストールできるため利用しやすいですね。

JUMANは環境構築がやや手間ですが、かなり高精度の形態素解析をしてくれるみたいです。

pypi.org

JUMAN - KUROHASHI-CHU-MURAWAKI LAB

特徴ベクトル

形態素解析した単語群は gensim を用いて辞書を作成し、ベクトル化します。

from gensim import corpora, matutils

dictionary = corpora.Dictionary(data)
data_train = []
for datum in data:
    bow = dictionary.doc2bow(datum)
    dense = list(matutils.corpus2dense([bow], num_terms=len(dictionary)).T[0])
    data_train.append(dense)
print(data_train)

OUT

[[1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0], [1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0]]

github.com

文書分類器

ここまででデータを揃えることができたので、正解ラベルを用意して学習を行います。

正解ラベルはエゴグラムの診断結果を利用します。Twitter上にエゴグラムの診断結果をツイートするアカウントが多く存在するためです。

以下の23パターンがあります。

ネクラ厭世タイプ（Ｗ型）
明朗楽観タイプ（Ｍ型）
優柔不断タイプ（Ｎ型）
ハイパワータイプ（逆Ｎ型）
頭でっかちタイプ（逆Ｖ型）
お手あげタイプ（Ｖ型）
典型的ネクラタイプ（Ｕ型）
ぼんぼんタイプ（逆Ｕ型）
頑固オヤジタイプ（左上がり型）
ガキ丸出しタイプ（右上がり型）
ハイレベルタイプ（オールＡ型）
中庸タイプ（オールＢ型）
原始人タイプ（オールＣ型）
ルーズタイプ（ＣＰ欠乏型）
クールタイプ（ＮＰ欠乏型）
現実無視タイプ（Ａ欠乏型）
自閉症タイプ（ＦＣ欠乏型）
気ままタイプ（ＡＣ欠乏型）
口うるさタイプ（ＣＰ型）
お人好しタイプ（ＮＰ型）
コンピュータタイプ（Ａ型）
自由奔放タイプ（ＦＣ型）
自己卑下タイプ（ＡＣ型）

機械学習

scikit-learn を利用することで簡単に機械学習ができます。

from sklearn.ensemble import RandomForestClassifier

clf = RandomForestClassifier()
label_train = ['ネクラ厭世タイプ（Ｗ型）', '明朗楽観タイプ（Ｍ型）']
clf.fit(data_train, label_train)
clf.predict(data_train)

OUT

array(['ネクラ厭世タイプ（Ｗ型）', '明朗楽観タイプ（Ｍ型）'], dtype='<U12')

学習させたデータを推定してみると、当然同じタイプが推定されることが確認できます。

github.com

感想

たとえ数学的な知識に疎くても、gensimやscikit-learnといったライブラリを利用すれば簡単に実現できてしまうのがPythonのすごいところだと感じました。

今後は数学的な知識をより深めたり、機械学習をWebアプリケーションに組み込んだりしてみたいです。今後もPythonを使っていろいろなチャレンジをしていきたいです。

おわりに

今回はPyConJPということでPythonの gensim や scilkit-learn などのライブラリを使って文書分類に挑戦してみましたが、Pythonにとらわれなければ他の選択肢が考えられました。

Facebookが開発しているOSSのfastTextや、GoogleのサービスであるGoogle Natural Language API、AWSのサービスであるAmazon Comprehendなどを利用するともっと簡単にテキスト分析ができるかもしれません。

fasttext.cc

cloud.google.com

aws.amazon.com

参考文献

以下の記事を大変参考にさせていただきました。深く感謝いたします。

qiita.com

はてなの金次郎

とあるエンジニアの技術系ブログ

テキストマイニングによるTwitter個人アカウントの性格推定

はじめに

スライド

YouTube

Gihyo

Twitterの反応

Twitterアカウントの性格推定

ツイートの収集