import twitter

api = twitter.Api(
    consumer_key=CONSUMER_KEY,
    consumer_secret=CONSUMER_SECRET,
    access_token_key=ACCESS_TOKEN_KEY,
    access_token_secret=ACCESS_TOKEN_SECRET
)

tweets = api.GetUserTimeline(screen_name='jumpyoshim', count=2)

collectionsのnamedtupleのようなデータ構造で返却されるため、注意が必要です。

[tweet.text for tweet in tweets]

OUT

['RT @akucchan_world: 吉村さんのLTです。\n#pyconjp https://t.co/ZCvHY9ebcw',
 'PytestのTDD実践ためになった #pyconjp']

文章のベクトル化

続いて、収集したツイートを数値計算しやすいようにベクトル化します。

ベクトル化の手法として、3つほど確認できました。

https://tifana.ai/words/natural-language-processing/9302.htmltifana.ai

deepage.net

Word2VecやDoc2Vecに関しては、まだ咀嚼しきれない部分があったため、今回はBoWを選択しました。

BoWは、単語の頻出度のみを考慮して、単語の頻出度をベクトル化したものが最も近いデータを推定結果としているだけです。

Word2VecやDoc2Vecは単語の並び順なども考慮するらしく、推定精度が上がるらしいです。まだまだ勉強不足、今後の課題です。

形態素解析

ベクトル化するために、まずは形態素解析をする必要があります。

形態素解析のツールとして、3つほど確認できましたが、環境構築が容易で速度もはやいMeCabを選択してみました。

import MeCab

tagger = MeCab.Tagger('mecabrc')
data = []
for tweet in tweets:
    node = tagger.parseToNode(tweet.text)
    words = []
    while node:
        meta = node.feature.split(',')
        if meta[0] == '名詞':
            words.append(node.surface.lower())
        node = node.next
    data.append(words)
print(data)

OUT

[['rt', '@', 'akucchan', '_', 'world', ':', '吉村', 'さん', 'lt', '#', 'pyconjp', 'https', '://', 't', '.', 'co', '/', 'zcvhy', '9', 'ebcw'], ['pytest', 'tdd', '実践', 'ため', '#', 'pyconjp']]

※ 形態素解析の際、実際にはURLや@アカウント名、リツイートなどを正規表現で空文字で置換することで、形態素解析された際に意味をなさない単語を排除します。

MeCabとJanomeに関してはpipでインストールできるため利用しやすいですね。

JUMANは環境構築がやや手間ですが、かなり高精度の形態素解析をしてくれるみたいです。

pypi.org

JUMAN - KUROHASHI-CHU-MURAWAKI LAB

特徴ベクトル

形態素解析した単語群は gensim を用いて辞書を作成し、ベクトル化します。

from gensim import corpora, matutils

dictionary = corpora.Dictionary(data)
data_train = []
for datum in data:
    bow = dictionary.doc2bow(datum)
    dense = list(matutils.corpus2dense([bow], num_terms=len(dictionary)).T[0])
    data_train.append(dense)
print(data_train)

OUT

[[1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0], [1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0]]

github.com

文書分類器

ここまででデータを揃えることができたので、正解ラベルを用意して学習を行います。

正解ラベルはエゴグラムの診断結果を利用します。Twitter上にエゴグラムの診断結果をツイートするアカウントが多く存在するためです。

以下の23パターンがあります。

ネクラ厭世タイプ（Ｗ型）
明朗楽観タイプ（Ｍ型）
優柔不断タイプ（Ｎ型）
ハイパワータイプ（逆Ｎ型）
頭でっかちタイプ（逆Ｖ型）
お手あげタイプ（Ｖ型）
典型的ネクラタイプ（Ｕ型）
ぼんぼんタイプ（逆Ｕ型）
頑固オヤジタイプ（左上がり型）
ガキ丸出しタイプ（右上がり型）
ハイレベルタイプ（オールＡ型）
中庸タイプ（オールＢ型）
原始人タイプ（オールＣ型）
ルーズタイプ（ＣＰ欠乏型）
クールタイプ（ＮＰ欠乏型）
現実無視タイプ（Ａ欠乏型）
自閉症タイプ（ＦＣ欠乏型）
気ままタイプ（ＡＣ欠乏型）
口うるさタイプ（ＣＰ型）
お人好しタイプ（ＮＰ型）
コンピュータタイプ（Ａ型）
自由奔放タイプ（ＦＣ型）
自己卑下タイプ（ＡＣ型）

機械学習

scikit-learn を利用することで簡単に機械学習ができます。

from sklearn.ensemble import RandomForestClassifier

clf = RandomForestClassifier()
label_train = ['ネクラ厭世タイプ（Ｗ型）', '明朗楽観タイプ（Ｍ型）']
clf.fit(data_train, label_train)
clf.predict(data_train)

OUT

array(['ネクラ厭世タイプ（Ｗ型）', '明朗楽観タイプ（Ｍ型）'], dtype='<U12')

学習させたデータを推定してみると、当然同じタイプが推定されることが確認できます。

github.com

感想

たとえ数学的な知識に疎くても、gensimやscikit-learnといったライブラリを利用すれば簡単に実現できてしまうのがPythonのすごいところだと感じました。

今後は数学的な知識をより深めたり、機械学習をWebアプリケーションに組み込んだりしてみたいです。今後もPythonを使っていろいろなチャレンジをしていきたいです。

おわりに

今回はPyConJPということでPythonの gensim や scilkit-learn などのライブラリを使って文書分類に挑戦してみましたが、Pythonにとらわれなければ他の選択肢が考えられました。

Facebookが開発しているOSSのfastTextや、GoogleのサービスであるGoogle Natural Language API、AWSのサービスであるAmazon Comprehendなどを利用するともっと簡単にテキスト分析ができるかもしれません。

fasttext.cc

cloud.google.com

aws.amazon.com

参考文献

以下の記事を大変参考にさせていただきました。深く感謝いたします。

qiita.com

2018-08-02

「情熱プログラマー」から学んだこと。

読書感想文

情熱プログラマーソフトウェア開発者の幸せな生き方

作者:Chad Fowler
出版社/メーカー: オーム社
発売日: 2010/02/26
メディア: 単行本（ソフトカバー）

概要

著作： 「情熱プログラマー」
著者： Chad Fowler
監訳： でびあんぐる
著者経歴：I lead Developer Advocacy at @microsoft and am a venture partner at @blueyard. I also make avant-garde jazz at @chadfowlermusic. It's an acquired taste.
Chad Fowler (@chadfowler) | Twitter

要約

ソフトウェア開発におけるキャリアで根本的に成功を収めるための戦略を提示する

市場の選び方、市場価値の高め方、自分のスキルへの投資方法、周囲へのアピール方法など自分のキャリアに満足感と幸福感を得るための方法を紹介する。

面白かった章とその理由

第4章マーケティング... スーツ族だけのものじゃない

ビジネスの目的は利益を上げることだ。会社で抜きん出るには、利益を上げるためのビジネスプランに自分がいかに適合しているかを理解しなきゃならない。

ビジネスの分野における経験は、自分のレパートリーのなかでも重要な部分だと考えるべきだ。

忘れちゃいけない。君の給料はビジネスから生み出されるんだ。

自分はプログラマだっていうアイデンティティにこだわるな。

エンジニアにも「ビジネス」という観点が必要なことを学べる章です。

ビジネス視点で仕事ができるエンジニアは実際にはなかなかいないだろうと感じました。

一方で市場的にはそういう考えを持つエンジニアは需要が高いと思うので、意識的に興味を持ってビジネスサイドのことも勉強したいです。

有り余るほどの教育を受けながら期待はずれな働きしかできない同僚と、僕との違い。それは情熱だ。熱中できるかどうか。

技術に熱中できる + ビジネスへの理解がある = スーパーエンジニア

この方程式が成り立つかどうかはわかりませんが（笑）まずは、今自分がいるO2O業界の理解度からあげる努力をしてみようと思います。

仕事に活かせそうな知識、活かせそうな状況と活かし方

1週間に1度自己評価の時間を設ける。
積極的に登壇活動する。
- PyCon 2018 LT応募済み。
- PaperCall.io - テキストマイニングによるTwitter個人アカウントの性格推定
OSSへコントリビュートする。
- 最近数個プルリク出したが、もう少し大きめのOSSに関わりたい。
- Fix typo in Amazon S3 documentation by jumpyoshim · Pull Request #512 · jschneier/django-storages · GitHub
- Define a release process type in Procfile. by jumpyoshim · Pull Request #61 · heroku/python-getting-started · GitHub
- Fix urlpattern for Django 2.0 by jumpyoshim · Pull Request #62 · heroku/python-getting-started · GitHub
- Update Python 2.7.15 and Django 1.11.14 (!2) · Merge Requests · Kamil Trzciński / python-getting-started · GitLab
一日の計画を報告する。
- 有言実行し、約束の信頼性を高める。
報告できる成果を毎日上げる。
21個すべてのCode Kataに挑戦してブログにあげる。
ビジネスの基本に関する本を1冊手に入れ、最後まで読み通す。

レポート作成方法

@ledsun blog の「新人エンジニアにレポートを書かせて技術書の読み方を伝える。」という記事で紹介されているレポート作成方法を使わせていただきました。

ブクログ始めました

フォローお待ちしてます。
https://booklog.jp/users/jumpyoshi

2018-07-31

Django管理画面のカスタマイズ方法【デザイン】

Django Programming

はじめに

Django管理画面のデザイン変更方法を調べてみると3つほど確認できました。

1. style属性を利用する

Django管理画面のテンプレートにHTMLのstyleタグやstyle属性を追加します。

※ 参考：【Django入門】adminサイトの作り方からカスタマイズまで！

少ない変更で簡単にデザインを変更することができますが、この方法は望ましくありません。文書構造とデザインを分離するために、XHTML1.1ではstyle属性は非推奨とされているためです。style属性は将来的に廃止される可能性もあるので利用するのは避けた方が良さそうです。

※ 参考：style属性

2. django/djangoのcssをオーバーライドする

django/djangoの管理画面のスタイルシートをオーバーライドします。

任意のディレクトリにオーバーライドするcssファイルを設置します。このとき、cssのディレクトリ全てをコピーしても良いですし、オーバーライドしたいファイルのみコピーしてきても良いです。

※ 参考：[Python] Django 管理サイトのカスタマイズ（表示面）

こちらは管理画面のデザインを変更する方法として最も一般的であると思いますが、できれば避けたい方法です。Djangoは日々盛んにアップデートされているのでcssも変更されないとはいえません。実際、GitHubのHistoryを確認してみると数ヶ月単位ではありますが、cssもアップデートされています。もしコピーしてきたものとDjangoの本体で差分が発生した場合、追従する必要性が出てくるため、保守が面倒なことになりそうです。

3. Media classを利用する

docs.djangoproject.com

admin.py をカスタマイズする方法です。変更したいデザインがモデル固有のものであれば、以下のようにcssやjavascriptを追加することで、その内容を適用することができます。

class MyModelAdmin(admin.ModelAdmin):
    class Media:
      js = ('admin/css/myadmin.js',)
      css = {
        'all': ('admin/css/myadmin.css')
      }

こちらの方法は、Django本体のcssをオーバーライドするわけではないのでメンテナンスが楽です。変更したいデザインがモデル固有のものであれば積極的に採用したい方法です。

※ 参考: Overriding admin css in django

はてなの金次郎

とあるエンジニアの技術系ブログ

テキストマイニングによるTwitter個人アカウントの性格推定

はじめに

スライド

YouTube

Gihyo

Twitterの反応

Twitterアカウントの性格推定

ツイートの収集

文章のベクトル化

形態素解析

特徴ベクトル

文書分類器

機械学習

感想

おわりに

参考文献

「情熱プログラマー」から学んだこと。

概要

要約

面白かった章とその理由

仕事に活かせそうな知識、活かせそうな状況と活かし方

レポート作成方法

ブクログ始めました

Django管理画面のカスタマイズ方法【デザイン】

はじめに

1. style属性を利用する

2. django/djangoのcssをオーバーライドする

3. Media classを利用する