漱石山房オープン記念に「こころ」を読んでみた…コンピュータで!無料で楽しめて、機械学習にも活用可能

こんばんは。新宿区議会議員の伊藤陽平です。

新宿区立漱石山房記念館がオープンした際にもお話しさせていただきましたが、せっかくなので夏目漱石の作品を読もうと思っていました。

過去のブログもご参考に。

早稲田に新宿区立漱石山房オープン!私も議連に加入し、全議員で盛り上げます

そんなことを考えながら勉強していた、Pythonを用いた機械学習(≒人工知能)の参考書で、夏目漱石の「こころ」を分析するというおもしろいプログラムを発見!

今回使用した参考書はこちら。

Pythonによるスクレイピング&機械学習 開発テクニック BeautifulSoup, scikit-learn, TensorFlowを使ってみよう | クジラ飛行机 |本 | 通販 | Amazon

コンピュータで夏目漱石を読んでみた結果をお伝えします。

まず、今回は機械学習ではなく、文章(自然言語)をコンピュータで読み込むために、形態素解析という手法を用います。
文章を最小の単位に分解し、品詞を判別することができます。
例えば4行Pythoのプログラムを書けば、
「庭には二羽鶏がいる。」
という文章が、以下のように自動的に品詞ごとに分類されます。

非常に単純なプログラムですが、同様に夏目漱石の「こころ」をコンピュータで読み込んでみました。
頻出する名詞を数えてみたところ、「私」が2700回、「先生」が600回、 「奥さん」が388回となり、主要な登場人物が上位に出てきました。

より精密にプログラムを作る場合には、あまりカウントしても意味がない言葉を、ストップワードとして事前に省くこともあります。
頻出ワードを数えることができましたが、また機会があれば頻出する単語を視覚的に表示するワードクラウドにも挑戦してみたいと思います。

今回のプログラムは、青空文庫で公開されていたファイルを利用しています。
青空文庫 Aozora Bunko

夏目漱石の作品は、著作権が切れているため無料で読むことができます。
txt形式でもダウンロードが可能で、プログラムを開発する際にも利用しやすいです。

漱石山房記念館で読書をするのも素敵ですが、漱石に関するプログラムを開発してみても良いかもしれませんね。

およそ1年前に、ゼロからつくるディープラーニングの参考書を購入して人工知能の勉強をはじめました。
読み進めてプログラムを動かすことはできましたが、結局は数学の知識がないと何をやっているのかさっぱりわからず挫折しました。
そんな時に、キカガクさんで数学とPythonを勉強し、最近では参考書が理解できたりプログラムの改造ができるくらいにはなってきました。

キカガクさんの講座は非常に質が高く内容も充実していたので、ぜひ人工知能に関心のある方は受講していただければと思います。

「文系だから数学が苦手で…」を克服!?ノート30ページ分の数学学習で人工知能の理解が深まる

政治の世界でもICTの活用が進んできている中で、自治体で機械学習が用いられている事例も増えてきました。
中長期的な視点で考えると、人間よりもコンピュータが対応した方が効率的に処理できる仕事がたくさん生まれるでしょうし、効率化を推進することで、人間にしかできない仕事に注力ができるようになります。
新宿区でもより具体的な提言ができるよう、引き続き人工知能にも挑戦してまいります。

それでは本日はこの辺で。

ABOUTこの記事をかいた人

伊藤 陽平

新宿区議会議員(無所属) / 1987年生まれ / 早稲田大学招聘研究員 / グリーンバード新宿チームリーダー / Code for Shinjuku代表 / JPYC株式会社