gutenbergのテキストを章ごとに分ける
project gutenberg
http://www.gutenberg.org/wiki/Main_Page
のファイルをテキストで落としてローカルで読む場合 全てひとつのファイルにまとまっていると重いし読みづらいので 分けてみた
青空文庫だとhtmlでもtextでも横書きのせいか読みづらいけど 英文はそのままで普通に読めてうらやましい
import sys if len(sys.argv) != 2: print 'usage :' print ' python gutenberg.py input' exit() chapter_number=0 fout=open('preface.txt','w') for line in open(sys.argv[1],'r'): lines = line.split() if len(lines) == 2 and lines[0]=='Chapter': print lines # -- for eye check chapter_number += 1 fout.close() outfilename='output'+str(chapter_number)+'.txt' fout = open(outfilename,'w') fout.write(line)
別になんてことないけど まあ簡単に書けるということで
http://hatenadiary.g.hatena.ne.jp/keyword/ソースコードを色付けして記述する(シンタックス・ハイライト)
こんなん初めて知った
便利