gymnoの自由談

音楽系、プログラミング系の内容 方針はいずれ

gutenbergのテキストを章ごとに分ける

project gutenberg
http://www.gutenberg.org/wiki/Main_Page
のファイルをテキストで落としてローカルで読む場合 全てひとつのファイルにまとまっていると重いし読みづらいので 分けてみた
青空文庫だとhtmlでもtextでも横書きのせいか読みづらいけど 英文はそのままで普通に読めてうらやましい

import sys
if len(sys.argv) != 2:
    print 'usage :'
    print '  python gutenberg.py input'
    exit()
chapter_number=0
fout=open('preface.txt','w')
for line in open(sys.argv[1],'r'):
    lines = line.split()

    if len(lines) == 2 and lines[0]=='Chapter':
        print lines   # -- for eye check
        chapter_number += 1
        fout.close()
        outfilename='output'+str(chapter_number)+'.txt'
        fout = open(outfilename,'w')
    fout.write(line)


別になんてことないけど まあ簡単に書けるということで
http://hatenadiary.g.hatena.ne.jp/keyword/ソースコードを色付けして記述する(シンタックス・ハイライト)

こんなん初めて知った
便利