Y's note

Web技術・プロダクトマネジメント・そして経営について

本ブログの更新を停止しており、今後は下記Noteに記載していきます。
https://note.com/yutakikuchi/

業種別企業名辞書データを公開しました

Web解析Hacks ―オンラインビジネスで最大の効果をあげるテクニック & ツール

Web解析Hacks ―オンラインビジネスで最大の効果をあげるテクニック & ツール

企業名辞書

業種と企業名の辞書データが欲しかったんでYahoo!FinanceのデータをCrawlして作りました。帝国データバンク四季報のデータが使えると良かったんですが、Crawlできそうに無かったので諦めました。残念ながら2600社ほどのデータしか集まっておらず、個人的にはもっといろんなデータが欲しいです。他に良い方法をご存知の方いらっしゃいましたらご連絡いただけると幸いです。
Yahoo!ファイナンス - 株価やニュース、企業情報などを配信する投資・マネーの総合サイト はてなブックマーク - Yahoo!ファイナンス - 株価やニュース、企業情報などを配信する投資・マネーの総合サイト
TDB企業サーチ | 帝国データバンク[TDB] はてなブックマーク - TDB企業サーチ | 帝国データバンク[TDB]
会社四季報オンライン はてなブックマーク - 会社四季報オンライン

企業名辞書データ

GithubURL

githubに上げました。※利用する場合は全て自己責任でお願いします。
Data/corps.txt at master · yutakikuchi/Data · GitHub はてなブックマーク - Data/corps.txt at master · yutakikuchi/Data · GitHub

DataFormat
[業種名]
企業Code \t 上場市場 \t 企業名 \t 紹介文 
SampleData
[電気・ガス業]
9501  東証1部 東京電力(株)  福島第一原発事故による巨額賠償負担や廃炉費用で経営悪化。政府が出資、一時公的管理下に
9502  東証1部 中部電力(株)  電力3位で中部財界の雄。通信など新規事業に出資。11年5月、国の要請で浜岡原発の運転停止 
9503  東証1部 関西電力(株)  東京電力と並ぶ業界の雄。原発依存度高い。情報通信など展開。原発設備利用率低下で経営悪化 
9504  東証1部 中国電力(株)  石炭火力5割と高い。電源は瀬戸内集中。原発増強計画だったが、震災で新規原発は稼働延期 
9505  東証1部 北陸電力(株)  北陸3県に供給。原子力の設備利用率高かったが、現況は石炭火力主体。水力比率も高い 
9506  東証1部 東北電力(株)  東北6県、新潟へ供給。震災で原発4基停止に加え、火力発電所も複数被災。大口ガス卸売りも
9507  東証1部 四国電力(株)  発電所は瀬戸内側に立地集中、原子力の比率大。保有する伊方原発1〜3号は全基停止中 
9508  東証1部 九州電力(株)  九州財界の雄。産業向け比率が高い。通信事業も育成。玄海、川内の原発6基はすべて停止中 
9509  東証1部 北海道電力(株)  原子力・石炭火力の比重大。需要構造は冬ピーク型。5月上旬の泊3号機点検入りで全原発停止 
9511  東証1部 沖縄電力(株)  沖縄本島と周辺約40島に電力供給、民生用比率が8割占める。電源は石炭と石油火力が主体 
9513  東証1部 J−POWER 04年に政府が民営化で株放出、電力卸が主。電源は石炭火力と水力中心、大間原発の建設再開 
9514  マザーズ  (株)ファーストエスコ  省エネ支援と木質バイオマス発電が2本柱。バイオ発電は日田で自社発電所、白河は運営受託
9531  東証1部 東京ガス(株)  都市ガス最大手。原料天然ガス化先鞭、海外ガス田開発も。地域冷暖房注力、新エネ開発も着手 9532  東証1部 大阪ガス(株)  京阪神地盤。都市ガス2位。営業力強い。コージェネ推進。燃料電池用触媒など技術力に定評
9533  東証1部 東邦ガス(株)  ガス業界3位。愛知、岐阜、三重の3県が営業地域。LPGも強い。コージェネ事業を推進 
9534  東証1部 北海道ガス(株)  札幌、小樽、函館が地盤の地方都市ガス大手。石狩にLNG基地建設中、ガス調達先多様化 
9535  東証2部 広島ガス(株)  中国地方で都市ガス供給首位。契約戸数はLPガス含め60万戸強。工業用コージェネにも注力 
9536  東証1部 西部ガス(株)  都市ガス大手、需要家数、販売量で全国4位。福岡市、北九州市が主要地盤。燃料電池開発に力 
9537  東証2部 北陸ガス(株)  地方ガス大手。新潟、長岡、三条地区に都市ガスを供給。原料は県内産天然ガスとLNGの2本柱 
9539  東証2部 京葉瓦斯(株)  都市ガス中堅。市川、船橋、松戸など千葉県西部の市街地地盤。東京ガス、東京電力から原料融通 
9540  名証2部 中部ガス(株)  豊橋、豊川、浜松、磐田が地盤。区域内の天然ガス化完了。グループにサーラコーポレーション 
9541  東証2部 大多喜ガス(株)  千葉県内房地盤に都市ガス販売。県内産天然ガス等が原料の2割弱。関東天然瓦斯開発の子会社 
9542  東証2部 新日本瓦斯(株)  日本瓦斯の関連会社で北本市、桶川市、久喜市等を供給地域とする都市ガス会社。LPG販売も 
9543  東証1部 静岡ガス(株)  静岡市地盤で工業用に強み。販売量国内5位。清水LNG基地活用し周辺地域へ卸供給を拡大 
9544  東証2部 東日本ガス(株)  日本瓦斯グループ。都市ガス中堅。取手、我孫子周辺が地盤。LNGは東ガス、東電から調達 
CrawlCode
#!/usr/bin/env python
# -*- coding: utf-8 -*-

import sys,re,urllib,urllib2
coods = { "0050" : "水産・農林業",
         "1050" : "鉱業",
         "2050" : "建設業",
         "3050" : "食料品",
         "3100" : "繊維製品",
         "3150" : "パルプ・紙",
         "3200" : "化学",
         "3250" : "医薬品",
         "3300" : "石油・石炭製品",
         "3350" : "ゴム製品",
         "3400" : "ガラス・土石製品",
         "3450" : "鉄鋼",
         "3500" : "非鉄金属",
         "3550" : "金属製品",
         "3600" : "機械",
         "3650" : "電気機器",
         "3700" : "輸出用機器",
         "3750" : "精密機器",
         "3800" : "その他製品",
         "4050" : "電気・ガス業",
         "5050" : "陸運業",
         "5150" : "空運業",
         "5150" : "海運業",
         "5200" : "倉庫・運輸関連業",
         "5250" : "情報・通信",
         "6050" : "卸売業",
         "6100" : "小売業",
         "7050" : "銀行業",
         "7100" : "証券業",
         "7150" : "保険業",
         "7200" : "その他金融業",
         "8050" : "不動産業",
         "9050" : "サービス業"
}

baseuri = "http://stocks.finance.yahoo.co.jp/stocks/qi/"
f = open( './corps.txt', 'w' )

opener = urllib2.build_opener()
ua = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_6_8) AppleWebKit/534.51.22 (KHTML, like Gecko) Version/5.1.1 Safari/    534.51.22'
referer = 'http://finance.yahoo.co.jp/'
opener.addheaders = [( 'User-Agent', ua ),( 'Referer', referer )]
for k,v in coods.items():
   f.write( "[" + v + "]" + "\n" )
   url = baseuri + "?ids=" + k
   try : 
      for i in range(1,25):
         req_url = url + "&p=" + str( i )
         print req_url
         content = opener.open( req_url ).read()
         if re.compile( r'<td class="center yjM"><a href=.*?>(.*?)</a></td><td class="center yjSt">(.*?)</td><td><strong class="yjMt"><a href=.*?>(.*?)</a>(.|\n)*?<span class="yjSt profile">(.*?)</span>', re.M ).search( content ) is not None:
            data = re.compile( r'<td class="center yjM"><a href=.*?>(.*?)</a></td><td class="center yjSt">(.*?)</td><td><strong class="yjMt"><a href=.*?>(.*?)</a>(.|\n)*?<span class="yjSt profile">(.*?)</span>', re.M ).findall( content )
            for node in data:
               info = node[0] + "\t" + node[1] + "\t" + node[2] + "\t" + node[4] 
               #print info
               f.write( info + "\n" )
      f.write( "\n" )
   except Exception:
      continue
f.close()