SPSSã§ç°¡å˜ãƒ†ã‚ã‚¹ãƒˆãƒžã‚¤ãƒ‹ãƒ³ã‚°

SPSSã§ç°¡å˜ãƒ†ã‚ã‚¹ãƒˆãƒžã‚¤ãƒ‹ãƒ³ã‚°

ã€€SPSSã¯Pythonã¨é€£æºã™ã‚‹ã“ã¨ãŒå‡ºæ¥ã¾ã™ã€‚SPSSã¯å¤§å¤‰å¤šæ©Ÿèƒ½ã§ã™ãŒã€æ¥å‹™ã§å®Ÿéš›æ‰±ã†ãƒ‡ãƒ¼ã‚¿ã¯ä¸€ç‹ç¸„ã«ã¯ã„ãã¾ã›ã‚“ã€‚æ§˜ã€…ãªå‰å‡¦ç†ãŒå¿…è¦ã§ã™ã€‚SPSSã«è½ã¨ã—è¾¼ã‚ã‚‹ã‚ˆã†ã€ãƒ‡ãƒ¼ã‚¿ã®æ•´å‚™ã‚„ã‚¯ãƒªãƒ¼ãƒ‹ãƒ³ã‚°ã‚’Pythonã§ç°¡å˜ã«ã‚„ã£ã¦ã—ã¾ã„ã¾ã—ã‚‡ã†ã€‚ä»Šå›žã¯ãƒ†ã‚ã‚¹ãƒˆã‚’SVMã«ã‹ã‘ã‚‹ãŸã‚ã®ä¸‹æº–å‚™ã‚’Pythonã§è¡Œã„ã¾ã™ã€‚å½¢æ…‹ç´ è§£æžã«ã¯MeCab-野良ビルドã‚’ç”¨ã„ã¾ã™ã€‚ã¾ãšã¯é »åº¦ã‚«ã‚¦ãƒ³ãƒˆã—ã¦ã¿ã¾ã™

#coding:utf-8
import sys
import MeCab #MeCabã‚’å‘¼ã‚“ã§ä½¿ãˆã‚‹ã‚ˆã†ã«ã™ã‚‹

tagger = MeCab.Tagger("-Owakati") #åˆ†ã‹ã¡æ›¸ãã‚’ã™ã‚‹æŒ‡å®š
read_file = sys.argv[1] #ã‚³ãƒžãƒ³ãƒ‰ãƒ©ã‚¤ãƒ³ã‹ã‚‰èªã¿è¾¼ã‚€ãƒ‡ãƒ¼ã‚¿ãƒ•ã‚¡ã‚¤ãƒ«ã‚’æŒ‡å®šã™ã‚‹
all_text = open(read_file).read() #æŒ‡å®šã—ãŸãƒ•ã‚¡ã‚¤ãƒ«ã‚’èªã¿è¾¼ã‚€
word_list = tagger.parse(all_text).split() #èªã¿è¾¼ã‚“ã ãƒ•ã‚¡ã‚¤ãƒ«ã‚’åˆ†ã‹ã¡æ›¸ãã—ã€ç”Ÿæˆã•ã‚ŒãŸé…åˆ—ã‚’word_listã«æ ¼ç´
dictionary ={} #ç©ºã®è¾žæ›¸ä½œæˆ

for word in word_list: #dictionaryã«å˜èªžãŒç™»éŒ²ã•ã‚Œã¦ã„ã‚Œã°é »åº¦ã‚’+1ã—ã€ç™»éŒ²ã•ã‚Œã¦ã„ãªã‘ã‚Œã°è¾žæ›¸ã«å˜èªžã‚’ç™»éŒ²ã—ã€ãã®é »åº¦ã‚’1ã¨ã™ã‚‹
	if word in dictionary:
		dictionary[word] = dictionary[word] + 1
	else:
		dictionary[word] = 1

for word, count in sorted(dictionary.items(), key = lambda x:x[1], reverse = True): #dictionaryã«ç™»éŒ²ã•ã‚ŒãŸå˜èªžã‚’é »åº¦é™é †ã§è¡¨ç¤º
	print word + "\t -> " + str(count)

ã€€ã“ã‚Œã§é »åº¦ã‚«ã‚¦ãƒ³ãƒˆãŒå‡ºæ¥ã¾ã—ãŸã€‚ã“ã®ãƒ‡ãƒ¼ã‚¿ã‚’ç”¨ã„ã¦SPSSã§å˜èªžã®ãƒ’ã‚¹ãƒˆã‚°ãƒ©ãƒ ã‚’æããªã©ã—ã¦ã¿ã‚‹ã¨ã„ã„ã§ã—ã‚‡ã†ï¼ˆSPSSãŠæŒã¡ã®æ–¹ã¯ï¼‰ã€‚
ã€€æ¬¡ã¯ãƒ†ã‚ã‚¹ãƒˆã‚’SVMã«ã‹ã‘ã¦ã¿ã¾ã—ã‚‡ã†ã€‚SVMã«ã‹ã‘ã‚‹ãŸã‚ã«ã¯ã€ãƒ†ã‚ã‚¹ãƒˆã‚’IDåŒ–ã—ãªã‘ã‚Œã°ãªã‚Šã¾ã›ã‚“ã€‚SVMã§å‡¦ç†ã§ãã‚‹ãƒ‡ãƒ¼ã‚¿ã¯ã€ã‚¯ãƒ©ã‚¹ã¨IDã¨IDã®å€¤ã¨ã„ã†å½¢å¼ã§ã™ã€‚ä¾‹"+1 :: ID1:12, ID2:4, ID3:9 ID4:4"
ãƒ†ã‚ã‚¹ãƒˆã®IDåŒ–ã¯è‰²ã€…ãªã‚„ã‚Šæ–¹ãŒã‚ã‚Šã¾ã™ã®ã§ã€ãã®ä¸€ä¾‹ã‚’ç¤ºã—ã¾ã™ã€‚ã€ŒçŠ¬ã‚’é€£ã‚Œã¦æ•£æ©ã€ã¨ã„ã†ãƒ†ã‚ã‚¹ãƒˆãŒä¸Žãˆã‚‰ã‚Œã€IDç¾¤ãŒçŠ¬=ID1ã€çŒ«=ID2ã€æ•£æ©=ID3ã¨å‰²ã‚ŠæŒ¯ã‚‰ã‚Œã¦ã„ãŸå ´åˆï¼ˆãã—ã¦ã€Œé€£ã‚Œã¦ã€ã¨ã„ã†å˜èªžã«IDæŒ¯ã‚‰ã‚Œã¦ãªã‘ã‚Œã°ï¼‰ã€ã€ŒçŠ¬ã‚’é€£ã‚Œã¦æ•£æ©ã€â†’ã€ŒID1:1, ID2:0, ID3:1ã€ã¨ãªã‚Šã¾ã™ã€‚ã“ã®ã‚ˆã†ãªãƒ‡ãƒ¼ã‚¿å½¢å¼ã«è½ã¨ã—è¾¼ã‚ã‚‹ã‚ˆã†ãªPythonã‚³ãƒ¼ãƒ‰ã‚’æ›¸ãã¾ã—ã‚‡ã†ã€‚

#coding:utf-8
import sys
import MeCab

tagger = MeCab.Tagger("-Owakati")
read_file = sys.argv[1]
read_dictionary = sys.argv[2] #IDç¾¤ãŒæŒ¯ã‚Šå½“ã¦ã‚‰ã‚ŒãŸå˜èªžè¾žæ›¸

text_list = open(read_file).read().split('\n')
dictionary = open(read_dictionary).read().split('\n')
print ',' + ','.join(dictionary)

def set_id(text):
	count = 0
	id = []
	for word in dictionary:
		count += 1
		id.append(str(text.count(word)))
	return text + ',' + ','.join(id)

for text in text_list:
	print set_id(text)

ã€€ã“ã‚Œã§ãƒ†ã‚ã‚¹ãƒˆãƒ‡ãƒ¼ã‚¿ã‚’SVMã«æ”¾ã‚Šè¾¼ã‚ã‚‹ã‚ˆã†IDåŒ–å‡ºæ¥ã¾ã™ã€‚ä»Šã®ã¯IDãŒäº‹å‰å‰²ã‚ŠæŒ¯ã‚‰ã‚Œã¦ã„ãŸã¨ã„ã†å‰æã§ã—ãŸãŒã€å®Ÿéš›ã¯IDè¾žæ›¸ã‚‚è‡ªä½œã™ã‚‹å¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚é¢å€’ãã•ã„ã®ã§ãã‚Œã‚‚è‡ªå‹•åŒ–ã—ã¦ã—ã¾ã„ã¾ã—ã‚‡ã†ï¼ˆç›®çš„ã«åˆã‚ã›ã¦æ‰‹ä½œæ¥ã—ãŸæ–¹ãŒç²¾åº¦è‰¯ã„ã§ã™ãŒï¼‰ã€‚ã‚µãƒ³ãƒ—ãƒ«ãƒ‡ãƒ¼ã‚¿ã‚’é£Ÿã‚ã›ã€æŒ‡å®šã—ãŸä¸‹é™å€¤ã‚ˆã‚Šå‡ºç¾é »åº¦é«˜ã„å˜èªžã ã‘ã‚’æŠ½å‡ºã—ã¾ã™ã€‚

#coding:utf-8
import sys
import MeCab
tagger = MeCab.Tagger("-Owakati")
read_file = sys.argv[1]
all_text = open(read_file).read()
word_list = tagger.parse(all_text).split()
dictionary = {}
for word in word_list:
	if word in dictionary:
		dictionary[word] = dictionary[word] + 1
	else:
		dictionary[word] = 1
#ã“ã“ã¾ã§ã¯åŒã˜

min = sys.argv[2] #é »åº¦ä¸‹é™
for word, count in dictionary.items():
	if int(count) >= int(min):	#è¨å®šã—ãŸä¸‹é™ä»¥ä¸Šå‡ºç¾ã—ãŸå˜èªžã ã‘ã‚’å‡ºåŠ›
		print word	#å‡ºåŠ›çµæžœã‚’ãƒªãƒ€ã‚¤ãƒ¬ã‚¯ãƒˆã§å–å¾—ã™ã‚‹ãªã©

ã€€ã“ã®çµæžœåã„ãŸãƒ•ã‚¡ã‚¤ãƒ«ã‚’å…ˆã»ã©ã®ã‚³ãƒ¼ãƒ‰ã®ç¬¬äºŒå¼•æ•°ã«æŒ‡å®šã—ã¾ã™ã€‚å®Ÿè¡Œã™ã‚‹ã¨ã“ã‚“ãªæ„Ÿã˜ã«ãªã‚Šã¾ã™ã€‚

#IDè¾žæ›¸
çŠ¯ç½ª
é‡‘
ã‚»ãƒƒã‚¯ã‚¹
æ´åŠ©
äº¤éš›
æ»
æ®ºã™
ãƒ‰ãƒ©ãƒƒã‚°
ã‚·ãƒ³ãƒŠãƒ¼
éº»è–¬

#IDåŒ–

åŽŸæ–‡ çŠ¯ç½ª é‡‘ ã‚»ãƒƒã‚¯ã‚¹ æ´åŠ© äº¤éš› æ» æ®ºã™ ãƒ‰ãƒ©ãƒƒã‚° ã‚·ãƒ³ãƒŠãƒ¼ éº»è–¬

æ´åŠ©äº¤éš›ã—ã¦ãã‚Œã‚‹äººå‹Ÿé›†ä¸ã€œ 0 0 0 1 1 0 0 0 0 0

é¢¨é‚ªæ°—å‘³ãªã®ã§é¢¨é‚ªè–¬è²·ã„ã«è–¬å±€ã¸è¡Œã£ã¦ããŸ 0 0 0 0 0 0 0 0 0 0

æ¸‹è°·ã«ãƒ‰ãƒ©ãƒƒã‚°ã®å¯†å£²äººãŒã„ã‚‹ã‚‰ã—ã„ 0 0 0 0 0 0 0 1 0 0

ãµã–ã‘ãŸã“ã¨è¨€ã£ã¦ã‚‹ã¨æ®ºã™ãžã€çµ¶å¯¾æ®ºã™ 0 0 0 0 0 0 2 0 0 0

éº»è–¬ä½“é¨“ãƒ–ãƒã‚°å…¬é–‹ä¸ï¼ 0 0 0 0 0 0 0 0 0 1

ã€€ã¨ã„ã†ã‚ã‘ã§ã€ã“ã†ã‚„ã£ã¦ãƒ†ã‚ã‚¹ãƒˆIDåŒ–ã™ã‚‹ã¨SPSSã§ç°¡å˜ã«SVMã¨ã‹ã«æ”¾ã‚Šè¾¼ã‚ã¦æ¥½ã—ã„ã§ã™ãï¼ˆSPSSãŠæŒã¡ã®æ–¹ã¯ï¼‰ã€‚æ˜¯éžã‚„ã£ã¦ã¿ã¾ã—ã‚‡ã†ã€‚ã¨ã„ã£ã¦ã‚‚ãƒ†ã‚ã‚¹ãƒˆãƒ‡ãƒ¼ã‚¿ååˆ†ã«ãŠæŒã¡ã§ã¯ãªã„ã‚±ãƒ¼ã‚¹ã‚‚ã‚ã‚‹ã¨æ€ã†ã®ã§ã€twitterã‹ã‚‰ãƒ„ã‚¤ãƒ¼ãƒˆã‚’å–ã£ã¦ãã‚‹ã‚³ãƒ¼ãƒ‰ã‚‚æŽ²è¼‰ã—ã¦ãŠãã¾ã™ã€‚

# -*- coding: utf-8 -*-

#â– ã“ã‚Œã¯ä½•ï¼Ÿ
#twitterã‹ã‚‰ãƒ‘ãƒ–ãƒªãƒƒã‚¯ãªãƒ„ã‚¤ãƒ¼ãƒˆã‚’å–å¾—ã™ã‚‹ãƒ„ãƒ¼ãƒ«ã§ã™ã€‚
#å–å¾—ã™ã‚‹å†…å®¹ã¯ãƒ„ã‚¤ãƒ¼ãƒˆã—ãŸæ™‚é–“ã€ãƒ„ã‚¤ãƒ¼ãƒˆã—ãŸIDã¨åå‰ã€ãƒ„ã‚¤ãƒ¼ãƒˆå†…å®¹ã§ã™ã€‚
#è‡ªåˆ†ã®ã‚¢ã‚«ã‚¦ãƒ³ãƒˆã¨ãƒ‘ã‚¹ã‚’æ›¸ã„ãŸsetting.txtã‚’ç”¨æ„ã—ã¦ä¸‹ã•ã„
#ã‚¹ãƒˆãƒªãƒ¼ãƒŸãƒ³ã‚°ãƒ•ãƒãƒ¼ã¨ã—ã¦é–²è¦§ã™ã‚‹ã ã‘ã§ã¯ãªãã€DBãƒ•ã‚¡ã‚¤ãƒ«(tweet.db)ã«æ ¼ç´ã—ã¾ã™ã€‚
#tweet.dbã¯PupSQLiteãªã©ã§ä¸èº«ã‚’è¦‹ã‚‹ã“ã¨ãŒå‡ºæ¥ã¾ã™ã€‚
#https://www.eonet.ne.jp/~pup/software.html

import base64
import simplejson
import urllib2
import datetime
import sqlite3
import os

# ãƒ„ã‚¤ãƒƒã‚¿ãƒ¼ã‚¢ã‚«ã‚¦ãƒ³ãƒˆè¨å®šèªã¿å–ã‚Š
with open("setting.txt") as f:
 userID = f.readline().replace('\r','').replace('\n','')
 userPassword = f.readline().replace('\r','').replace('\n','')
 commitDoNum = int(f.readline().replace('\r','').replace('\n',''))

#æ—¥æœ¬èªžã®ãƒ„ã‚¤ãƒ¼ãƒˆã ã‘åŽé›†ã™ã‚‹ãŸã‚ã€ãƒ„ã‚¤ãƒ¼ãƒˆãŒæ—¥æœ¬èªžã‹ã©ã†ã‹ãƒã‚§ãƒƒã‚¯
def is_japanese(text):
	def check_chr(x):
	    return ((x >= 0x3040 and x <= 0x309f) or (x >= 0x30a0 and x <= 0x30ff))
	return [ch for ch in text if check_chr(ord(ch))]

#SQLite3ã®DBç”¨æ„ã€‚æ—¢ã«DBãƒ•ã‚¡ã‚¤ãƒ«ãŒã‚ã‚‹å ´åˆã¯ãã‚Œã‚’åˆ©ç”¨ã€ç„¡ã„å ´åˆã¯æ–°è¦ã§ä½œæˆã™ã‚‹ã€‚Python2.5ä»¥ä¸Šã¯SQLiteãŒçµ„ã¿è¾¼ã¾ã‚Œã¦ã„ã‚‹ãŸã‚ã€é€šå¸¸ã¯ã‚¤ãƒ³ã‚¹ãƒˆãƒ¼ãƒ«ä½œæ¥ä¸è¦
if os.path.exists('tweet.db'):
	connection = sqlite3.connect('tweet.db')
	cursor = connection.cursor()
else:
	connection = sqlite3.connect('tweet.db')
	cursor = connection.cursor()
	cursor.execute("create table twitter (tweetTime text, create_dt text, user_screen_id text, user_name text, tweet text);")

# Streaming APIã«æŽ¥ç¶š
streamingAPIURI = 'https://stream.twitter.com/1/statuses/sample.json'
req = urllib2.Request(streamingAPIURI, headers={'Authorization': 'Basic %s' % (base64.encodestring('%s:%s' % (userID, userPassword))[:-1])})
streamingData = urllib2.urlopen(req)

commitCnt = 0 #ã€ŒcommitDoNumå€‹ãƒ„ã‚¤ãƒ¼ãƒˆã‚’insertã—ãŸã‚‰DBã«Commitã™ã‚‹ã€ã¨ã„ã†ç”¨é€”ã«ç”¨æ„ã—ãŸã‚«ã‚¦ãƒ³ã‚¿
for line in streamingData:
	data = simplejson.loads(line)
	text = data.get('text')
	if text and is_japanese(text):
		tweetTime = datetime.datetime.today()
		create_dt = data.get('created_at')
		user_screen_id = data['user']['screen_name']
		user_name = data['user']['name']
		try:
			tpl = (str(tweetTime), create_dt, user_screen_id, user_name, text)
			cursor.execute("insert into twitter values(?,?,?,?,?)", tpl)
			print str(tweetTime) + ":"+ user_name + "\n" + text + "\n"
			commitCnt += 1
			if commitCnt == commitDoNum:	#commitDoNumå€‹ãƒ„ã‚¤ãƒ¼ãƒˆã‚’insertã—ãŸã‚‰DBã«Commitã™ã‚‹
				connection.commit()
				commitCnt = 0
		except:
			print "*** insert miss... ***"

ã€€ã•ãã€çš†ã•ã‚“ã‚‚ã‚³ãƒ”ãƒšã‹ã‚‰ãƒ†ã‚ã‚¹ãƒˆãƒžã‚¤ãƒ‹ãƒ³ã‚°ã‚’å§‹ã‚ã¦ã¿ã¾ã—ã‚‡ã†ï¼ˆSPSSãŠæŒã¡ã®æ–¹ã¯ï¼‰ã€‚

åŽŸæ–‡	çŠ¯ç½ª	é‡‘	ã‚»ãƒƒã‚¯ã‚¹	æ´åŠ©	äº¤éš›	æ»	æ®ºã™	ãƒ‰ãƒ©ãƒƒã‚°	ã‚·ãƒ³ãƒŠãƒ¼	éº»è–¬
æ´åŠ©äº¤éš›ã—ã¦ãã‚Œã‚‹äººå‹Ÿé›†ä¸ã€œ	0	0	0	1	1	0	0	0	0	0
é¢¨é‚ªæ°—å‘³ãªã®ã§é¢¨é‚ªè–¬è²·ã„ã«è–¬å±€ã¸è¡Œã£ã¦ããŸ	0	0	0	0	0	0	0	0	0	0
æ¸‹è°·ã«ãƒ‰ãƒ©ãƒƒã‚°ã®å¯†å£²äººãŒã„ã‚‹ã‚‰ã—ã„	0	0	0	0	0	0	0	1	0	0
ãµã–ã‘ãŸã“ã¨è¨€ã£ã¦ã‚‹ã¨æ®ºã™ãžã€çµ¶å¯¾æ®ºã™	0	0	0	0	0	0	2	0	0	0
éº»è–¬ä½“é¨“ãƒ–ãƒã‚°å…¬é–‹ä¸ï¼	0	0	0	0	0	0	0	0	0	1