�告�o�̏��s���ʂ͂���ƁA������Ƃ����s���R����������܂��B����́A�x�X�g�Z���[�ƂȂ������Ёu���o���o�ϊw�v�ł��Љ��Ă����_�������l�^�Ƀl�b�g��̃f�[�^�𗘗p���ĉ�͂����݂܂��B
�@������ɂ��2�J���̊ԘA�ڂ��Ă��܂��܂����B�\�������܂���ł����B����10���A11���ɗp�ӂ��������l�^�����낢�날��̂ł����A������͏����^�C�~���O���킵�ď{���߂����̂ŁA���������Q�����Ă���������Ǝv���܂��B�܂��A���l���̓ǎ҂̕������܂��̂����t��Ղ��܂��đ�ϊ��ӂ��Ă��܂��B�{���ɗ�݂ɂȂ�܂��B���肪�Ƃ��������܂����B���������̘A�ڂŎ��グ�Ăق�������l�^�A���P�_�Ȃǂ�����܂�����A�����Ȃ��ȉ��̃��[���A�h���X�Ƀ��N�G�X�g�₲�ӌ��������肭�������B
�@���琔��́A�告�o�̓��v�f�[�^���l�^�ɂ��āA�u���ɂȂ��Ă��邪�������Ă���f�[�^�v�i�p��ł́gmessy data�h�Ƃ����܂��j���A�����ɂ��ăL���C�ɂ��A�L���C�ɂ����f�[�^���ǂ̂悤�ɉ�͂��邩�Ƃ�����A�̎菇����܂��B�f�[�^��͂������ōs���ꍇ�ɂ́A��������Ԃ̊̂̕����ɂȂ�A�������̓I�Ȏ����p���ĉ�����悤�Ǝv���Ă��܂��B
�@���̘A�ڂňȑO�Љ�����E��s��Web API�T�[�r�X�́A�E�F�u�ɂ����錻�ݍł��������ꂽ�f�[�^���J���@��1�ł��BAPI�̎d�l�������AREST�C���^�[�t�F�C�X����N�ł��K�v�ȏ��ɃA�N�Z�X�ł��A�f�[�^����肷�邱�Ƃ��\�ł��B�������A���ׂĂ̑g�D��l�����̂悤�ɐ��������`�Ńf�[�^�����J���Ă���킯�ł͂���܂���B�ނ���A�E�F�u�ɂ���قƂ�ǂ̏��́A�R���s���[�^�̎��_����݂�ƍ������Ă��鉘���f�[�^�ł���A�Ƃ����Ă����ł��傤�B
�@�������Ă��鉘���f�[�^�̕M���Ƃ��āA�\�������l���ċL�q����Ă��Ȃ�HTML�ɂ��f�[�^������܂��B�|�[�^���T�C�g�ɂ���X�|�[�c�̏��s�\�Ȃǂ����̑�\��ł��B���̂悤�ȃE�F�u�ɂ���HTML�Ȃǂŕ\�����ꂽ������肵�A�K�v�ȃf�[�^�����o�����Ƃ��A�uHTML�X�N���C�s���O�v�ƌ����܂��B
�@�X�N���C�s���O�͈ꌩ����ƃE�F�u�������悭���p���Ă���悤�Ɍ����܂����A�����URL��HTML�Ɉˑ����ĖړI�̃f�[�^��T���킯�ŁA�X�N���C�s���O�Ώۂ�Web�T�C�g�̃V�X�e���ύX��AHTML�̎d�l�ύX�ɂƂĂ��キ�A�X�N���C�s���O�v���O�����̓����e�i���X����ςł����ɗ��p���ł��Ȃ��Ȃ肪���ł��B
�@�ŋ߂�Perl��WWW::Mechanize��ARuby��scRUBYt!�Ȃǂ֗̕��ō��@�\�ȃX�N���C�s���O���C�u�������o�Ċe���ʂŐϋɓI�ɗ��p����Ă��܂��B�������A�֗��ō��@�\�ȃX�N���C�s���O�t���[�����[�N�𗘗p���Ă��A�X�N���C�s���O����ɂ�HTML�̓���^�O�����e�L�X�g��͂��Ȃ���v���O���~���O���邱�Ƃ��K�v�ł��B�ύX�Ɏキ�A�e�ՂɃv���O���~���O���ɂ������Ƃ͕ς��܂���B
�@�����Ŗ���蕪���܂��傤�B�����f�[�^������͎̂����ƔF�߁A���̃f�[�^���e�ՂɕύX����邱�Ƃ������ƔF�߂܂��傤�B����2�̗v���͏��^�ł���ƁB�����f�[�^���e�ՂɕύX���ꂽ�Ƃ��Ă��A���̕ύX�ɑΉ��ł���悤�Ȏ�@�������邱�ƂɃt�H�[�J�X���܂��B
�@�d�l���ύX�ɂȂ肪���ȉ���HTML���A�����悭�e�L�X�g��͂��ăf�[�^����肷��B���̂��߂ɂ́A�T���I��HTML����͂ł��邱�ƁA1�x��͂����菇�����x���g���邱�ƁA�Ƃ���2���K�v�ł��B����͂��̗v���������߂̃V�X�e���Ƃ��āAGoogle Refine�𗘗p���܂��傤�B
�@�����ĉ����f�[�^�̕M���Ƃ��āAYahoo! Japan�ɂ���告�o�̎��g���ʂ����グ�܂��B���̃f�[�^�����グ�����R��2����܂��B1��HTML�̍\�����������Ă���̂Ńe�L�X�g��͂̃v���O���~���O���ʓ|�Ȃ��ƁA����1�͑告�o�̎��g���ʂ͔��ɖʔ�����͌��ʂ��m���Ă��邱�Ƃł��B
�@Yahoo! Japan�X�|�[�c�ɂ�����告�o�̎��g���ʂ̕\���͈ȉ��̒ʂ�ł��B(http://sports.yahoo.co.jp/sumo/etc/torikumi/199901/)
�@����HTML�͈ȉ��̂悤�ɂȂ��Ă��܂��B
... <table border=0 cellpadding=2 cellspacing=1 width=95%> <tr><td align="right"> ���͏����z���A���͕����z�� </td></tr> </table> <table border=3 cellpadding=2 cellspacing=1 width=95% bgcolor="#F5DEB3"> <tr> <th width=48%><font size="+1">��</font></th> <th width=4% nowrap>�i<br>�t</th> <th width=48%><font size="+1">��</font></th> </tr> <tr align="center" valign="top"> <td> <b>�M�T�ԁ@��</b><br> 8��7�s<br> <table border=0 cellpadding=1 cellspacing=1> <tr align=center valign=top> <td>��<br>��<br>��</td> <td>��<br>�y<br>��<br>�m<br>�C</td> <td>��<br>�@<br>�c</td> <td>��<br>��<br>�t<br>��</td> <td>��<br>��<br>��<br>�R</td> <td>��<br>��<br>�x<br>�m</td> <td>��<br>��<br>��</td> <td>��<br>��<br>��</td> <td>��<br>�o<br>��</td> <td>��<br>��<br>��</td> <td>��<br>��<br>��<br>�C</td> <td>��<br>��<br>�o<br>�R</td> <td>��<br>��<br>�T<br>��</td> <td>��<br>��<br>��<br>��<br>�C</td> <td>��<br>��<br>��<br>��</td> </tr> </table> </td> ...
�@�ԕt�\�Ɠ������ڂ�ێ������邽�߂��A�Ӗ��I�ɈقȂ鏟�s�̐��Ƒΐ푊�肪�����Z���ɏ�����Ă��āA�ΐ푊��̖��O��<br>�^�O�Ō�������A�c�����ɂ��Ă��܂��B�������A���̂��炢��HTML�Ȃ琳�K�\�����ӂ��Ɏg�������AscRUBYt�̎g����ł�����A�����撣��Ύ��s���낵�Ȃ���p�[�X�ł��邩������܂��A�����ƊȒP�Ƀp�[�X�ł�����@������Ƃ���A������g��Ȃ���͂���܂���B
�@���E�I�x�X�g�Z���[�ɂȂ���Steven D. Levitt��Stephen J. Dubner�́gFreaknomics�h�i�M��u���o���o�ϊw�v�j�ł́A�u���o�̔��S���^�f�v���b��ɂȂ�܂����B���̌��l�^�ƂȂ����̂��ȉ���Mark Duggan��Steven D. Levitt�̘_���ł��B
"Winning Isn't Everything: Corruption in Sumo Wrestling"
�@���̘_����Duggan��Levitt��1989�N����2000�N�܂ł̏\���ȏ�̎��g�ݕ\�A70���x�̗͎m�̑ΐ����͂��āA�s���R�ȃA�m�[�}���[����܂����B����́A7��8�s�̗͎m�̐������ɏ��Ȃ��Ƃ������̂ł��B�ӂ��告�o��1�l�̗͎m�̎��g�ݐ��͏ꏊ������15��ł��B����ƁA�����z���E�����z�������܂�̂�7��8�s��8��7�s�̃��C���ŁA�ӂ��̃����_���ȑΐ���l����Ƃǂ�����������x�̏o�����ɂȂ�͂��ł��B�������A�_����Figure2������ƁA���炩��7��8�s�����Ȃ��āA8��7�s�������Ƃ����u�A�m�[�}���[�v�������Ă��܂��B
�@�_���́A���̃A�m�[�}���[������ɏڂ����݂āA�ŏI���̑ΐ�ɂ�����7��7�s�̗͎m���A���łɏ����z�������߂Ă���͎m�Ƒΐ킷��Ƃ��ɁA7��7�s�̗͎m�����m�����������Ƃv��͂ɂ�莦���܂����B�܂��A���̌��ۂ�����ł���\���̂��鉼���𗧂āA������������A��͂菟���z���E�����z���̃M���M���̓�������ɂ���͎m�������₷���Ƃ����X�������邱�Ƃ𖾂炩�ɂ��܂����B�����āA��������Ȃ���������̗͎m�������₷�����Ƃ������Ƃ��A�o�ϊw�I�ȃC���Z���e�e�B�u�\������A�l�N�h�[�g�I�ɋL�q���܂��B�����ł͏ڂ����͏����܂��A��ϖʔ����_���Ȃ̂ŋ@���������ǂނ��Ƃ�I�X�X�����܂��B
�@��L�̘_���ł�1989�N����2000�N�̃f�[�^�𗘗p���Ă��܂��B����Ɠ��R�̂��ƂȂ���ŋ߂̃f�[�^�𗘗p����ǂ��Ȃ邩�H �Ƃ������Ƃ��C�ɂȂ�܂��B���̃V���[�Y�ł͂�����菇��ǂ��Č��Ă����܂��傤�B�������A���܂�B���̂���������̂ŁA��Ɍ��ʂ�������Ă����܂��B�R�[�h�̏ڂ�������͎���ȍ~�ɉ܂����A1999�N����2010�N9���܂ł̑告�o�̏��s���z���Č�����R�[�h�͎��̂悤�ɂȂ�܂��BCRAN��plyr���C�u�����𗘗p���āA�Ȃ��Ȃ��G���K���g�ȃR�[�f�B���O���ł����̂ŁA����𑁂�����������Ƃ͎v���܂����A�����Ȃ�̂Ō�ɉ܂��B�܂��A�����ł́A��ق�Google Refine�ŃN���[�j���O���Ď�ɓ����\��̃f�[�^����肵�ė��p���Ă��܂����A���̃f�[�^��Google Docs��CSV�`���Œu���Ă����܂����B
df <- read.csv("http://spreadsheets.google.com/pub?key=0AlBuJgqcP5f3dElpb0lWcDRjZldkMzE1LW5aY1VtMHc&hl=en&single=true&gid=0&output=csv", header=FALSE) names(df) <- c("rikishi", "vs", "win", "year", "month") nrow(df) df <- subset(df, df$win!=-100 & df$win!=-1) library(plyr) df <- ddply(df, .(rikishi, year, month), summarize, numwin=sum(win)) library(ggplot2) p2 <- ggplot(df, aes(numwin)) + geom_histogram(aes(y = ..count..)) ggsave(plot = p2, filename = "sumoobservation.png") dsumo <- function(x, total) total*dbinom(x, size = 15, prob = 1/2) dft<- data.frame(x = c(0:15), win_theory = dsumo(c(0:15), nrow(df))) df2 <- as.data.frame(table(df$numwin)) names(df2) <- c("x", "win_observ") str(df2) df2 <- transform(df2, x = as.integer(x)-1, win_theory = dft$win_theory) ggplot(data = melt(df2, id = 'x'), aes(x = x, y = value, colour = variable)) + geom_line() ggplot(data = df2, aes(x)) + geom_point(aes(y = win_observ, colour = "win_observ")) + geom_line(aes(y = win_observ, colour = "win_observ")) + geom_line(aes(y = win_theory, colour = "win_theory"))
�@���ʂ͈ȉ��̃O���t�ɂȂ�܂��B
�@�������������̐��ŁA�c�������ۂɂ��̏��������҂����͎m�̐l���ł��B�Ԃ̐���1999�N1���ꏊ����2010�N9���ꏊ�܂ł̏��s���ʂ̕��z�ŁA�̐��������������_���ɐ������Ɖ��肵���Ƃ��ɕ`�������z�ɂȂ�܂��B���������ƕ�����悤�ɁA�{����500�l�قǂ��Ă������͂���7��8�s�̗͎m�����A350�l���x�ƁA���Ȃ菭�Ȃ��Ȃ��Ă��܂��B�܂��ADuggan��Levitt�̌��ʂ����A���������ɒ[�ɑ����͎m�Ə��������ɒ[�ɑ����͎m�̐l���������Ȃ��Ă��āA�����L�����z�ɂȂ��Ă��܂��B����ɂ��āA�M�҂�Duggan��Levvit�̌��ʂɋ^�₪����܂��B�ނ�̃O���t�ɂ͑S���͎m���[�����A����ɋ߂����z�ƂȂ��Ă��܂����B�������A1999�N����2010�N�̌��ʂ����Ă��A���\�S���D���͂���܂����ADuggan��Levitt���g�p����1989�N����2000�N�ɂ��S���D���͎��ɂ������Ƃ�����܂��B�����͎�M�S�����������͂��ŁA�Ȃ��S�����[���Ȃ̂ł��傤���H �Ƃ肠�����A���̋^��͘e�ɂ����āA���̃V���[�Y�ł́A�܂��͂��́u�告�o�̃A�m�[�}���[�v�������Ŋm���߂邱�Ƃ����݂܂��B
�告�o�̃A�m�[�}���[ (1)
Page1
����̑O����
�����f�[�^���ǂ�����H
Yahoo! Japan�X�|�[�c�̑告�o�̎��g����
7��8�s�����Ȃ�8��7�s�����A�告�o�̕s���R
Page2
Google Refine
����ɂ���
Copyright © ITmedia, Inc. All Rights Reserved.