語り部調査委員会

語り部調査委員会

略称「かっちょい」。統計などを集計して真実を露呈させるぞっ。

c*KATARIBE.COM ここ一週間の上位100ヒットページ

構成員

sfこと古谷俊一
発言数集計してますー。
ふきら
IRCの頻出文字列調査担当。

話題まとめ

2007年頻出文字列調査

2007年出現単語上位一覧(狭間06)

括弧の中はその月の出現数です。

順位 1位 2位 3位 4位 5位 6位 7位 8位 9位 10位
1月 鋭司(350) 氷我利(313) 彗(312) 葛海(301) 空音(299) 千紗紀(268) 紫(263) 眞由美(218) 正樹(214) あまり(196)
2月 氷我利(180) 正樹(151) 紫(112) 眞由美(86) 彗(82) 空音(78) 渚(69) かえで(66) みかん(62) 優一(55)
3月 氷我利(234) 優一(163) かえで(116) 眞由美(115) 紫(107) 桃花(102) 亜美(96) 渚(85) ゆかりん(82) 正樹(73)
4月 朱敏(386) 佐緒里(181) 片帆(164) 健司(159) 珊瑚(129) 棗(127) 薗煮(110) 氷我利(107) 仙(98) 小池(88)
5月 朱敏(798) 正(313) 月夜(278) 竜胆(274) 健司(189) 珊瑚(184) 渚(175) 美絵子(173) 紫(165) 小池(159)
6月 珊瑚(289) かえで(234) 優一(211) 紫(196) 摘薙(171) 亜美(143) 葛海(140) 朱敏(126) 正樹(120) 竜胆(102)
7月 正樹(969) つかさ(538) 渚(434) 白亜(390) 摘薙(340) 氷我利(297) 千沙紀(282) 紫(271) かえで(259) 溥(254)
8月 正樹(747) 結夜(517) 竜胆(426) オワタ(392) 渚(323) つかさ(312) シチシチ(312) 摘薙(279) りまりま(274) 幹也(249)
9月 オワタ(772) りまりま(580) 正樹(569) 白亜(527) 摘薙(403) つかさ(363) 竜胆(319) みゐえ(272) 朱敏(267) 鋭司(255)
10月 オワタ(346) 幹也(182) 結夜(179) 白亜(162) りまりま(162) つかさ(161) 竜胆(154) 碧流(119) 正樹(86) 各務(86)
11月 オワタ(324) 幹也(188) りまりま(137) 小池(106) 各務(103) 大樹(73) 渚(68) 結夜(62) 尚久(61) 鋭司(61)
12月 オワタ(480) 木下(479) 朱敏(471) 珊瑚(330) 溥(329) 正樹(287) 彗(282) りまりま(269) 幹也(217) つかさ(197)

2006年頻出文字列調査

2006年出現単語上位一覧

括弧の中はその月の出現数です。

順位 1位 2位 3位 4位 5位 6位 7位 8位 9位 10位
1月 真帆(581) 達大(580) 摘薙(550) 葛海(533) ノナ(467) 相羽(456) 鋭司(378) 六華(325) 八尋(308) 先輩(302)
2月 真帆(656) 達大(588) 葛海(460) 優一(442) 梗二(404) 鋭司(403) 摘薙(363) 相羽(321) 学(326) 夏澄(205)
3月 真帆(278) 相羽(215) 人形(142) 鋭司(141) アリス(137) 葛海(133) 御南深(127) 夏澄(124) 梗二(104) 泰弥(103)
4月 真帆(564) 鋭司(497) 優一(336) 葛海(258) 相羽(222) 達大(190) 丹下(180) 泰弥(166) 御南深(161) 亜美(157)
5月 摘薙(951) 正樹(544) 鋭司(540) 少女(531) 旅邁(485) 竜胆(434) 達大(393) 紫(331) 渚(264) 一之瀬(213)
6月 摘薙(1952) 正樹(1081) 鋭司(1012) 竜胆(989) 少女(881) キューブ(645) 旅邁(635) 紫(620) 葛海(562) 渚(448)
7月 摘薙(1284) 正樹(847) 竜胆(687) 少女(651) キューブ(647) 鋭司(420) 渚(388) あやめ(335) 紫(326) ツナギ(286)
8月 摘薙(1273) 正樹(856) 竜胆(709) 少女(628) 渚(487) 紫(447) 結夜(432) アゲハ(394) 葛海(387) キューブ(378)
9月 摘薙(1041) 渚(578) 梅太郎(564) 鋭司(560) 窓香(494) 正樹(485) アナ(417) 達大(409) 竜胆(397) ヨルグ(377)
10月 摘薙(912) 正樹(637) 和枝(597) 竜胆(543) アナ(459) 瞑(440) 渚(439) キューブ(396) 芳弘(362) 綺胤(349)
11月 氷我利(894) 摘薙(875) 竜胆(701) 彗(667) 空音(648) 正樹(590) 葛海(488) 眞由美(476) 渚(381) アナ(381)
12月 氷我利(1233) 正樹(878) 眞由美(652) 彗(589) 千沙紀(553) 渚(545) 葛海(530) 紫(466) 鋭司(434) 優一(429)

2005年頻出文字列調査報告

2006年頻出文字列調査報告

2007年IRCログ月別特徴語調査

やっていることは今までの文字列調査と同じようなこと。ただし、形態素解析を行って対象を名詞のみに限定したりしているので名称変更。

その他の集計

非常に簡単な技術的な話

頻出文字列の数え上げ

1文字から10文字の幅で出現する文字列を単純に数え上げています。本来なら形態素解析などをしたものを対象として、単位を文字ではなく形態素でやるべきなのですが、口語的な文に対しては形態素解析器は弱いので、表層の文字のみで数えています。

TF-IDFについて

TF-IDF(Term Frequency-Inverted Document Frequency)は対象テキストの特徴語抽出に用いられます。これは、単語の頻度に、その単語の希少度を重みとしてかけたもので、今回使用した式は

tf×log(N/df)

というもので、tfが対象ファイル中の対象単語の出現数、Nが総ファイル数で、今回は月別にログを分けたのでN=12となります。dfが全てのファイルのうち、対象単語が出現しているファイルの数です。

よって、全てのファイルに出現した場合、重みが0になってしまいます。これを防ぐためにIDFとして上記の式に1を足した物が使われることもあります。

資料リンク

リンク