株にゅの最近のブログ記事

stdがwiki作ってくれたのでそっちに関連記事を全部転記しました.
興味ある人はコメントとかアドバイスとか,
あとなんなら何か作ってください.一緒にやりましょう.

以降,株にゅ関係の記事は全て向こうでのみ更新しまする.
これで更新量も落ち着くはず!

[株にゅ] Groovy

| コメント(748) | トラックバック(0)

・Groovy - Scripting for Java
http://kakutani.com/trans/ociweb/jnbFeb2004.html

Javaをスクリプト言語として書けてしまうらしい!すげええええ
はっきり言っておくと,Javaがあんまり好きじゃないのです.
だって書き方ややこしいんやもん…
未だにちゃんとオブジェクト指向のプログラムが作れません.
そろそろプログラミング始めて10年なのになんと言う情けなさ.

カブロボの環境もJavaだし使えるとやっぱ便利だと思うので,メモ.

あまりにも記事が増え過ぎて煩雑になりそうだし,
そもそも読まない人のRSSにあまりに申し訳ないので
そのうち株にゅ関係は全部まとめて移行します.

ロリと喋ってたら大ちゃんがwiki作ってくれるとか
何とか言ってくれてたらしいので,
出来たらそっちに移すよてい!
それまではここに書きまくるけど,邪魔な人ごめんなさい.

やばい眠い.

・自動株式売買ロボット・カブロボ
http://www.kaburobo.jp/

詳しく調べてないけど,多分アルゴリズムトレードを
みんなで色々やってみましょう的な集まりなんでしょう!多分
ロリが前にちょっと言ってたけど,どこまで知ってるのかな.
この記事見てたらおせーてください.
明日見てみることにして,今日は寝よう..ねむ.

サーベイはひとまずこれ調べておしまい.
次はデータ収集に入ろうかな.
あと早いとこロードマップを作っとこう.

・人に代わってニュースを読むコンピュータ
http://www.nri.co.jp/opinion/kinyu_itf/2006/pdf/itf20060705.pdf

春から仕事をする会社よりも,なぜか愛着が強い会社のレポートです.
思ってるような分野に関するレビュー記事みたいになってて
とっても助かります.さすが!

紹介されてるサービスを順に.
google finance
結構すごいねこれ.
日本語版が無いのが残念だなぁ,あと日本市場が無い.
分析ツールってわけじゃないけど,
表現方法としては相当ありだと思います.
株価変動に直接ニュースを反映させてるって点がとても.
APIでこれ使えたりしないのかなぁ.
まぁ,日本市場のが無いと結局いらないけど…
あとニュースソースとして株式新聞みたいなのを取ってくれないと
一般ニュースに出るような企業ニュースばかりだと
あんまし役に立たないような気はする.

もう一つ紹介されてるBenjiって言うのが
まさに思ってるようなシステムなんだけどリンク切れ.なんでだろ.
実用化されてるってことは,
ちゃんと役立つ情報が取れるシステムは作れるってことなのかなぁ.

それからアルゴリズムトレードって言葉が出て来てます.
簡単に言うと,コンピュータで株価の動きとか他の情報を集めて
利用して,売買の受発注を自動化しちゃいましょう的な仕組みのこと.
俺が最終的に求めてるのもその1つってことになります.

「アルゴリズムの優劣を決める要素のひとつに、
マーケットからの情報をいかに遅延なく取得し、
売買決定に生かせるかという点がある。」
どうやら着眼点は間違ってなさそう.

・テキストマイニング~文脈や語感のニュアンスの定量化
http://www.iser.osaka-u.ac.jp/rcbe/4thworkshop/Presentation/textminning.kurita.pdf

やってることは何かって言うと,
会社四季報(多分オンライン版)の各会社に対する説明文を
テキストマイニングして,株価変動を予想してみましょうっていうの.
短いノートだから情報量も少ないけど,
会社四季報の文章でさえ,影響がそれなりにありそうだって言うのは
何となく分かりました.

使ってる分類素性は10個にも満たないキーワードペアらしいです.
多分こんなに少なくて大丈夫なのは,
一般のニュースより更に使われる表現が限定的で,
言葉自体も数少ないからなんだろうなって思う.
この数で分類が可能だとすると,
ニュースに出て来てる多数の語を,この8語に落とし込む
って言うのも一つのアプローチとしてありなのかも.
キーワードペアは以下のとおり.
・増益(減益)
・大幅増益(大幅減益)
・増収増益(減収減益)
・強含み(弱含み)
・増額(減額)
・上方修正(下方修正)
・回復(低迷)
・改善(悪化)

この例でも悪いキーワードの方が影響力が強そうだ,
って出ています.
うーん,日本人は悪いことに敏感に反応して売るんだろうか.
リスクを回避しようとするけどうまい話にはなかなか乗らない,
と言う手がたい人間が多いってことか.

・ヘッドラインニュースに対する株価の反応について
http://www.iser.osaka-u.ac.jp/rcbe/6thworkshop/presentationHP.pdf/SatoruTakahashi070210.pdf

かなり思ってたことに近くて,ほぼ一致してる感じです.
偉い先生が書いてはるし,内容もかなり信用できそう.
ちなみに連名の最後の先生の名前どっかで見たなーと思ったら
情報検索アルゴリズムの本の著者でした.

簡単に言うと,(多分)ヘッドラインニュースを
形態素解析(文章を品詞の並びに分解すること)して,
名詞だけのベクトルを作ってナイーブベイズで分類してるんだと思う.
結果,80%程度の分類が出来て,
(良いニュースは90%,悪い&中立ニュースは70%弱で分類可)
そのニュースごとの,ニュースが出た時点前後の
株価に与える影響には有意な差がありました,と言う感じ.
具体的な分類に使われてる素性については
何も書かれてないから言及出来ないんだけど,
でも結果は面白いと思うし,検定もされてるし信用したい.
聞いたら教えてくれるのかな.

気になったのは,悪いニュースの分類結果が悪いこと.
まぁ,70%でしか分類出来ないんなら
悪いニュースに関しては利用しないって手もあるんだけど.
売りから入れた方がチャンスは倍なのになぁ,とは思うので.
単純に悪いニュースデータの量の少なさが原因なんだろうか.

あと日単位しかやってないやってないって言うのが惜しい.
理想的にはニュースが発生した時点で判定機にかけて,
買いか売りか待ちを判断出来るようなシステムが出来れば嬉しい.
そのためには日単位の分析だけじゃなくて,
それこそ分単位の値動きを取って反応をどれだけ追えるか
見てみたいなって思います.
取引時間中に決算が出るパターンとか,見たら面白いだろうなぁ.

さっきも書いたけどニュースの重複問題ってのがあります.
このレポートでも改善案が書かれてるけど,
実際どこまで取り除けるんだろうか.
同じニュースが繰り返し更新されて重複したりすると
そのニュースに関して大きなバイアスがかかっちゃうもんね.
改善案適用後のデータを見ると,適用後は適用前に比べて
変動幅が小さくなってるのがわかります.
あと良いニュースよりも悪いニュースの方が幅が広い(儲けがでかい)
ただ,分類器の精度が悪いからこのまま使うのはちょっと怖い.
一度自分の目で見ないことにはなんともなぁ.

最後に,ニュースの発表前から,ニュースの良し悪しによって
既に株価が動いてるんですよね.
つまり,良いニュースが出る前から株価は上がってきてるし
(出た後も株価は継続して上がる)
悪いニュースが出る前から株価は下がってきてます.
(出た後も株価は継続して下がる)
逆に値動きから,ニュースの発表予想をするってのも面白そう.
発表時点が一番大きく動く瞬間なことには変わりないから,
「ニュースが出ることを予想」
出来ればそのポイントで一気に稼げそうな気がするなぁ.
むむむ.面白い.

今後の課題として書かれてたもの.どれも面白そうです.
・ニュース分類方法の高度化
→SVMとか使うだけでよくなったりして.でも時間かかるよな…
・ニュース分類と株価リターンによる詳細な分析
→分類に使われた言葉とかをもっと見ると,変動幅の予測まで出来そう
→大ちゃんとの話にも出て来たように,2つのSVMを組み合わせる
って形までいけるのが理想的なのかなぁ.
・業種等の属性を利用した詳細な分析
・アナリストレポートのテキスト情報と組み合わせた分析
・会計情報等の数値データを組み合わせた分析
・イントラディの株価を利用し,日中のニュース効果を分析

いくらかサーベイしたのでそれを報告しときます.
興味あったら読んでみてね.

・ニュースが株価に与える影響分析
http://www.spss.co.jp/ronbun/2004-pd/2004-05.pdf
大ちゃん曰く「内容薄い」らしいんだけど(笑)
少しは見るところあるかと思います.
論文じゃなくて学校のゼミ用資料みたいで
目的も「IRのために分析を利用する」だから若干違うかもなんですが,
やってることはライブドア関連のニュースに出て来るキーワードを
クラスタリングして,クラスタごとに株価に与える影響が
どんな感じかを調べています.
結果,クラスタごとにボラティリティ(株価の動きの激しさ)が
違いましたね,と言うお話.

一番問題なのはライブドアにスペシフィックなことを分析したところで
一般的な株価の影響云々,って言い方は出来ないだろってとこだと思う.
ライブドアの事件はインパクトが大き過ぎたし,
あまりに特殊性があり過ぎると思うので.

二番目に問題なのは,ニュースソースの絶対量かな.
1クラスタごとに2,30個ってどうなんだろうか.
そもそもクラスタ分析するのに必要なデータ量が他の会社だと
集まらない気がする.
いいのかな?こういう分析をやったことないからよくわかんない.
でも中で「有意っぽい結果じゃない」的なことが書いてあるから
結局量が足りてないし,そもそもクラスタごとに
ボラティリティが違うってほんとに言えるのかどうかは怪しげ.

ただ一番面白いと思ったのは
「同じ内容の情報が流れ続けるとボラティリティが下がる」
って書いてるとこ.納得出来るし,ここは信用出来そうな.
大量のニュースを処理するとなればニュースの重複は
困った問題になりそうだけど,
その解決方法の1つとして,逆にボラティリティの低さから
ニュースの重複を予想することが出来れば,
その問題の解決の糸口になるのかなとか思いました.
もしかしたら使うことになる考え方かもしれないな.

[株にゅ]でやりたいことを最初に確認しておきます.

目的
「ニュースを分析して株価との相関を調べることで,
株価の変動予想に有効なニュースパターンを発見し,
実際の株式取引に適用して自動的に利益を出すシステムを作ること」

儲かるかどうかは知らないけど,
作れば何か面白いものは出来そうな気がします.
目標として,3月中に過去のニュースと株価変動データを使って
実証実験をやってしまいたい.


前も書いたけど,ポイントは
「ニュースデータを実際の取引に生かせるのかどうか」
だと思います.一番の問題はスピードです.
サーベイのところにも書きますが,
ニュースが出る前に既にニュース内容に沿った動きをするらしい
という事がわかってるっぽいのです.
まぁ,ニュースが出た時点でわずかな量でもいいから
「ほぼ間違いなく株価はこう動く」
パターンを取り出せれば,変動が少なくても儲かることは儲かるはず.
と思うんだけどなぁ.
やってみないことには何とも言えないのでまずは
動くものを作るところまで.

[株にゅ] 株にゅ

| コメント(200) | トラックバック(0)

前に書いたメモ,これ.
思いのほかいいリアクションがもらえたことだし,
本格的に考えてみようと思いますた.
大ちゃんやロリとこないだ相談したことも含め,
ちょっとタグとしてまとめておこうと思います.

今後「株価とニュースの関係」関連の記事は
「株にゅ」タグが付きます.
「株ニュ」より「株にゅ」の方がなんかかわいいよね.

ウェブページ

Powered by Movable Type 5.02

このアーカイブについて

このページには、過去に書かれたブログ記事のうち株にゅカテゴリに属しているものが含まれています。

次のカテゴリは株の話です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。