但是实际上还是MAC比较适合python , MAC本身内置Python 2.7 不说,而且能用多线程,相信对于多线程高手是一个福音,windows整体来说并不是特别好用。鉴于中国国情,github上一度出现过针对windows的autotrading 库,但是后面不知为何又消失了。。。
就目前而言,python的定位更多是万能胶,也即我可以在应用层面不学其他语言,直接通过一些包做非常多的事情,爬虫系、科学计算系、前端系列(前端和js并列五大html5包)等等,黏合方面我用过的一些库包括SAS转csv,1G的csv大概几分钟吧,还是相当快的,而且准确度相当高,matlab别提了,更容易,pandas专门出了一个function,sql也有,然后比较火的是sqlalchemy, pymysql,等等,excel方面的比较有名的是xlrd,这样,基本就把大家平时用的办公软件都集成到一起了。这也符合python 禅,安装完后输入import this即可获得!
人不多,所以就简单提一下思路。 两类,一,部署IB,直接调用API,二,自己爬。 第一类和第二类,都要有一个List去loop,这个list,最好是直接去CBOE找对应的每日更新。拿到list之后遍历第一类的时候调整细节,就好了。求稳的话,应该是直接在用SEC的cik对应,保证不出问题。 第二类,免费数据CBOE本身和Nasdaq都不同,选择一类往下爬就好了,我目前用nasdaq的就行。爬虫本身不难。关键在于踩过的数据结构坑,这里讲完应该省后人不少时间。 第三类,土豪,直接用bloomberg API 遍历,解决一切烦恼。当然首先你要有一台彭博机。对于我来说,我并不对彭博机特别感冒,更喜欢做一些定制化的东西,是以选择第二类。 以上
如果是涉及到数据量大小的话,我觉得是这样,python本身和mysql这边的库底层有一些微妙的东西,如果你的爬虫爬的质量不过关,比如出错要弹出N/A甚至是爬错地方的话,你传数据到mysql的时候一定会出错。
主要自己不是科班出身,对代码的把握还不是那么熟练,还是结果导向。就目前来说,基本爬虫修得比较稳定了。我所谓的数据坑,主要是你爬下来的数据要经历一些检验的过程,不然爬下来的数据可能本身是出问题的,所以我认为对于非屌丝来说,买数据直接来做研究是最合算的。