データサイエンティスト必見!M-1グランプリ

50
M-1 グググググ 漫漫 漫漫漫漫漫漫漫漫漫!? 漫漫漫漫漫漫漫漫漫漫漫漫漫 2014/8/30 漫 42 漫 R 漫漫漫 @ 漫漫 (#TokyoR)

description

データサイエンティスト必見! M-1グランプリ 前処理の頂点は誰だ!? 出場者はRのdplyr、PostgreSQL、NYSOLのMコマンドなど。

Transcript of データサイエンティスト必見!M-1グランプリ

  • 1. 2014/8/3042R@(#TokyoR)

2. 3. 1: R (R_base) 4. 2: R (R_)dplyrdata.table %>% fread() 5. 3: PostgreSQLSQL 6. 4: NYSOLM%>%UNIXpipe 7. 8. 9. CSVCSVCSVCSV 10. 11. 1: selColA B C DB,CB C 12. 2: selRowA B C DA B C DB= 13. 3: aggregatingA B C D8 25 13 1(E=B-C)A B C D E8 2 65 1 43 1 2 14. 4: sortingA B C D2111B,CA B C D1211 15. 5: mixA B C D211114B C E1 22 6 16. CSV 17. 1http://stat-computing.org/dataexpo/2009/ 18. CSV61 100 KB2 1 MB3 10 MB4 100 MB5 1GB6 10GB29 19. OS: OSX Version 10.9.4 (MacBook Pro)CPU: 2.4 GHz Intel Core i7 (4 Cores)Memory: 16GB 1600MHz DDR3Storage: SSDSoftware:R version 3.0.3PostgreSQL version 9.3.4NYSOL version 1.1 20. 21. R R PostgreSQLNYSOL 22. R R PostgreSQLNYSOL%45%5%50% 23. 1 100 KB2 1 MB3 10 MB4 100 MB5 1GB6 10GB 24. 0.5R_base R_pkg PostgreSQL NYSOL 25. 0.5R_base R_pkg PostgreSQL NYSOL 26. 0.5R_base R_pkg PostgreSQL NYSOL 27. 1 100 KB2 1 MB3 10 MB4 100 MB5 1GB6 10GB 28. 1R_base R_pkg PostgreSQL NYSOL 29. 1 100 KB2 1 MB3 10 MB4 100 MB5 1GB6 10GB 30. 51R_base R_pkg PostgreSQL NYSOL 31. 1 100 KB2 1 MB3 10 MB4 100 MB5 1GB6 10GB 32. 455R_base R_pkg PostgreSQL NYSOL 33. 1 100 KB2 1 MB3 10 MB4 100 MB5 1GB6 10GB 34. 51R_base R_pkg PostgreSQL NYSOL 35. 1 100 KB2 1 MB3 10 MB4 100 MB5 1GB6 10GB 36. R_base R_pkg PostgreSQL NYSOL13010R 37. 38. R_ 39. NYSOL3065PostgreSQLNYSOLR_baseR_pkg10MBR_pkg1GB(Mix)10MBR_baseRmagrittr?pipeR? 40. M-1M-12015M-1 41. 42. B,CR_basedata