Justification pour accéder à un calculateur Microsoft(R) Windows(R) HPC(R)
** Problématique
Les séquençeurs d'ADN actuels (comme le Illumina(R) HiSeq(R) 2500) produit plus de 6 000 000 000 séquences d'ADN numériques de longueur entre 100 et 200 lettres (A, T, C, G) en une seule analyse. Un des types d'analyse possible est "l'assemblage de novo de génomes."
** Système logiciel
Mon logiciel s'appelle Ray et est codé en C++ 1998 (Microsoft(R) Visual Studio(R) 2010 supporte complètement ce standard). Une librairie MPI de passage de message est aussi requise. MPICH2 et Open-MPI sont les deux disponibles en distribution binaire sous Microsoft(R) Windows(R).
Ray est un logiciel libre (licence GPLv3) et utilise la librairie parallèle RayPlatform (licence: LGPLv3).
- http://www.ohloh.net/p/ray-assembler
- http://www.ohloh.net/p/rayplatform
- http://denovoassembler.sourceforge.net/
Ray fait de l'assemblage de novo de génomes ou de métagénomes dans l'industrie des sciences de la vie (génomique). Ray "scale" très bien pour les problèmes de "Big Data".
** Plateformes testés (liste incomplète)
- Windows 7 sur Intel(R) Q6600 (Visual Studio 2010, MPICH2)
- Amazon EC2 (MIT StarCluster)
- CentOS sur IBM(R) iDataPlex(R) (Intel Xeon)
- CentOS sur Sun(R) Constellation (Intel Xeon)
- IBM Blue Gene/Q (IBM PowerPC A2)
- Cray Linux sur Cray XE6 (AMD Opteron)
- Ubuntu sur Apple PowerBook G4 (PowerPC G4)
- Debian sur Sparc (Sun SunBlade 100)
- Fedora sur HP ProLient (AMD Opteron)
- Funtoo sur ARMv6j (Raspberry Pi)
** Buts
1. Avoir un distributeur de Ray dans le monde de Microsoft(R) Windows(R)
2. Tester la portabilité du code sur Windows(R)
3. Tester Microsoft(R) MPI
4. Tester la performance sur un système HPC Microsoft(R) / Fujitsu(R) / DMR(R)
** Jeux de donnée
Nom: SRA001125
Description: E. coli / ILLUMINA / 2008-07-01
Adresse: http://trace.ddbj.nig.ac.jp/DRASearch/submission?acc=SRA001125
Nom: SRS011098
Description: Human metagenome sample from G_DNA_Supragingival plaque of a female
participant in the dbGaP study "HMP Core Microbiome Sampling Protocol A (HMP-A)"
Adresse: http://trace.ddbj.nig.ac.jp/DRASearch/sample?acc=SRS011098
** Distributeurs
Courant:
- Geeknet, Inc. (sourceforge)
- GitHub, Inc..
- Calcul Canada, Inc. (Calcul Québec)
Prochainement:
- Software in the Public Interest, Inc. (Debian)
- Canonical, Inc. (Ubuntu)
- Amazon, Inc. (une image AMI de CloudBioLinux)
En cours:
- Cray, Inc
- Red Hat, Inc. (via Fedora(TM))
Les séquençeurs d'ADN actuels (comme le Illumina(R) HiSeq(R) 2500) produit plus de 6 000 000 000 séquences d'ADN numériques de longueur entre 100 et 200 lettres (A, T, C, G) en une seule analyse. Un des types d'analyse possible est "l'assemblage de novo de génomes."
** Système logiciel
Mon logiciel s'appelle Ray et est codé en C++ 1998 (Microsoft(R) Visual Studio(R) 2010 supporte complètement ce standard). Une librairie MPI de passage de message est aussi requise. MPICH2 et Open-MPI sont les deux disponibles en distribution binaire sous Microsoft(R) Windows(R).
Ray est un logiciel libre (licence GPLv3) et utilise la librairie parallèle RayPlatform (licence: LGPLv3).
- http://www.ohloh.net/p/ray-assembler
- http://www.ohloh.net/p/rayplatform
- http://denovoassembler.sourceforge.net/
Ray fait de l'assemblage de novo de génomes ou de métagénomes dans l'industrie des sciences de la vie (génomique). Ray "scale" très bien pour les problèmes de "Big Data".
** Plateformes testés (liste incomplète)
- Windows 7 sur Intel(R) Q6600 (Visual Studio 2010, MPICH2)
- Amazon EC2 (MIT StarCluster)
- CentOS sur IBM(R) iDataPlex(R) (Intel Xeon)
- CentOS sur Sun(R) Constellation (Intel Xeon)
- IBM Blue Gene/Q (IBM PowerPC A2)
- Cray Linux sur Cray XE6 (AMD Opteron)
- Ubuntu sur Apple PowerBook G4 (PowerPC G4)
- Debian sur Sparc (Sun SunBlade 100)
- Fedora sur HP ProLient (AMD Opteron)
- Funtoo sur ARMv6j (Raspberry Pi)
** Buts
1. Avoir un distributeur de Ray dans le monde de Microsoft(R) Windows(R)
2. Tester la portabilité du code sur Windows(R)
3. Tester Microsoft(R) MPI
4. Tester la performance sur un système HPC Microsoft(R) / Fujitsu(R) / DMR(R)
** Jeux de donnée
Nom: SRA001125
Description: E. coli / ILLUMINA / 2008-07-01
Adresse: http://trace.ddbj.nig.ac.jp/DRASearch/submission?acc=SRA001125
Nom: SRS011098
Description: Human metagenome sample from G_DNA_Supragingival plaque of a female
participant in the dbGaP study "HMP Core Microbiome Sampling Protocol A (HMP-A)"
Adresse: http://trace.ddbj.nig.ac.jp/DRASearch/sample?acc=SRS011098
** Distributeurs
Courant:
- Geeknet, Inc. (sourceforge)
- GitHub, Inc..
- Calcul Canada, Inc. (Calcul Québec)
Prochainement:
- Software in the Public Interest, Inc. (Debian)
- Canonical, Inc. (Ubuntu)
- Amazon, Inc. (une image AMI de CloudBioLinux)
En cours:
- Cray, Inc
- Red Hat, Inc. (via Fedora(TM))
Comments