wiki:tutogangaanalysis

Version 6 (modified by /O=GRID-FR/C=FR/O=CNRS/OU=LPSC/CN=Fabian Lambert, 16 years ago) ( diff )

--

Soumission d'un job d'analyse athena/DQ2 avec GANGA

Ce tutoriel décrit comment executer un job d'analyse en utilisant:

  • GANGA
  • Le software d'ATLAS athena
  • Un package d'analyse à compiler (Merci à Annick Lleres).
  • Des fichiers de dataset obtenus avec DQ2.

Pour lancer un job, vous avez besoin d'un fichier

  • L'archive du package package.tar.gz contenant le package d'analyse à compiler.

Le package fourni exécute produit des DPD à partir d'AOD.

  • gangaScript qui est le fichier qui contient la séries d'instructions à executer sous GANGA pour lancer le job. (à adapter selon votre cas)

Prérequis

  • Installez et configurez GANGA.
  • Préparer votre environnement comme pour un job à lancer en local (cmthome, testarea...)
  • Décompressez le package fourni sous testarea puis initialiser le (après l'avoir éventuellement compilé)

sh-3.00$ cp package.tar.gz testarea/14.2.20/package.tar.gz
sh-3.00$ cd testarea/14.2.20/
sh-3.00$ tar -xvzf package.tar.gz
...
sh-3.00$ ls
TopAnalysis  TopAnalysis.tgz
sh-3.00$ cd testarea/14.2.20/TopAnalysis/cmt/
sh-3.00$ cmt config
sh-3.00$ source setup.sh
sh-3.00$ gmake

Lancer Ganga

Pour les utilisations suivantes de GANGA avec ce package vous pouvez commencer directement d'ici.

Initialisation de l'environnement CMT

sh-3.00$ source /swareas/atls/prod/releases/rel_14-4/CMT/v1r20p20080222/mgr/setup.sh

Le fichier joboptions

sh-3.00$ cd testarea/14.2.20/TopAnalysis/run/ 
sh-3.00$ ls
PoolFileCatalog.xml  PoolFileCatalog.xml.BAK  RunTopAnalysisDPD.py  TopAnalysisDPD2.py  TopAnalysisDPD.py

Placez vous dans le répertoire run. Vous devez y trouver le fichier joboptions TopAnalysisDPD2.py.
Ce fichier est à peu de chose près la concaténation des fichiers de joboptions que vous trouverez sous le répertoire share.
Le fichier à été crée à partir de RunTopAnalysisDPD.py et TopAnalysisDPD.py car GANGA n'accepte pas les "import" (sauf erreur de ma part)
Deux lignes sont importantes dans ce fichier pour GANGA:

InputCollections = [ "AOD.pool.root" ]
OutputFileName = "TopAnalysisDPD.root"

Lors de la soumission du job, GANGA va analyser le fichier de joboptions et initialiser:
InputCollections avec les bonnes valeurs (la liste des fichiers d'un dataset à analyser) OutputFileName en ajoutant une numérotation automatique à TopAnalysisDPD.root si plusieurs fichiers sont produits.

Initialisation de l'environnement d'exécution dans GANGA

sh-3.00$ ganga
Enter GRID pass phrase:
Your identity: /O=GRID-FR/C=FR/O=CNRS/OU=LPSC/CN=Fabian Lambert
Creating temporary proxy ....................................... Done
Contacting  lcg-voms.cern.ch:15001 [/DC=ch/DC=cern/OU=computers/CN=lcg-voms.cern.ch] "atlas" Done
Creating proxy ................................................ Done
Your proxy is valid until Tue Oct 28 14:29:49 2008

*** Welcome to Ganga ***
Version: Ganga-5-0-10
Documentation and support: http://cern.ch/ganga
Type help() or help('index') for online help.

This is free software (GPL), and you are welcome to redistribute it
under certain conditions; type license() for details.


ATLAS Distributed Analysis Support is provided by the "Distributed Analysis Help" HyperNews forum. You can find the forum at 
    https://hypernews.cern.ch/HyperNews/Atlas/get/distAnalysisHelp.html
or you can send an email to hn-atlas-dist-analysis-help@cern.ch

GangaAtlas                         : INFO     Tasks read from file
Ganga.GPIDev.Lib.JobRegistry       : INFO     Found 1 jobs in "jobs", completed in 0 seconds
Ganga.GPIDev.Lib.JobRegistry       : INFO     Found 0 jobs in "templates", completed in 0 seconds


In [1]:cmtsetup 14.2.20,setup,32
GangaAtlas                         : INFO     CMTCONFIG = i686-slc4-gcc34-opt
GangaAtlas                         : INFO     CMTPATH = /atlas/lambert/testarea
GangaAtlas                         : INFO     CMTPATH = /swareas/atls/prod/releases/rel_14-4/AtlasOffline/14.2.20

In [2]:setup
GangaAtlas                         : INFO     Package TopAnalysis has been configured.

Lancer le job

Pour lancer votre job vous pouvez choisir de taper une a une les instructions que vous avez dans gangascript, ou faire un copier/coller de ces instructions afin que GANGA les lancent en une fois. Pensez à adapter ce fichier à votre cas.

In [3]:j = Job()
In [4]:j.application=Athena()
In [5]:j.application.prepare(athena_compile=True) 
In [6]:j.application.option_file="$HOME/testarea/14.2.20/TopAnalysis/run/TopAnalysisDPD2.py"
In [7]:j.application.max_events=100
In [8]:j.inputdata=DQ2Dataset()
In [9]:j.inputdata.dataset="fdr08_run2.0052280.physics_Egamma.merge.AOD.o3_f8_m10"
In [10]:j.outputdata=DQ2OutputDataset()
In [11]:j.outputdata.outputdata=['TopAnalysisDPD.root']
In [12]:j.splitter=DQ2JobSplitter()
In [13]:j.splitter.numsubjobs=6
In [14]:j.splitter.numfiles=1
In [15]:j.merger=AthenaOutputMerger()
In [16]:j.backend=LCG()
In [17]:j.backend.requirements=AtlasLCGRequirements()
In [18]:j.backend.requirements.sites=['IN2P3-LPSC_DATADISK']
In [19]:j.submit()

Cette suite d'instructions mérite quelques explications :

  • Ligne 3 : Définition d'un objet job
  • Ligne 4 : Nous allons utiliser athena
  • Ligne 5 : Le package sera compilé sur le WN
  • Ligne 6 : Emplacement du fichier joboptions
  • Ligne 7 : On limite le nombre d'event a 100 par jobs pour ce test
  • Ligne 8 : Les données en entrées sont un dataset gérer par DQ2
  • Ligne 9 : Le LDN de ce dataset est défini ici
  • Ligne 10 : Les données en sortie seront placées dans un dataset
  • Ligne 11 : Base du nom des fichiers dans le dataset de sortie (voir plus haut)
  • Ligne 12 : Création du gestionnaire qui va gérer le "splittage" du job en subjobs en fonction des fichiers présent dans le dataset en entrée.
  • Ligne 13 : Nombre de subjobs
  • Ligne 14 : Nombre de fichiers par subjobs
  • Ligne 15 : ... Sans objet ici
  • Ligne 16 : backend utilisé
  • Ligne 17 : Création de l'objet gestionnaire des requirements sur le backend. (Cela va permettre à GANGA de trouver l'endroit le plus approprié pour exécuter le job)
  • Ligne 18 : Les données doivent être prises sur ce site
  • Ligne 19 : Lancement du job

up

Attachments (4)

Download all attachments as: .zip

Note: See TracWiki for help on using the wiki.