Configuration des services de conversion

La pérennisation des contenus d'information conservés dans le système d'archivage pour toute la durée du cycle de vie peut nécessiter des conversion des documents, pour aller de formats devenus non pérennes vers de nouveaux formats pérennes.

L'opérateur du système d'archivage définit les outils implantés dans le système et qui peuvent être utilisés pour réaliser les conversions de formats dans le cadre de la planification de la préservation grâce à des directives de configuration de la dépendance de gestion des fichiers "fileSystem". Les directives sont placées dans la section correspondante de la configuration :

[dependency.fileSystem]
... Directives de configuration de la dépendance ...

La directive "conversionService" est une structure complexe qui décrit les services disponibles pour la conversion :

conversionServices = "[
  {
    'serviceName'         : 'dependency/fileSystem/plugins/libreOffice',
    'softwareName'        : 'LibreOffice',
    'softwareVersion'   : '5.4.2.0',
    'inputFormats'        : ['fmt/412', 'fmt/291', 'fmt/293'],
    'outputFormats'     : {
      'fmt/95' : {
        'extension' : 'pdf',
        'filter' : 'writer_pdf_Export',
        'options': 'SelectPdfVersion=1'
      },
      'fmt/18' : {
        'extension' : 'pdf'
      }
    }
  }
]"

Chaque service déclaré possède les propriétés suivantes :

  • serviceName : Nom du service de conversion, qui sera exécuté par l'application. Il s'agit de toute URI de service disponible pour l'application, dans les dépendances ou les paquets métier.
  • softwareName : Nom du logiciel de conversion, qui sera utilisé dans les traces du journal du cycle de vie de l'archive.
  • softwareVersion : Version du logiciel de conversion, qui sera utilisé dans les traces du journal du cycle de vie de l'archive.
  • inputFormats : Tableau des identifiants de format du référentiel PRONOM (PUID) acceptés en entrée par le logiciel de conversion.
  • outputFormats : Liste des descriptions de format en sortie.

Pour chaque format, on fournit en clé l'identifiant de format du référentiel PRONOM (PUID) et en valeur les propriétés suivantes :

  • extension : l'extension de fichier attendue,
  • filter : le filtre de conversion à transmettre au logiciel, qui dfinit le format de sortie
  • options : les options de conversion à transmettre au logiciel

Service de conversion LibreOffice

Ce service permet de convertir des documents numériques depuis des formats bureautiques en utilisant le logiciel LibreOffice.

Installation

Le logiciel doit être installé sur le serveur applicatif. Il est disponible sur le site officiel de l'éditeur https://fr.libreoffice.org/download/telecharger-libreoffice/. Le chemin vers l'exécutable, s'il n'est pas ajouté à la variable d'environnement PATH du système, est configurable dans Maarch RM à l'aide de la directive libreOfficeExecutable de la section [dependency.fileSystem] :

[dependency.fileSystem]
; Path to libreOffice executable
; libreOfficeExecutable = "C:\Program Files\LibreOffice\program\soffice"
libreOfficeExecutable = "/usr/bin/libreoffice"

Configuration

Les paramètres de configuration sont décrits ci-après :

serviceName
dependency/fileSystem/plugins/libreOffice

inputFormats
La liste des formats ouverts par Libreoffice couvre tous les formats OpenDocument ainsi que les formats Microsoft Office 97-2003 et OpenOfficeXML :

  • fmt/290 : OpenDocument Text 1.1 (odt)
  • fmt/290 : OpenDocument Text 1.2 (odt)
  • fmt/292 : OpenDocument Spreadsheet 1.1 (ods)
  • fmt/293 : OpenDocument Spreadsheet 1.2 (ods)
  • fmt/294 : OpenDocument Presentation 1.1 (odp)
  • fmt/295 : OpenDocument Presentation 1.2 (odp)
  • fmt/296 : OpenDocument Graphics 1.1 (odg)
  • fmt/297 : OpenDocument Graphics 1.2 (odg)
  • fmt/40 : Microsoft Word Document 97-2003 (doc)
  • fmt/412 : Microsoft Word for Windows 2007 onwards (docx)
  • fmt/61 : Microsoft Excel 97 (xls)
  • fmt/62 : Microsoft Excel 2000-2003 (xls)
  • fmt/214 : Microsoft Excel for Windows 2007 onwards (xlsx)
  • fmt/126 : Microsoft Powerpoint 97-2003 (ppt)
  • fmt/215 : Microsoft Powerpoint for Windows 2007 onwards (pptx)

outputFormats
Les formats en sortie peuvent être tout format bureautique ouvert ou les formats PDF :

  • fmt/95: PDF-a1 nécessite une configuration locale du logiciel LibreOffice (voir ci-après)
  • fmt/18: PDF 1.4

Pour chaque format en sortie, le logiciel attend un paramètre extension qui fournit l'identificcation du format demandé : pdf, odt, etc.

Certains formats en sortie acceptent d'autres paramètres. Par exemple, la production d'un PDF-a nécessite les paramètres filter et options comme le montre l'exemple suivant :

'serviceName'         : 'dependency/fileSystem/plugins/libreOffice',
'softwareName'        : 'LibreOffice',
'softwareVersion'   : '5.4.2.0',
'inputFormats'        : ['fmt/412', 'fmt/291', 'fmt/293'],
'outputFormats'     : {
  'fmt/95' : {
    'extension' : 'pdf',
    'filter' : 'writer_pdf_Export',
    'options': 'SelectPdfVersion=1'
  },
  'fmt/18' : {
    'extension' : 'pdf'
  }
}

Pour produire du PDF-a, le serveur applicatif Maarch (processus Apache) doit être exécuté avec un utilisateur qui possède un environnement de configuration de Libreoffice.

La conversion en PDF/a nécessite la configuration du module d'export PDF de libreOffice pour ajouter une option de sélection de version. Sur un OS linux, ouvrir le fichier .libreoffice//user/registrymodifications.xcu. Sur un OS Windows, ouvrir le fichier C:\Users<nom utilisateur>\AppData\Roaming\LibreOffice<version>\user\registrymodifications.xcu. Ajouter ou modifier la structure suivante :

<item oor:path="/org.openoffice.Office.Common/Filter/PDF/Export">
  <prop oor:name="SelectPdfVersion" oor:op="fuse">
    <value>1</value>
  </prop>
</item>

Service de conversion GhostScript

Ce service permet de convertir des documents numériques depuis des formats PDF en utilisant le logiciel GhostScript.

Installation

Le logiciel doit être installé sur le serveur applicatif. Il est disponible sur le site officiel de l'éditeur https://ghostscript.com/releases/gsdnld.html. Le chemin vers l'exécutable, s'il n'est pas ajouté à la variable d'environnement PATH du système, est configurable dans Maarch RM à l'aide de la directive ghostScriptExecutable de la section [dependency.fileSystem] :

[dependency.fileSystem]
; Path to ghostScript executable
; ghostScriptExecutable = "C:\Program Files\gs\gs9.52\bin\gswin64.exe"
ghostScriptExecutable = "/usr/bin/gs/gs9.52/gs.so"

Configuration

Les paramètres de configuration sont décrits ci-après :

serviceName
dependency/fileSystem/plugins/GhostScript

inputFormats
GhostScript peut ouvrir les formats PostScript et PDF : fmt/14, fmt/15, etc...

outputFormats
Le format le plus utilie en sortie est le PDF-a1.

Exemple de configuration pour convertir tout format de PDF 1.0 à 1.7 et 2.0 vers du PDF-a:

'serviceName'     : 'dependency/fileSystem/plugins/GhostScript',
'softwareName'    : 'Ghostscript',
'softwareVersion' : '10.0',
'inputFormats'    : ['fmt/14', 'fmt/15', 'fmt/16', 'fmt/17', 'fmt/18', 'fmt/19', 'fmt/20', 'fmt/276', 'fmt/1129'],
'outputFormats'   : {
    'fmt/95' : {}
}

results matching ""

    No results matching ""