La pérennisation des contenus d'information conservés dans le système d'archivage pour toute la durée du cycle de vie peut nécessiter des conversion des documents, pour aller de formats devenus non pérennes vers de nouveaux formats pérennes.
L'opérateur du système d'archivage définit les outils implantés dans le système et qui peuvent être utilisés pour réaliser les conversions de formats dans le cadre de la planification de la préservation grâce à des directives de configuration de la dépendance de gestion des fichiers "fileSystem". Les directives sont placées dans la section correspondante de la configuration :
[dependency.fileSystem]
... Directives de configuration de la dépendance ...
La directive "conversionService" est une structure complexe qui décrit les services disponibles pour la conversion :
conversionServices = "[
{
'serviceName' : 'dependency/fileSystem/plugins/libreOffice',
'softwareName' : 'LibreOffice',
'softwareVersion' : '5.4.2.0',
'inputFormats' : ['fmt/412', 'fmt/291', 'fmt/293'],
'outputFormats' : {
'fmt/95' : {
'extension' : 'pdf',
'filter' : 'writer_pdf_Export',
'options': 'SelectPdfVersion=1'
},
'fmt/18' : {
'extension' : 'pdf'
}
}
}
]"
Chaque service déclaré possède les propriétés suivantes :
Pour chaque format, on fournit en clé l'identifiant de format du référentiel PRONOM (PUID) et en valeur les propriétés suivantes :
Ce service permet de convertir des documents numériques depuis des formats bureautiques en utilisant le logiciel LibreOffice.
Le logiciel doit être installé sur le serveur applicatif.
Il est disponible sur le site officiel de l'éditeur https://fr.libreoffice.org/download/telecharger-libreoffice/.
Le chemin vers l'exécutable, s'il n'est pas ajouté à la variable d'environnement PATH
du système, est configurable dans Maarch RM
à l'aide de la directive libreOfficeExecutable
de la section [dependency.fileSystem]
:
[dependency.fileSystem]
; Path to libreOffice executable
; libreOfficeExecutable = "C:\Program Files\LibreOffice\program\soffice"
libreOfficeExecutable = "/usr/bin/libreoffice"
Les paramètres de configuration sont décrits ci-après :
serviceNamedependency/fileSystem/plugins/libreOffice
inputFormats
La liste des formats ouverts par Libreoffice couvre tous les formats OpenDocument ainsi que les formats Microsoft Office 97-2003 et OpenOfficeXML :
fmt/290
: OpenDocument Text 1.1 (odt)fmt/290
: OpenDocument Text 1.2 (odt)fmt/292
: OpenDocument Spreadsheet 1.1 (ods)fmt/293
: OpenDocument Spreadsheet 1.2 (ods)fmt/294
: OpenDocument Presentation 1.1 (odp)fmt/295
: OpenDocument Presentation 1.2 (odp)fmt/296
: OpenDocument Graphics 1.1 (odg)fmt/297
: OpenDocument Graphics 1.2 (odg)fmt/40
: Microsoft Word Document 97-2003 (doc)fmt/412
: Microsoft Word for Windows 2007 onwards (docx)fmt/61
: Microsoft Excel 97 (xls)fmt/62
: Microsoft Excel 2000-2003 (xls)fmt/214
: Microsoft Excel for Windows 2007 onwards (xlsx)fmt/126
: Microsoft Powerpoint 97-2003 (ppt)fmt/215
: Microsoft Powerpoint for Windows 2007 onwards (pptx)outputFormats
Les formats en sortie peuvent être tout format bureautique ouvert ou les formats PDF :
fmt/95
: PDF-a1 nécessite une configuration locale du logiciel LibreOffice (voir ci-après)fmt/18
: PDF 1.4Pour chaque format en sortie, le logiciel attend un paramètre extension
qui fournit l'identificcation du format demandé : pdf
, odt
, etc.
Certains formats en sortie acceptent d'autres paramètres.
Par exemple, la production d'un PDF-a nécessite les paramètres filter
et options
comme le montre l'exemple suivant :
'serviceName' : 'dependency/fileSystem/plugins/libreOffice',
'softwareName' : 'LibreOffice',
'softwareVersion' : '5.4.2.0',
'inputFormats' : ['fmt/412', 'fmt/291', 'fmt/293'],
'outputFormats' : {
'fmt/95' : {
'extension' : 'pdf',
'filter' : 'writer_pdf_Export',
'options': 'SelectPdfVersion=1'
},
'fmt/18' : {
'extension' : 'pdf'
}
}
Pour produire du PDF-a, le serveur applicatif Maarch (processus Apache) doit être exécuté avec un utilisateur qui possède un environnement de configuration de Libreoffice.
La conversion en PDF/a nécessite la configuration du module d'export PDF de libreOffice pour ajouter une option de sélection de version.
Sur un OS linux, ouvrir le fichier .libreoffice//user/registrymodifications.xcu
.
Sur un OS Windows, ouvrir le fichier C:\Users<nom utilisateur>\AppData\Roaming\LibreOffice<version>\user\registrymodifications.xcu
.
Ajouter ou modifier la structure suivante :
<item oor:path="/org.openoffice.Office.Common/Filter/PDF/Export">
<prop oor:name="SelectPdfVersion" oor:op="fuse">
<value>1</value>
</prop>
</item>
Ce service permet de convertir des documents numériques depuis des formats PDF en utilisant le logiciel GhostScript.
Le logiciel doit être installé sur le serveur applicatif.
Il est disponible sur le site officiel de l'éditeur https://ghostscript.com/releases/gsdnld.html.
Le chemin vers l'exécutable, s'il n'est pas ajouté à la variable d'environnement PATH
du système, est configurable dans Maarch RM
à l'aide de la directive ghostScriptExecutable
de la section [dependency.fileSystem]
:
[dependency.fileSystem]
; Path to ghostScript executable
; ghostScriptExecutable = "C:\Program Files\gs\gs9.52\bin\gswin64.exe"
ghostScriptExecutable = "/usr/bin/gs/gs9.52/gs.so"
Les paramètres de configuration sont décrits ci-après :
serviceNamedependency/fileSystem/plugins/GhostScript
inputFormats
GhostScript peut ouvrir les formats PostScript et PDF : fmt/14
, fmt/15
, etc...
outputFormats
Le format le plus utilie en sortie est le PDF-a1.
Exemple de configuration pour convertir tout format de PDF 1.0 à 1.7 et 2.0 vers du PDF-a:
'serviceName' : 'dependency/fileSystem/plugins/GhostScript',
'softwareName' : 'Ghostscript',
'softwareVersion' : '10.0',
'inputFormats' : ['fmt/14', 'fmt/15', 'fmt/16', 'fmt/17', 'fmt/18', 'fmt/19', 'fmt/20', 'fmt/276', 'fmt/1129'],
'outputFormats' : {
'fmt/95' : {}
}