La herramienta habitual para convertir documentos de Microsoft Office a HTML u otros formatos era mswordview, que desde entonces pasó a llamarse vwWare.
Si está buscando una herramienta de línea de comandos, en realidad recomiendan usar AbiWord para realizar la conversión:
AbiWord --to=txt
Si está buscando una biblioteca, comience en la página de descripción general de wvWare. También mantienen una lista de bibliotecas y herramientas que leen documentos de MS Office.
Yo optaría por la solución de línea de comandos (y luego usaría el módulo de subproceso de Python para ejecutar las herramientas desde Python).
Conversores para msword (catdoc ), excel (xls2csv ) y ppt (catppt ) se puede encontrar (en forma de fuente) aquí:http://vitus.wagner.pp.ru/software/catdoc/.
Realmente no puedo comentar sobre la utilidad de catppt, ¡pero catdoc y xls2csv funcionan muy bien!
Pero asegúrese de buscar primero en los repositorios de sus distribuciones... En ubuntu, por ejemplo, catdoc es solo una salida rápida de apt.
Puede acceder a OpenOffice a través de la API de Python.
Intente usar esto como base:http://wiki.services.openoffice.org/wiki/Odt2txt.py