This is to review the subprojects that the computational geeks in OREChem have put together over the last few days. (a) is long term, (b) is immediate<br>(a) The general goal is to compute NMR spectra for all new published compounds and compare them with spectra. This is a new approach &quot;robot refereeing of chemistry publications&quot; and any differences suggest errors or new chemistry. This is long term (months) and consists of the following (as we have put on the wiki):<br>
* PSU-Lee/Prasenjit retrieve chemistry-rich docs from publisher sites (ask for forgiveness policy) and segment the papers into text+non-text (tables, diagrams). This passes to:<br>* Mark - Soton extracts molecules and spectra out of this and converts them to SVG. The short-term goal is to get this working by the end of next week in a pragmatic form. (we do not mind if recall is poor as long as we get a few SVGs as we need to develop the machine-learning and/or heuristics and find out what unknown horrors we have to deal with. <br>
Bitmaps are rejected at this stage<br>* PMR- cambridge develops heuristics to interpret (i) molecules (ii) spectra (C13 and H1). These might later be crowdsourced. The output is CML molecules and spectra. It is unlikely we have assignments<br>
* PSU - Bill+Karl. Analyse spectra with peak-fitting. <br>* IU - Marlon. (independently) molecules are passed to IU in CML and put into the NMREye workflow for computing peaks (below). IU run this automatically and return results in CML<br>
<br>(b) To get IU up to speed we shall start immediately on simple molecules from Pubchem. This involves just Cambridge and IU.<br>* The NMREye workflow has been developed and tested and should work on simple organic compounds. It consists of the following:<br>
  - convert PubchemXML2CML (already available in JUMBO)<br>  - convert CML to Gaussian input. We have an XSLT script, but could convert this to Java in an hour.<br>  - in parallel - create RDF metadata for provenance to this point (as this does not survive the Gaussian run)<br>
  ... submit and run job ... (IU) ... and collect results<br> - convert LOG file to CML (JUMBOMarker, effectively done)<br> - convert CML to RDF (JUMBO). Add GaussianOWL dictionary in RDF<br> <br>upload RDFs into reopository/tripleStore<br>
<br>In (b) we would expect to get 10,000 - 100,000 small molecules from Pubchem of up to, say , 15 first row atoms. These already have 3D coordinates (I am ignoring conformers at this stage). The process should be automatic. Jobs take from 0.1 seconds to 1 day (probably) as they scale with N^4.<br>
<br>P.<br><br>I will try to send this to the Wiki<br><br clear="all"><br>-- <br>Peter Murray-Rust<br>Reader in Molecular Informatics<br>Unilever Centre, Dep. Of Chemistry<br>University of Cambridge<br>CB2 1EW, UK<br>+44-1223-763069<br>