Q11 – What about consistency? How do you ensure my company’s terminology prevails statistically over other options?


Ideally, your customized engine(s) should only contain your own data to ensure no noisy material perturbs your writing or company style. In reality, few organizations have as much data available. Data gathering and consultancy on how to obtain more relevant data has become a favorite sport among SMT developers.

As part of our consultancy services, PangeaMT can add more muscle to your initial set of data so that a large linguist corpus comes into the training (we most probably have quite a bit to build a Language Model or turn any of our Language Models more like your style). All the data we add will be relevant to your subject field and the engines will be tested with and without it so you can check the effect of more data on your development. (You can find an abridged version of what a test can look in our October 2009 news. This was part of a free test for several organizations.)

Generally speaking, it is assumed that the more data the better. There has been some controversy as to whether smaller and cleaner sets of data provide higher accuracy. This will depend largely on your application and if “world awareness” is required by your system or if you are running an engine for a very specific domain. 2M words of civil engineering data will probably have little impact if you are building a system for a software company fighting virus, or a medical engine fighting a very different kind of virus. It is a common mistake to add data and data thinking it will be useful at some point, but our studies conclude that if that data is not likely to be needed/recalled, it is better to leave it as part of your Language Model.

In short, there is no way to ensure that statistics will work one way or another (that is precisely the point of statistics, they analyze the chances of something happening). If the system is too wide, pre- and post-processing systems can be built (in a kind of hybridation) to “fix” or “force” certain expressions. There are other ways of working towards higher chances, as it can be done with the combined engine method or the combined hypothesis (i.e. combining parts of likely outputs with a high certainty to remake sentences which the engine reprocesses). So far, we have heard good experiences of post-editors using the same terminology tools as with CAT tools to check terminology consistency.Lo ideal sería que el motor(es) a su medida sólo contenga(n) sus propios datos para asegurar que ningún material ruidoso perturbe su estilo de redacción o el de su empresa. No obstante, pocas organizaciones pueden aportar tantos datos disponibles. La recolección de información y el asesoramiento sobre la forma de obtener más datos relevantes se ha convertido en un deporte favorito entre los desarrolladores de SMT.

Como parte de nuestros servicios de consultoría, PangeaMT puede añadir más músculo a su conjunto inicial de datos para que un gran corpus lingüístico forme parte del entrenamiento (es muy probable que nosotros tengamos ya unos cuantos datos para  construir un Modelo de Lenguaje o adaptar cualquiera de los nuestros a su estilo). Todos los datos que agreguemos serán relevante para su campo del conocimiento y los motores se pondrán a prueba, tanto con como sin estos datos incorporados, de manera que puede comprobar el efecto de añadir más datos sobre su desarrollo. (Puede encontrar una versión resumida de cómo puede ser una prueba en una de nuestras noticias de octubre 2009. Esto fue parte de una prueba gratuita para varias organizaciones.)

En términos generales, se asume que cuantos más datos, mejor. Ha habido una cierta controversia sobre si conjuntos más pequeños y menos contaminados de datos proporcionan una mayor precisión. Esto dependerá en gran medida de su aplicación, de si el sistema requiere “conocimiento del mundo” o si está ejecutando un motor para un dominio muy específico. Dos millones de palabras de datos de ingeniería civil tendrán poco impacto si usted está construyendo un sistema de lucha contra una compañía de software antivirus, o un motor de médicos luchando contra un tipo muy diferente de virus. Es un error común agregar datos y pensar que será útil en algún momento, pero nuestros estudios concluyen que si no es probable que se necesite o recuerde esos datos, es mejor dejarlos como parte del Modelo de Lenguaje.

En resumen, no hay manera de garantizar que las estadísticas de trabajo funcionen de una manera u otra (precisamente ése es el punto de la estadística, se analizan las posibilidades de que algo suceda). Si el sistema es demasiado amplio, se pueden construir pre- y post-procesamiento de los sistemas (en una especie de hibridación) para fijar o forzar ciertas expresiones. Hay otras formas de trabajar hacia una mayor probabilidad, ya que se puede hacer con el método combinado del motor o el de la hipótesis combinadas (es decir, combinando partes de outputs probables con una certeza alta para rehacer oraciones que reprocesa el motor). Hasta ahora, hemos tenido conocimiento de buenas experiencias por parte de posteditores que utilizan las mismas herramientas terminológicas presentes en las herramientas CAT para comprobar la consistencia terminológica.