机器翻译的研究是理论方法和工程技术并举的。要建立一个机器翻译系统,首先需要确立语言分析和生成的基本观点,选择适用的语法理论,设计系统的运行机制,组织析句时需要的各种参数,还要针对所有这些考虑提出在计算机上实现的算法,并设计程序,调试通过。这个过程几乎涉及了计算语言学和自然语言处理的各个重要领域。我国机器翻译的研究从一开始就面对印欧语言和汉语的巨大差异,所以一直重视语法和语义分析。JFY机器翻译系统的研究思路属于理性主义的路线,或者称为基于规则的方法。主张对诸家语法理论各取其长,构造自己的语言分析方法。例如,用传统语法、短语结构语法、转换语法、从属关系语法等思想分析句子的句法结构,用格语法、配价理论的方法分析句子的语义关系。同时, 在语言学的形式化( Linguistic Formalism )、 计算方法的形式化(Computational Formalism)和析句的机制(System Mechanism )等方面结合工程的实际,做扎实的研究,以保证语言学上的设计得以实施。
经过多年的研究和开发,JFY系统在机器翻译的理论、方法和技术等方面形成了自己的观点,它们涉及:
1、机器翻译系统的语言学基础和算法之间的关系。
2、基于词专家的机器翻译系统的设计原则和方法。
3、机器翻译系统的开放性。
4、个性规则和共性规则的有机结合。
5、以谓语为轴心,句法和语义一体化的语言分析策略。
6、用于研制机器翻译系统的开发工具。
7、适于自然语言处理的算法。
例如下面关于句子结构的看法:
1)句子结构由成分之间的直接联系组成,表现为句法结构和语义结构两个方面。同一句子的句法结构因语言不同而异,同一句子的语义结构对不同的语言则基本相同,因而语义结构是不同语言之间交际或翻译的媒介和基础。
2)成分之间的直接联系分为支配关系和附加关系两种。支配关系是一种限定性的直接联系,可以预示成分之间的句法关系,构句时如果不满足支配关系,将会造成不合语法的句子。附加关系是一种非限定性的直接联系,它不受其中心成分的限制,构句时不影响句子在语法上的合法性。
3)直接联系具有方向性。处于支配或中心地位的成分是直接联系的轴心,称为上位成分;处于被支配或附加地位的成分称为下位成分。
4)根据直接联系的有向性,可以划分出成分之间的层级关系:上位成分、下位成分、同位成分和外位成分。一个上位成分可以支配若干个下位成分;而一个下位成分只能从属于一个上位成分。
5)谓语动词是句子结构的主轴心,其他形式的谓词是句子的次轴心。
   在源文分析和译文生成时,依据上面这些观点分析句子的句法结构和语义结构。分析是按规则一步一步推导的。对带有规律性的语言事实,用共性规则描述,放在语法库里;对词语的用法,用个性规则描述,放在词库里。在分析句子时把词库和语法配合起来用。这种作法,近年国外一些语法理论也有论述,例如以词汇功能语法为代表的词汇主义思想。JFY系统是在长期研究和实践的积累中提出来的,理论和方法上有清楚的表述,工程上也有比较成熟的算法和技术。这种方法在语言信息处理界得到了认可,一些别的系统也陆续采用了这种处理方式。
JFY英汉系统由词语规则库(6万多条),语法规则库(1700多条),专业术语词典(13部,110多万条)和语义规则库(150多条)组成。可以进行计算机、机械、冶金、电信等十几个专业的科技文献翻译。这个系统曾经几次获奖。1989年获得国家科技进步二等奖,1992年在新加坡信息科学技术博览会上获银奖,1993年获得北京市科技进步三等奖。语言规则库的工作获得中国社会科学院青年优秀科研成果二等奖。