范文示例1（通信）.pdf

摇第 33 卷第 4 期成摇都摇信摇息摇工摇程摇大摇学摇学摇报 Vol. 33 No. 4 摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇 2018 年 8 月 JOURNAL OF CHENGDU UNIVERSITY OF INFORMATION TECHNOLOGY Aug. 2018 文章编号: 2096鄄1618(2018)04鄄0353鄄06 纠错模式可配置的 NAND Flash BCH 译码器设计谢蓉芳1 ,摇李子夫2 ,摇叶摇松1 (1. 成都信息工程大学通信工程学院,四川成都 610225;2. 中国科学院微电子研究所,北京 100029) 摇摇摘要:针对 NAND Flash 的可靠性和使用寿命,完成一种模式可配置的 BCH 码的译码电路结构设计。结构实现了(8640,8192,32) 、(8416,8192,16) 、(8304,8192,8)3 种模式的 BCH 码译码电路,可根据存储器误码率配置译码模式,通过合理配置译码电路内部资源,减小功耗。译码器采用求余式的校正子求解法、SiBM 迭代算法、有限域固定因子乘法器的并行钱氏搜索算法。与单纠错模式的 BCH 码(8640,8192,32) 相比,在只增加极少硬件资源开销的情况下,使低误码率时译码器的功耗大幅减少。优化后的纠错能力 t = 8 的 BCH 译码器,校正子结构、钱氏搜索结构分别节约了49. 1% 、64. 9% 的功耗,纠错能力 t = 16 的 BCH 译码器,校正子结构、钱氏搜索结构分别节约了 34. 0% 、42. 4% 的功耗。译码器基于 Xilinx 公司 Zynq 系列芯片,在 Xilinx Vivado 上完成了电路仿真与验证。关摇键摇词:微电子学与固体电子学;集成电路;NAND Flash;模式可配置;BCH 译码器;低功耗中图分类号:TN432摇摇摇摇摇摇文献标志码:A doi:10. 16836 / j. cnki. jcuit. 2018. 04. 001 0摇引言源和功耗。针对该问题,设计了模式可配置、纠错能力近年来,大规模集成电路技术飞速发展,以 NAND Flash 为代表的半导体固态存储器,已成为各类电子产品中外部存储器的主要选择。其具有大容量、高存储密度、高访问速度、低成本、低功耗等优势,在嵌入式设备和移动设备中广泛应用。当前市场 NAND Flash 的强的 BCH 译码器纠错系统。采用了求余式、并行的校正子计算法,简化的无求逆 SiBM 算法,有限域固定因子乘法器( constant finite field multiplier,CFFM) 的 8 位并行钱氏搜索算法, 减少了译码器的功耗, 以适应 NAND Flash 的应用。需求持续增加,但随着存储容量的增加、工艺尺寸的减小,电荷泄漏、编程干扰、保持时间 ( retention) 、编程擦除次数( P / E cycle) 增加等导致存储器的可靠性和使用寿命面临严峻的挑战 [1] 。单比特纠错的汉明码已无法满足 ECC 纠错系统的应用要求,取而代之的是纠错能力更强的 RS 码、BCH 码、LDPC 码等。 RS 码是非二进制 BCH 码,在纠正相同错误位数时,所需的校验码长度大于 BCH 码,硬件资源消耗量较大;LDPC 码是一类可逼近香农限的编码 [2] ,但编译码算法复杂、硬件实现成本高等特点使其在主流存储器中还未广泛应用。相比之下,BCH 码在中短码长下,具有能纠正多图 1摇各种误码率与编程擦除次数关系图 1摇 BCH 码简介 BCH 码是由 Bose、Chaudhuri、Hocquenghem 3 人分。由于 NAND 别独立发现和提出的一种可以纠正多个随机错误的线 tion 的增加,其误码率会以指数的倍率增加。如图 1 易于实现等优点, 且 BCH 码有完备的代数理论支位随机错误、速度快、电路简单等优点 [3] Flash 数据出错具有随机性,且随着 P / E Cycle、Reten鄄所示 [4] ,在 P / E Cycle 小于1. 5 K时误码率较低,使用 BCH 码(8304,8192,8) 的译码器即可纠正错误。若使用 BCH 码(8640,8192,32) 纠错,会浪费较多的硬件资收稿日期:2018鄄03鄄12 基金项目:国家自然科学基金资助项目(61474137) 性循环码。 BCH 码具有构造方便、编码简单以及译码持 [2] 。对于伽罗华域 GF(2) 及扩域 GF(2 m ) ,假设琢为 GF(2 m ) 的本原元,若 GF(2) 上最低次数多项式g( x) 含有琢、琢2 、琢3 、…、琢 d-1 等 d -1 个连续根,则由 g( x) 生成的循环码称为 BCH 码。二进制 BCH 码( n,k,t) 中, n 为码长,k 为信息位长度,t 为纠错能力,d 称为 BCH 成摇都摇信摇息摇工摇程摇大摇学摇学摇报摇摇摇摇摇摇摇摇摇摇摇第 33 卷 354 码距离,二进制 BCH 码( n,k,t) 的参数满足下列关系: m ìïn = 2 - 1摇 ( m 逸 3) ïn - k 臆 mt í ït < 2 m -1 ï îd min 逸 2t + 1 其生成多项式为 g( x) = ( x - a) ( x - a ) …( x - a ) = 2 d g0 + g1 x + … + g r x r BCH 码编码过程比较简单,可用线性反馈移位寄存器( LFSR) 实现。而译码过程相对比较复杂,且对整个 ECC 模块起着至关重要的作用,文中主要研究 BCH 译码器。 2摇 BCH 译码算法 BCH 译码算法由 3 部分组成:校正子 S i 计算;错误位置多项式滓( x) 计算;错误模式 E( x) 计算。设计的模式可配置的 BCH 译码器总体框架图如图 2 所示, 除了上述的 3 部分,BCH 译码器还加入了 ms 信号纠错控制模块 [4] ,纠错控制模块的功能是调控各个模块的工作状态,接收到输入的 ms 信号后,设定译码器的工作模式。 SiBM 运算从第 1 次迭代到第 32 次, 钱氏搜索代入滓1 ~ 滓32 参与运算。 3 种纠错模式都在同一有限域 GF(2 14 ) 内,且信息位的位数相同,不同的是校验位的位数。将校验位寄存器的个数设定为最大值 448,通过配置信号来控制译码器对应资源参与工作,从而减小整个 ECC 模块的功耗。表 1摇纠错模式配置配置参数纠错能力 00 8 01 (8304,8192,8) 16 11 BCH 码参数 / bit (8416,8192,16) 32 (8640,8192,32) 2. 1摇校正子 S i BCH 码译码的第一步是计算校正子 S i ,假设接收的码字为 r( x) ,校验矩阵为 H,则生成的 2t 个校正子定义如下: S = ( S1 ,S2 ,S3 ,…,S2t )= r·H T r( x)= r0 +r1 x+r2 x +r3 x +…+r n-1 x 2 3 n-1 琢琢2 琢3 … 琢 n-1 ù éê 1 ú ê 1 琢2 琢4 琢6 … 琢2( n-1) ú ê ú H = ê 1 琢3 琢6 琢9 … 琢3( n-1) ú ê… … … … … … ú êê ú 2t 琢4t 琢6t … 琢2t( n-1) úû ë1 琢对于 1臆i臆2t,校正子的第 i 个分量为 (1) (2) (3) n-1 摇摇 S i = r( 琢 i )= 移r j( 琢 i ) j = j=0 r0 +r1 琢 i +r2 琢2i +r3 琢3i +…+r n-1 琢 ( n-1) i (4) 直接按式(4) 计算一个 S i 需要 n -1 个有限域乘法器( FFM) 、n -1 个有限域加法器( FFA) 。通过将接图 2摇 BCH 译码器总体框架图设计实现了 BCH 码 ( 8640, 8192, 32 ) 、 ( 8416, 8192,16) 、(8304,8192,8) 这 3 种纠错能力的译码电路,配置方式如表 1 所示。以图 1 中曲线 3鄄year Reten鄄 tion Errors 为例, P / E Cycles 小于9. 5 K 时, 配置信号收多项式化简,即用接收多项式 r( x) 除以琢 i 的最小多项式椎 i( x) 得到 r( x) 的余式 [5] 。化简后的校正子计算公式为: r( x) = q( x) 椎 i( x) + b i( x) S i = r( 琢 ) = b i( 琢 ) i i (5) (6) 因此将校正子的计算电路分为两步:根据最小多 ms 设置为“00 冶 , 调用 t = 8 的工作模式, 计算校正子项式求余式;将琢 i 代入余式,求出 S i 。余式求解电路代入滓1 ~ 滓8 参与运算。当 P / E Cycles 大于9. 5 K小系数,其取值为 1 或 0,e 的最大取值为 13,n 位码字全 S1 ~ S16 ,SiBM 运算从第 1 次迭代到第 8 次,钱氏搜索于12. 5 K时,配置信号 ms 设置为“01冶 ,调用 t = 16 的工作模式,计算校正子 S1 ~ S32 ,SiBM 运算从第 1 次迭代到第 16 次,钱氏搜索代入滓1 ~ 滓16 参与运算;当 P / E Cycles 大于12. 5 K小于22. 9 K时,配置信号 ms 设置为 “11冶 ,调用 t = 32 的工作模式, 计算校正子 S1 ~ S64 , 可用 LFSR 实现 [6] ,如图 3 所示,椎 e 为最小多项式的部输入后,寄存器中的值就是余式的系数。此时在第一步求余式电路里面至多需要 13 个 FFM、13 个 FFA, 第二步需要 13 个 FFM、13 个 FFA。计算一个校正子 S i ,至多需要 13 + 13 = 26 个 FFM、13 + 13 = 26 个 FFA。资源消耗减为原来的 26 / ( n - 1) ,大大减少了校正子第 4 期摇摇摇摇摇摇摇谢蓉芳,等:纠错模式可配置的 NAND Flash BCH 译码器设计计算模块的硬件消耗 [7] 。 355 无需求逆,且利用二元 BCH 码的奇数次迭代时迭代差值为 0,进一步节省了迭代周期,只需要 t 个周期即可完成迭代。 ms 信号纠错控制模块实现模式的配置,ms 信号设置为 3 种模式,对应 3 种纠错能力,相应的 SiBM 运算分别迭代到第 8 次、第 16 次和第 32 次。 SiBM 算法流程图如图 5 所示,其算法的迭代步骤如下: 图 3摇余式求解电路为了加快译码速度,采用 8 位并行执行的 LFSR 电路计算校正子 [7] 。每个时钟周期输入 8 位数据,通过最小多项式的系数椎 e 进行反馈,在 n / 8 个时钟周期内计算出校正子。 8 位并行算法公式推导如下: 步骤 1摇初始化:i = -1,d -1 = 1,d0 = S1 ,dq ( -1) = 1, 滓 ( -1) ( x)= 1,滓1 ( x)= 1,D ( -1) ( x)= 1; 步骤 2摇计算 i = i+2,判断 d i 是否等于 0,若等于 0 则跳转到步骤 3,否则跳转到步骤 4; 步骤 3摇计算: n-1 摇摇摇摇 D ( i) ( x) = x2 D ( i -2) ( x) 摇摇 S i = r( 琢 i )= 移r j( 琢 i ) j mod 椎 i( x)= j=0 i [ r0 +r1 琢 +…+r n-1 琢 ( n-1) i ] mod 椎 i( x)= { [ r0 +r1 琢 +…+r7 琢 ] 琢 7i i r2伊8-1 琢 ] 琢 7i r n-1 琢 ] 琢 7i n / 8-1 7 j=0 k=0 ( i) 伊8 ( i) 伊0 dq ( i) = dq ( i -2) +[ r8 +r8+1 琢 +…+ +…+[ r n-8 +r n-8+1 琢 i +…+ ( i) 伊( n-8) { 移 [ 移r8伊j+k( 琢 ) ] ( 琢 ) } mod 椎 i( x) k i 8j 由参考文献[2] 中式子(6 -31) 可知,关于校正子的运算有:S2i = S 。因此校正子计算时,只需要计算 t 2 i 个奇数次项校正子,再分别用 t 个 CFFM 计算对应的 t 个偶数项校正子 [8] 步骤 4摇计算: 摇摇 D ( i) ( x)= 滓 ( i) ( x) ;dq ( i) = d i } mod 椎 i( x)= i 滓 ( i +2) ( x) = 滓 ( i) ( x) i ,从而将校正子计算模块的运算量减少了 50% 左右。简化后的 8 位并行校正子计算电路如图 4 所示。摇摇滓幂 (i+2) (x)= { dq (i-2) 滓(i) (x) +d i xD(i-2) (x)摇 (i = 1) dq (i-2) 滓(i) (x) +d i x2 D(i-2) (x)摇 (i>1) 步骤 5摇计算下式,其中 L i+2 表示滓 i +2 ( x) 最高次 L( i +2) d i +2 = 移 S i +1 -j 滓 (j i +2) j=0 步骤 6摇检验 i 是否等于 2t-2,若相等,则停止迭代,否则跳转到步骤 2。图 4摇简化的 8 位并行校正子计算电路 2. 2摇错误位置多项式滓( x) 错误位置多项式滓( x) 如式(7) ,滓( x) 的求解电路是 BCH 译码电路中最复杂的模块,由于需要大量的 FFM,其占用资源也最多。经典的滓( x) 求解算法为伯利坎普-梅西算法( Berlekamp Massey,简称 BM 算法) , 该算法实现中涉及有限域的求逆运算,耗费大量硬件图 5摇 SiBM 算法流程图 SiBM 算法 [10] 的电路图如图 6 所示,校正子计算资源,且可纠错数为 t 的 BM 算法需要进行 2t 次迭代值存储在寄存器 S i 中,错误位置多项式系数存放在寄滓( x) = 1 + 滓1 x + 滓2 x2 + … + 滓 t x t 一个时钟周期到来时,对每个寄存器进行初始化;接下运算。 (7) 采用简化的无求逆 BM 算法[9] ( SiBM),极大地缩短了关键路径,可以快速地实现滓( x) 的求解。该算法存器滓 i 中,寄存器 D i 起中间缓存多项式系数作用,第来每个时钟周期到来时,将两个校正子的值同时输入, 且将校正子寄存器 S i 的值向右移两位进行更新。寄成摇都摇信摇息摇工摇程摇大摇学摇学摇报摇摇摇摇摇摇摇摇摇摇摇第 33 卷 356 存器 S i 与寄存器滓 i 中的值相乘,之后进行累加得到提出一种 8 位并行、模式可配置、优化 FFM 的钱结果记为 d i 。当 d i 等于 0 时,d q 、滓 i 、D i 值不变,将寄氏搜索算法 [13-14] 。利用 ms 信号纠错控制模块实现模时,将 d i 存储在寄存器 d q 中,将滓 i 存储在寄存器 D i 用 t = 8、t = 16 和 t = 32 的工作模式,钱氏搜索分别代入存器 D i 中的值向相邻高位移动两位;当 d i 不等于 0 中,将寄存器 d q 中的值与寄存器滓 i 中的值相乘,然后式的配置,ms 信号设置为“00冶、“01冶和“11冶 ,分别调滓1 ~ 滓8 、滓1 ~ 滓16 和滓1 ~ 滓32 参与运算。其电路图如图把向右移动两位后的寄存器中 D i 的值与 d i 相乘,接 8 所示,此电路结构最多需要 9t = 288 个 FFM,乘法器代 t 个时钟周期后,寄存器滓 i 中的值即为错误位置多控制纠错模式,m i 信号控制参与运算的滓 i ,实现模式下来将两个值相加,获得的结果用来更新滓 i 的值。迭项式系数。优化后,消耗的资源、功耗会大量减少。通过 ms 信号可配置。二进制 BCH 码(8640,8192,32) 是二进制本原 BCH 码(16383,15935,32) 的缩短码,故不需要遍历所有元素,搜索位可以从 16383 位降低到 8640 位,在钱氏搜索时直接从第 7743 位开始,经过 t 个 CFFM 得到寄存器的初始化值分别为: 琢7743 滓1 、琢7743伊2 滓2 、琢7743伊3 滓3 、……、琢7743伊t 滓 t ,初始化完成后,以 8 位并行方式搜索错误位置 [15] ,当第 i 位出错时,钱氏搜索的结果输出为“0冶 ,将该位上的值取反,即可纠正错误。此电路结构最长在 8640 / 8 = 1080 个时钟周期后,即可完成整个错误位置的搜索。图 6摇 SiBM 算法的电路图 2. 3摇错误模式 E( x) 错误模式计算采用钱氏搜索电路实现,其基本原理是利用错误位置多项式的根,来确定错误的位置。钱氏搜索算法的思路是从高位开始逐位校验输出,它的特点是不用等待所有的差错数验证完、纠错好后才解码输出,而是可以逐位解码,从高到低解码输出,大大减少译码的延时。串行钱氏搜索电路如图 7 所示。图 8摇并行钱氏搜索电路 3摇设计仿真与验证设计的纠错电路使用 Verilog 语言完成 RTL 级设计,用 Xilinx Vivado 软件完成仿真, 仿真波形结果如图 7摇串行钱氏搜索电路串行钱氏搜索电路需要 t 个 FFM 和 t 个 FFA,其译码速度较慢,文献[10] 提出一种 8 位并行 BCH 译码方案,相比于串行结构速度大幅度提升, 但没有对 FFM 进行优化,复杂度较大。有限域 GF(2 14 ) 中,每个 FFM 约需要 100 个查找表( LUT) 。若其中一个因数改为常数琢100 后,只需要 12 个 LUT,资源消耗减少到原来的 12% , 不同常数的乘法器, 资源消耗减少不同 [11-12] 。图 9 ~ 11 所示,其中 clk 为系统时钟,rst 为系统复位信号, I _ data 为输入数据, out _ location 为错误位置。图 9 ~ 11分别为纠错能力 t = 32、t = 16、t = 8 的仿真波形图。当 out_location 为“1冶时,表明存入的数据和读出的数据一致,无错误;当 out_location 为“0冶时,表明读出的数据产生了错误,从图 9 可知,存入数据的第 1 ~ 32位发生了错误。同理, 图 10 的第 1、2、3、4、9、 10、11、12、16、19、20、24、25、26、27、28 位发生了错误。图 11 的第 1、3、4、5、6、7、8、10 位发生了错误。经过大量的随机错误模式的仿真表明该 BCH 译码器可以正第 4 期摇摇摇摇摇摇摇谢蓉芳,等:纠错模式可配置的 NAND Flash BCH 译码器设计确纠正任意错误数量不超过 32、16、8 比特的数据。 357 4摇结论针对 NAND Flash 的可靠性和使用寿命,设计了模式可配置的 BCH 译码电路结构。在传统设计的基础上,对 BCH 译码器各个模块进行了有效优化:(1) 硬件开销略大于单纠错模式 t = 32 时硬件消耗,在低误码率情况下,只调用部分电路,随着误码率增大,复用误码率小的电路,实现硬件复用;(2) 校正子计算模块求余式,8 位并行的设计,将求解一个校正子的 FFM 和 FFA 的资源消耗减少为原来的 26 / ( n -1) ,整个校图 9摇 t = 32 仿真波形图正子求解模块的资源消耗减少了 50% 左右。提高了计算速度,节约了电路功耗;(3) 错误模式的计算,采用 8 位并行的钱氏搜索电路实现, 且将 FFM 改为 CFFM 实现,极大地减少硬件消耗。优化后的纠错能力 t = 8 的 BCH 译码器,校正子结构、钱氏搜索结构分别节约了49. 1% 、64. 9% 的功耗, 纠错能力 t = 16 的 BCH 译码器,校正子结构、钱氏搜索结构分别节约了34. 0% 、42. 4% 的功耗。优化后的模式可配置的译码器结构显著提高了纠错性能。图 10摇 t = 16 仿真波形图参考文献: [1] 摇 Micheloni R, Crippa L, Marell A. Inside NAND Flash Memories[ M] . Springer Netherlands,2010: 1-422. [2] 摇 Lin S, Costello D J. Error Control Coding, Second Edition[ M] . Prentice鄄Hall,Inc,2004:140-165. [3] 摇 Lin Y M, Yang C H, Hsu C H, et al. A MPCN鄄图 11摇 t = 8 仿真波形图进一步对优化的校正子结构,钱氏搜索结构进行了功耗仿真, 在 Vivado 下, 从综合后的设计产生的 DCP 文件用于功耗的估计,在向量模式下,选择仿真生成的 SAIF 文件,Report Power 会自动生成 XPE 功耗估计所需文件。结果如表 2 所示,3 种模式下的出错位数均为 8 位,当采用 ms = “00冶模式,校正子功耗为 0. 178 W,钱氏搜索结构功耗为0. 464 W,分别为 ms = “11冶模式下功耗的 50. 9% 、 35. 1% 。此外, 在 ms = “01冶模式下,百分比分别为66. 0% 、57. 6% 。参数 00 01 11 纠错 / 出错 8/8 16 / 8 32 / 8 校正子钱氏搜索功耗 / W 比例% 0. 231 66. 0 0. 178 50. 9 0. 35 100 功耗 / W 比例 / % 0. 762 57. 6 0. 464 1. 322 NAND Flash Memory Devices [ J] . IEEE Transac鄄 tions on Circuits & Systems II Express Briefs, 2011,58(10) :682-686. [4] 摇 Cai Y,Haratsch E F,Mutlu O,et al. Error patterns in MLC NAND flash memory: Measurement, char鄄 acterization,and analysis [ C] . Design, Automation & Test in Europe Conference & Exhibition. IEEE, 2012:521-526. [5] 摇 M Wang, N Deng, H Wu et al. Theory study and 表 2摇校正子、钱氏搜索结构功耗配置 Based Parallel Architecture in BCH Decoders for 35. 1 100 implementation of configurable ECC on RRAM memory[ J] . 15th Non鄄Volatile Memory Technology Symposium ( NVMTS) ,Beijing,2015:1-3. [6] 摇 C Fougstedt, K Szczerba P Larsson鄄Edefors. Low鄄 Power Low鄄Latency BCH Decoders for Energy鄄Effi鄄 cient Optical Interconnects [ J] . Journal of Light鄄成摇都摇信摇息摇工摇程摇大摇学摇学摇报摇摇摇摇摇摇摇摇摇摇摇第 33 卷 358 wave Technology,2017,35(23) :5201-5207. [7] 摇 N Lin, S Cai, X Ma. Block Markov superposition [11] 摇 J Jung,I C Park,Y Lee. A 2. 4pJ / bit,6. 37Gb / s SPC鄄enhanced BC鄄BCH decoder in 65nm CMOS transmission of BCH codes with iterative hard鄄deci鄄 for NAND flash storage systems [ C] . 2018 23rd sion decoding[ C] . IEEE International Symposium on Information Theory ( ISIT) ,Aachen,2017:1598 -1602. [8] 摇 Y Wu. Generalized integrated interleaving BCH Asia and South Pacific Design Automation Confer鄄 ence( ASP鄄DAC) ,Jeju,2018:329-330. [12] 摇 D Kim,I Yoo,I C Park. Fast Low鄄Complexity Tri鄄 ple鄄Error鄄Correcting BCH Decoding Architecture codes[ C] . 2016 IEEE International Symposium on Information Theory ( ISIT) ,Barcelona,2016:1098 -1102. [9] 摇 P Chen,C Zhang,H Jiang,et al. High performance [ C] . IEEE Transactions on Circuits and Systems II: Express Briefs,2017. [13] 摇 H Yoo, Y Lee, I C Park. Low鄄Power Parallel Chien Search Architecture Using a Two鄄Step Ap鄄 low complexity BCH error correction circuit for proach [ J ] . IEEE Transactions on Circuits and SSD controllers[ C] . 2015 IEEE International Con鄄 ference on Electron Devices and Solidv鄄State Cir鄄 Systems II: Express Briefs, 2016, 63 ( 3 ) : 269 273. cuits( EDSSC) ,Singapore,2015:217-220. [14] 摇蔡二龙. 并行 BCH 编解码的快速实现方法 daptive鄄Rate Error Correction Scheme for NAND [15] 摇 B Park,J Park,Y Lee. Area鄄optimized Fully鄄flexi鄄 [10] 摇 CHEN T H,Hsiao Y Y,HSING Y T,et al. An A鄄 Flash Memory [ C] . VLSI Test Symposium,2009. VTS'09. IEEE,2009:53-58. [ D] . 西安:西安电子科技大学,2015. ble BCH Decoder for Multiple GF Dimensions [ C] . IEEE Access,2018. Design of Mode Configurable NAND Flash BCH Decoder XIE Rong鄄fang1 ,摇 LI Zi鄄fu2 ,摇 YE Song1 摇摇 (1. College of Communacation Engineering,Chengdu University of Information Technology, Chengdu 610225,China;2. Institute of Mi鄄 croelectronics of the Chinses Academy of Sciences, Beijing 100049,China) Abstract:Aiming at the reliability and lifetime of the NAND Flash memory, a mode configurable BCH decoding circuit structure is implemented. The structure achieves three modes of (8640,8192,32) , (8416,8192,16) , (8304,8192,8) BCH decoding circuit which can be configured according to the memory bit error rate( BER) , the power consumption is reduced by rationally configuring the internal resources of the decoding circuits. The decoder solves syndromes by re鄄 mainder, and adopts simplified inversionless Berlekamp Massey ( SiBM) iterative algorithm and Constant Finite Field Multiplier ( CFFM) in the parallel Chien search algorithm. Compared with the single mode of BCH code (8640, 8192, 32) , the proposed design which significantly reduces the power consumption in the case of low BER decoder sacrificing only a few hardware resources consumption. For the optimized BCH decoder of error correcting capability t = 8, the Syn鄄 drome structure, Chien search structures are of 49. 1% ,64. 9% power saving. And for the BCH decoder of t = 16, the power saving are 34. 0% and 42. 4% respectively. The decoder is based on the Xilinx Zynq series chip and the circuit simulation and verification is done by Xilinx Vivado. Keywords:microelectronics and solid state electronics;integrated circuit;NAND Flash;mode configurable;BCH decod鄄 er;low power