范文示例1(通信).pdf
摇 第 33 卷第 4 期 成摇 都摇 信摇 息摇 工摇 程摇 大摇 学摇 学摇 报 Vol. 33 No. 4 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 2018 年 8 月 JOURNAL OF CHENGDU UNIVERSITY OF INFORMATION TECHNOLOGY Aug. 2018 文章编号: 2096鄄1618(2018)04鄄0353鄄06 纠错模式可配置的 NAND Flash BCH 译码器设计 谢蓉芳1 ,摇 李子夫2 ,摇 叶摇 松1 (1. 成都信息工程大学通信工程学院,四川 成都 610225;2. 中国科学院微电子研究所,北京 100029) 摇 摇 摘要:针对 NAND Flash 的可靠性和使用寿命,完成一种模式可配置的 BCH 码的译码电路结构设计。 结构实 现了(8640,8192,32) 、(8416,8192,16) 、(8304,8192,8)3 种模式的 BCH 码译码电路,可根据存储器误码率配置译 码模式,通过合理配置译码电路内部资源,减小功耗。 译码器采用求余式的校正子求解法、SiBM 迭代算法、有限域 固定因子乘法器的并行钱氏搜索算法。 与单纠错模式的 BCH 码(8640,8192,32) 相比,在只增加极少硬件资源开 销的情况下,使低误码率时译码器的功耗大幅减少。 优化后的纠错能力 t = 8 的 BCH 译码器,校正子结构、钱氏搜 索结构分别节约了49. 1% 、64. 9% 的功耗,纠错能力 t = 16 的 BCH 译码器,校正子结构、钱氏搜索结构分别节约了 34. 0% 、42. 4% 的功耗。 译码器基于 Xilinx 公司 Zynq 系列芯片,在 Xilinx Vivado 上完成了电路仿真与验证。 关摇 键摇 词:微电子学与固体电子学;集成电路;NAND Flash;模式可配置;BCH 译码器;低功耗 中图分类号:TN432摇 摇 摇 摇 摇 摇 文献标志码:A doi:10. 16836 / j. cnki. jcuit. 2018. 04. 001 0摇 引言 源和功耗。 针对该问题,设计了模式可配置、纠错能力 近年来,大规模集成电路技术飞速发展,以 NAND Flash 为代表的半导体固态存储器,已成为各类电子产 品中外部存储器的主要选择。 其具有大容量、高存储 密度、高访问速度、低成本、低功耗等优势,在嵌入式设 备和移动设备中广泛应用。 当前市场 NAND Flash 的 强的 BCH 译码器纠错系统。 采用了求余式、并行的校 正子计算法,简化的无求逆 SiBM 算法,有限域固定因 子乘法器( constant finite field multiplier,CFFM) 的 8 位 并行钱 氏 搜 索 算 法, 减 少 了 译 码 器 的 功 耗, 以 适 应 NAND Flash 的应用。 需求持续增加,但随着存储容量的增加、工艺尺寸的减 小,电荷泄漏、编程干扰、保持时间 ( retention) 、编程擦 除次数( P / E cycle) 增加等导致存储器的可靠性和使 用寿命面临严峻的挑战 [1] 。 单比特纠错的汉明码已 无法满足 ECC 纠错系统的应用要求,取而代之的是纠 错能力更强的 RS 码、BCH 码、LDPC 码等。 RS 码是非 二进制 BCH 码,在纠正相同错误位数时,所需的校验 码长度大于 BCH 码,硬件资源消耗量较大;LDPC 码是 一类可逼近香农限的编码 [2] ,但编译码算法复杂、硬 件实现成本高等特点使其在主流存储器中还未广泛应 用。 相比之下,BCH 码在中短码长下,具有能纠正多 图 1摇 各种误码率与编程擦除次数关系图 1摇 BCH 码简介 BCH 码是由 Bose、Chaudhuri、Hocquenghem 3 人分 。 由于 NAND 别独立发现和提出的一种可以纠正多个随机错误的线 tion 的增加,其误码率会以指数的倍率增加。 如图 1 易于 实 现 等 优 点, 且 BCH 码 有 完 备 的 代 数 理 论 支 位随机错误、速度快、电路简单等优点 [3] Flash 数据出错具有随机性,且随着 P / E Cycle、Reten鄄 所示 [4] ,在 P / E Cycle 小于1. 5 K时误码率较低,使用 BCH 码(8304,8192,8) 的译码器即可纠正错误。 若使 用 BCH 码(8640,8192,32) 纠错,会浪费较多的硬件资 收稿日期:2018鄄03鄄12 基金项目:国家自然科学基金资助项目(61474137) 性循环码。 BCH 码具有构造方便、编码简单以及译码 持 [2] 。 对于伽罗华域 GF(2) 及扩域 GF(2 m ) ,假设 琢 为 GF(2 m ) 的本原元,若 GF(2) 上最低次数多项式g( x) 含有 琢、琢2 、琢3 、…、琢 d-1 等 d -1 个连续根,则由 g( x) 生 成的循环码称为 BCH 码。 二进制 BCH 码( n,k,t) 中, n 为码长,k 为信息位长度,t 为纠错能力,d 称为 BCH 成摇 都摇 信摇 息摇 工摇 程摇 大摇 学摇 学摇 报摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷 354 码距离,二进制 BCH 码( n,k,t) 的参数满足下列关系: m ìïn = 2 - 1摇 ( m 逸 3) ïn - k 臆 mt í ït < 2 m -1 ï îd min 逸 2t + 1 其生成多项式为 g( x) = ( x - a) ( x - a ) …( x - a ) = 2 d g0 + g1 x + … + g r x r BCH 码编码过程比较简单,可用线性反馈移位寄 存器( LFSR) 实现。 而译码过程相对比较复杂,且对整 个 ECC 模块起着至关重要的作用,文中主要研究 BCH 译码器。 2摇 BCH 译码算法 BCH 译码算法由 3 部分组成:校正子 S i 计算;错 误位置多项式 滓( x) 计算;错误模式 E( x) 计算。 设计 的模式可配置的 BCH 译码器总体框架图如图 2 所示, 除了上述的 3 部分,BCH 译码器还加入了 ms 信号纠 错控制模块 [4] ,纠错控制模块的功能是调控各个模块 的工作状态,接收到输入的 ms 信号后,设定译码器的 工作模式。 SiBM 运算 从 第 1 次 迭 代 到 第 32 次, 钱 氏 搜 索 代 入 滓1 ~ 滓32 参 与 运 算。 3 种 纠 错 模 式 都 在 同 一 有 限 域 GF(2 14 ) 内,且信息位的位数相同,不同的是校验位的 位数。 将校验位寄存器的个数设定为最大值 448,通 过配置信号来控制译码器对应资源参与工作,从而减 小整个 ECC 模块的功耗。 表 1摇 纠错模式配置 配置参数 纠错能力 00 8 01 (8304,8192,8) 16 11 BCH 码参数 / bit (8416,8192,16) 32 (8640,8192,32) 2. 1摇 校正子 S i BCH 码译码的第一步是计算校正子 S i ,假设接收 的码字为 r( x) ,校验矩阵为 H,则生成的 2t 个校正子 定义如下: S = ( S1 ,S2 ,S3 ,…,S2t )= r·H T r( x)= r0 +r1 x+r2 x +r3 x +…+r n-1 x 2 3 n-1 琢 琢2 琢3 … 琢 n-1 ù éê 1 ú ê 1 琢2 琢4 琢6 … 琢2( n-1) ú ê ú H = ê 1 琢3 琢6 琢9 … 琢3( n-1) ú ê… … … … … … ú êê ú 2t 琢4t 琢6t … 琢2t( n-1) úû ë1 琢 对于 1臆i臆2t,校正子的第 i 个分量为 (1) (2) (3) n-1 摇 摇 S i = r( 琢 i )= 移r j( 琢 i ) j = j=0 r0 +r1 琢 i +r2 琢2i +r3 琢3i +…+r n-1 琢 ( n-1) i (4) 直接按式(4) 计算一个 S i 需要 n -1 个有限域乘 法器( FFM) 、n -1 个有限域加法器( FFA) 。 通过将接 图 2摇 BCH 译码器总体框架图 设计 实 现 了 BCH 码 ( 8640, 8192, 32 ) 、 ( 8416, 8192,16) 、(8304,8192,8) 这 3 种纠错能力的译码电 路,配置方式如表 1 所示。 以图 1 中曲线 3鄄year Reten鄄 tion Errors 为 例, P / E Cycles 小 于9. 5 K 时, 配 置 信 号 收多项式化简,即用接收多项式 r( x) 除以 琢 i 的最小多 项式 椎 i( x) 得到 r( x) 的余式 [5] 。 化简后的校正子计 算公式为: r( x) = q( x) 椎 i( x) + b i( x) S i = r( 琢 ) = b i( 琢 ) i i (5) (6) 因此将校正子的计算电路分为两步:根据最小多 ms 设置为“00 冶 , 调用 t = 8 的工作模式, 计算校正子 项式求余式;将 琢 i 代入余式,求出 S i 。 余式求解电路 代入 滓1 ~ 滓8 参与运算。 当 P / E Cycles 大于9. 5 K小 系数,其取值为 1 或 0,e 的最大取值为 13,n 位码字全 S1 ~ S16 ,SiBM 运算从第 1 次迭代到第 8 次,钱氏搜索 于12. 5 K时,配置信号 ms 设置为“01冶 ,调用 t = 16 的 工作模式,计算校正子 S1 ~ S32 ,SiBM 运算从第 1 次迭 代到第 16 次,钱氏搜索代入 滓1 ~ 滓16 参与运算;当 P / E Cycles 大于12. 5 K小于22. 9 K时,配置信号 ms 设置为 “11冶 ,调用 t = 32 的工作模式, 计算校正子 S1 ~ S64 , 可用 LFSR 实现 [6] ,如图 3 所示,椎 e 为最小多项式的 部输入后,寄存器中的值就是余式的系数。 此时在第 一步求余式电路里面至多需要 13 个 FFM、13 个 FFA, 第二步需要 13 个 FFM、13 个 FFA。 计算一个校正子 S i ,至多需要 13 + 13 = 26 个 FFM、13 + 13 = 26 个 FFA。 资源消耗减为原来的 26 / ( n - 1) ,大大减少了校正子 第 4 期摇 摇 摇 摇 摇 摇 摇 谢蓉芳,等:纠错模式可配置的 NAND Flash BCH 译码器设计 计算模块的硬件消耗 [7] 。 355 无需求逆,且利用二元 BCH 码的奇数次迭代时迭代差 值为 0,进一步节省了迭代周期,只需要 t 个周期即可完 成迭代。 ms 信号纠错控制模块实现模式的配置,ms 信 号设置为 3 种模式,对应 3 种纠错能力,相应的 SiBM 运 算分别迭代到第 8 次、第 16 次和第 32 次。 SiBM 算法流 程图如图 5 所示,其算法的迭代步骤如下: 图 3摇 余式求解电路 为了加快译码速度,采用 8 位并行执行的 LFSR 电路计算校正子 [7] 。 每个时钟周期输入 8 位数据,通 过最小多项式的系数 椎 e 进行反馈,在 n / 8 个时钟周 期内计算出校正子。 8 位并行算法公式推导如下: 步骤 1摇 初始化:i = -1,d -1 = 1,d0 = S1 ,dq ( -1) = 1, 滓 ( -1) ( x)= 1,滓1 ( x)= 1,D ( -1) ( x)= 1; 步骤 2摇 计算 i = i+2,判断 d i 是否等于 0,若等于 0 则跳转到步骤 3,否则跳转到步骤 4; 步骤 3摇 计算: n-1 摇 摇 摇 摇 D ( i) ( x) = x2 D ( i -2) ( x) 摇 摇 S i = r( 琢 i )= 移r j( 琢 i ) j mod 椎 i( x)= j=0 i [ r0 +r1 琢 +…+r n-1 琢 ( n-1) i ] mod 椎 i( x)= { [ r0 +r1 琢 +…+r7 琢 ] 琢 7i i r2伊8-1 琢 ] 琢 7i r n-1 琢 ] 琢 7i n / 8-1 7 j=0 k=0 ( i) 伊8 ( i) 伊0 dq ( i) = dq ( i -2) +[ r8 +r8+1 琢 +…+ +…+[ r n-8 +r n-8+1 琢 i +…+ ( i) 伊( n-8) { 移 [ 移r8伊j+k( 琢 ) ] ( 琢 ) } mod 椎 i( x) k i 8j 由参考文献[2] 中式子(6 -31) 可知,关于校正子 的运算有:S2i = S 。 因此校正子计算时,只需要计算 t 2 i 个奇数次项校正子,再分别用 t 个 CFFM 计算对应的 t 个偶数项校正子 [8] 步骤 4摇 计算: 摇 摇 D ( i) ( x)= 滓 ( i) ( x) ;dq ( i) = d i } mod 椎 i( x)= i 滓 ( i +2) ( x) = 滓 ( i) ( x) i ,从而将校正子计算模块的运算量 减少了 50% 左右。 简化后的 8 位并行校正子计算电 路如图 4 所示。 摇 摇 滓 幂 (i+2) (x)= { dq (i-2) 滓(i) (x) +d i xD(i-2) (x)摇 (i = 1) dq (i-2) 滓(i) (x) +d i x2 D(i-2) (x)摇 (i>1) 步骤 5摇 计算下式,其中 L i+2 表示 滓 i +2 ( x) 最高次 L( i +2) d i +2 = 移 S i +1 -j 滓 (j i +2) j=0 步骤 6摇 检验 i 是否等于 2t-2,若相等,则停止迭 代,否则跳转到步骤 2。 图 4摇 简化的 8 位并行校正子计算电路 2. 2摇 错误位置多项式 滓( x) 错误位置多项式 滓( x) 如式(7) ,滓( x) 的求解电路 是 BCH 译码电路中最复杂的模块,由于需要大量的 FFM,其占用资源也最多。 经典的 滓( x) 求解算法为伯 利坎普-梅西算法( Berlekamp Massey,简称 BM 算法) , 该算法实现中涉及有限域的求逆运算,耗费大量硬件 图 5摇 SiBM 算法流程图 SiBM 算法 [10] 的电路图如图 6 所示,校正子计算 资源,且可纠错数为 t 的 BM 算法需要进行 2t 次迭代 值存储在寄存器 S i 中,错误位置多项式系数存放在寄 滓( x) = 1 + 滓1 x + 滓2 x2 + … + 滓 t x t 一个时钟周期到来时,对每个寄存器进行初始化;接下 运算。 (7) 采用简化的无求逆 BM 算法[9] ( SiBM),极大地缩 短了关键路径,可以快速地实现 滓( x) 的求解。 该算法 存器 滓 i 中,寄存器 D i 起中间缓存多项式系数作用,第 来每个时钟周期到来时,将两个校正子的值同时输入, 且将校正子寄存器 S i 的值向右移两位进行更新。 寄 成摇 都摇 信摇 息摇 工摇 程摇 大摇 学摇 学摇 报摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷 356 存器 S i 与寄存器 滓 i 中的值相乘,之后进行累加得到 提出一种 8 位并行、模式可配置、优化 FFM 的钱 结果记为 d i 。 当 d i 等于 0 时,d q 、滓 i 、D i 值不变,将寄 氏搜索算法 [13-14] 。 利用 ms 信号纠错控制模块实现模 时,将 d i 存储在寄存器 d q 中,将 滓 i 存储在寄存器 D i 用 t = 8、t = 16 和 t = 32 的工作模式,钱氏搜索分别代入 存器 D i 中的值向相邻高位移动两位;当 d i 不等于 0 中,将寄存器 d q 中的值与寄存器 滓 i 中的值相乘,然后 式的配置,ms 信号设置为“00冶 、“01冶 和“11冶 ,分别调 滓1 ~ 滓8 、滓1 ~ 滓16 和 滓1 ~ 滓32 参与运算。 其电路图如图 把向右移动两位后的寄存器中 D i 的值与 d i 相乘,接 8 所示,此电路结构最多需要 9t = 288 个 FFM,乘法器 代 t 个时钟周期后,寄存器 滓 i 中的值即为错误位置多 控制纠错模式,m i 信号控制参与运算的 滓 i ,实现模式 下来将两个值相加,获得的结果用来更新 滓 i 的值。 迭 项式系数。 优化后,消耗的资源、功耗会大量减少。 通过 ms 信号 可配置。 二进制 BCH 码(8640,8192,32) 是二进制本 原 BCH 码(16383,15935,32) 的缩短码,故不需要遍历 所有元素,搜索位可以从 16383 位降低到 8640 位,在 钱氏搜索时直接从第 7743 位开始,经过 t 个 CFFM 得 到 寄 存 器 的 初 始 化 值 分 别 为: 琢7743 滓1 、 琢7743伊2 滓2 、 琢7743伊3 滓3 、……、琢7743伊t 滓 t ,初始化完成后,以 8 位并行方 式搜索错误位置 [15] ,当第 i 位出错时,钱氏搜索的结 果输出为“0冶 ,将该位上的值取反,即可纠正错误。 此 电路结构最长在 8640 / 8 = 1080 个时钟周期后,即可完 成整个错误位置的搜索。 图 6摇 SiBM 算法的电路图 2. 3摇 错误模式 E( x) 错误模式计算采用钱氏搜索电路实现,其基本原 理是利用错误位置多项式的根,来确定错误的位置。 钱氏搜索算法的思路是从高位开始逐位校验输出,它 的特点是不用等待所有的差错数验证完、纠错好后才 解码输出,而是可以逐位解码,从高到低解码输出,大 大减少译码的延时。 串行钱氏搜索电路如图 7 所示。 图 8摇 并行钱氏搜索电路 3摇 设计仿真与验证 设计的纠错电路使用 Verilog 语言完成 RTL 级设 计,用 Xilinx Vivado 软件完成仿真, 仿真波形结果如 图 7摇 串行钱氏搜索电路 串行钱氏搜索电路需要 t 个 FFM 和 t 个 FFA,其 译码速度较慢,文献[10] 提出一种 8 位并行 BCH 译码 方案,相 比 于 串 行 结 构 速 度 大 幅 度 提 升, 但 没 有 对 FFM 进行优化,复杂度较大。 有限域 GF(2 14 ) 中,每个 FFM 约需要 100 个查找表( LUT) 。 若其中一个因数改 为常数 琢100 后,只需要 12 个 LUT,资源消耗减少到原 来的 12% , 不 同 常 数 的 乘 法 器, 资 源 消 耗 减 少 不 同 [11-12] 。 图 9 ~ 11 所示,其中 clk 为系统时钟,rst 为系统复位信 号, I _ data 为 输 入 数 据, out _ location 为 错 误 位 置。 图 9 ~ 11分别为纠错能力 t = 32、t = 16、t = 8 的仿真波 形图。 当 out_location 为“1冶 时,表明存入的数据和读 出的数据一致,无错误;当 out_location 为“0冶 时,表明 读出的数据产生了错误,从图 9 可知,存入数据的第 1 ~ 32位发生了错误。 同理, 图 10 的 第 1、2、3、4、9、 10、11、12、16、19、20、24、25、26、27、28 位发生了错误。 图 11 的第 1、3、4、5、6、7、8、10 位发生了错误。 经过大 量的随机错误模式的仿真表明该 BCH 译码器可以正 第 4 期摇 摇 摇 摇 摇 摇 摇 谢蓉芳,等:纠错模式可配置的 NAND Flash BCH 译码器设计 确纠正任意错误数量不超过 32、16、8 比特的数据。 357 4摇 结论 针对 NAND Flash 的可靠性和使用寿命,设计了模 式可配置的 BCH 译码电路结构。 在传统设计的基础 上,对 BCH 译码器各个模块进行了有效优化:(1) 硬 件开销略大于单纠错模式 t = 32 时硬件消耗,在低误 码率情况下,只调用部分电路,随着误码率增大,复用 误码率小的电路,实现硬件复用;(2) 校正子计算模块 求余式,8 位并行的设计,将求解一个校正子的 FFM 和 FFA 的资源消耗减少为原来的 26 / ( n -1) ,整个校 图 9摇 t = 32 仿真波形图 正子求解模块的资源消耗减少了 50% 左右。 提高了 计算速度,节约了电路功耗;(3) 错误模式的计算,采 用 8 位 并 行 的 钱 氏 搜 索 电 路 实 现, 且 将 FFM 改 为 CFFM 实现,极大地减少硬件消耗。 优化后的纠错能力 t = 8 的 BCH 译码器,校正子结 构、钱氏搜索结构分别节约了49. 1% 、64. 9% 的功耗, 纠错能力 t = 16 的 BCH 译码器,校正子结构、钱氏搜索 结构分别节约了34. 0% 、42. 4% 的功耗。 优化后的模 式可配置的译码器结构显著提高了纠错性能。 图 10摇 t = 16 仿真波形图 参考文献: [1] 摇 Micheloni R, Crippa L, Marell A. Inside NAND Flash Memories[ M] . Springer Netherlands,2010: 1-422. [2] 摇 Lin S, Costello D J. Error Control Coding, Second Edition[ M] . Prentice鄄Hall,Inc,2004:140-165. [3] 摇 Lin Y M, Yang C H, Hsu C H, et al. A MPCN鄄 图 11摇 t = 8 仿真波形图 进一步对优化的校正子结构,钱氏搜索结构进行 了功 耗 仿 真, 在 Vivado 下, 从 综 合 后 的 设 计 产 生 的 DCP 文件用于功耗的估计,在向量模式下,选择仿真 生成的 SAIF 文件,Report Power 会自动生成 XPE 功耗 估计所需文件。 结果如表 2 所示,3 种模式下的出错 位数均为 8 位,当采用 ms = “00冶 模式,校正子功耗为 0. 178 W,钱氏搜索结构功耗为0. 464 W,分别为 ms = “11冶 模 式 下 功 耗 的 50. 9% 、 35. 1% 。 此 外, 在 ms = “01冶 模式下,百分比分别为66. 0% 、57. 6% 。 参数 00 01 11 纠错 / 出错 8/8 16 / 8 32 / 8 校正子 钱氏搜索 功耗 / W 比例% 0. 231 66. 0 0. 178 50. 9 0. 35 100 功耗 / W 比例 / % 0. 762 57. 6 0. 464 1. 322 NAND Flash Memory Devices [ J] . IEEE Transac鄄 tions on Circuits & Systems II Express Briefs, 2011,58(10) :682-686. [4] 摇 Cai Y,Haratsch E F,Mutlu O,et al. Error patterns in MLC NAND flash memory: Measurement, char鄄 acterization,and analysis [ C] . Design, Automation & Test in Europe Conference & Exhibition. IEEE, 2012:521-526. [5] 摇 M Wang, N Deng, H Wu et al. Theory study and 表 2摇 校正子、钱氏搜索结构功耗 配置 Based Parallel Architecture in BCH Decoders for 35. 1 100 implementation of configurable ECC on RRAM memory[ J] . 15th Non鄄Volatile Memory Technology Symposium ( NVMTS) ,Beijing,2015:1-3. [6] 摇 C Fougstedt, K Szczerba P Larsson鄄Edefors. Low鄄 Power Low鄄Latency BCH Decoders for Energy鄄Effi鄄 cient Optical Interconnects [ J] . Journal of Light鄄 成摇 都摇 信摇 息摇 工摇 程摇 大摇 学摇 学摇 报摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 第 33 卷 358 wave Technology,2017,35(23) :5201-5207. [7] 摇 N Lin, S Cai, X Ma. Block Markov superposition [11] 摇 J Jung,I C Park,Y Lee. A 2. 4pJ / bit,6. 37Gb / s SPC鄄enhanced BC鄄BCH decoder in 65nm CMOS transmission of BCH codes with iterative hard鄄deci鄄 for NAND flash storage systems [ C] . 2018 23rd sion decoding[ C] . IEEE International Symposium on Information Theory ( ISIT) ,Aachen,2017:1598 -1602. [8] 摇 Y Wu. Generalized integrated interleaving BCH Asia and South Pacific Design Automation Confer鄄 ence( ASP鄄DAC) ,Jeju,2018:329-330. [12] 摇 D Kim,I Yoo,I C Park. Fast Low鄄Complexity Tri鄄 ple鄄Error鄄Correcting BCH Decoding Architecture codes[ C] . 2016 IEEE International Symposium on Information Theory ( ISIT) ,Barcelona,2016:1098 -1102. [9] 摇 P Chen,C Zhang,H Jiang,et al. High performance [ C] . IEEE Transactions on Circuits and Systems II: Express Briefs,2017. [13] 摇 H Yoo, Y Lee, I C Park. Low鄄Power Parallel Chien Search Architecture Using a Two鄄Step Ap鄄 low complexity BCH error correction circuit for proach [ J ] . IEEE Transactions on Circuits and SSD controllers[ C] . 2015 IEEE International Con鄄 ference on Electron Devices and Solidv鄄State Cir鄄 Systems II: Express Briefs, 2016, 63 ( 3 ) : 269 273. cuits( EDSSC) ,Singapore,2015:217-220. [14] 摇 蔡 二 龙. 并 行 BCH 编 解 码 的 快 速 实 现 方 法 daptive鄄Rate Error Correction Scheme for NAND [15] 摇 B Park,J Park,Y Lee. Area鄄optimized Fully鄄flexi鄄 [10] 摇 CHEN T H,Hsiao Y Y,HSING Y T,et al. An A鄄 Flash Memory [ C] . VLSI Test Symposium,2009. VTS'09. IEEE,2009:53-58. [ D] . 西安:西安电子科技大学,2015. ble BCH Decoder for Multiple GF Dimensions [ C] . IEEE Access,2018. Design of Mode Configurable NAND Flash BCH Decoder XIE Rong鄄fang1 ,摇 LI Zi鄄fu2 ,摇 YE Song1 摇 摇 (1. College of Communacation Engineering,Chengdu University of Information Technology, Chengdu 610225,China;2. Institute of Mi鄄 croelectronics of the Chinses Academy of Sciences, Beijing 100049,China) Abstract:Aiming at the reliability and lifetime of the NAND Flash memory, a mode configurable BCH decoding circuit structure is implemented. The structure achieves three modes of (8640,8192,32) , (8416,8192,16) , (8304,8192,8) BCH decoding circuit which can be configured according to the memory bit error rate( BER) , the power consumption is reduced by rationally configuring the internal resources of the decoding circuits. The decoder solves syndromes by re鄄 mainder, and adopts simplified inversionless Berlekamp Massey ( SiBM) iterative algorithm and Constant Finite Field Multiplier ( CFFM) in the parallel Chien search algorithm. Compared with the single mode of BCH code (8640, 8192, 32) , the proposed design which significantly reduces the power consumption in the case of low BER decoder sacrificing only a few hardware resources consumption. For the optimized BCH decoder of error correcting capability t = 8, the Syn鄄 drome structure, Chien search structures are of 49. 1% ,64. 9% power saving. And for the BCH decoder of t = 16, the power saving are 34. 0% and 42. 4% respectively. The decoder is based on the Xilinx Zynq series chip and the circuit simulation and verification is done by Xilinx Vivado. Keywords:microelectronics and solid state electronics;integrated circuit;NAND Flash;mode configurable;BCH decod鄄 er;low power