俊瑶先森

OLAP之Doris编译

发表于 2022-03-09 更新于 2024-01-13 阅读次数：

背景

OLAP下，我选doris，来试试如何安装。

编译

6cm3Lk
根据自己的情况选择对应的环境，我这里按照0.15为例

docker pull apache/incubator-doris:build-env-for-0.15.0

运行镜像

方式一：提前下载好源码，挂载到镜像中

1	docker run -it -v /your/local/.m2:/root/.m2 -v /your/local/incubator-doris-DORIS-x.x.x-release/:/root/incubator-doris-DORIS-x.x.x-release/ apache/incubator-doris:build-env-for-0.15.0

这条命令挂载了源码，和maven的本地库，可以避免一些包每次都要下载，其中：
/your/local/.m2：本地maven仓库的地址
/your/local/incubator-doris-DORIS-x.x.x-release/：源码的路径
/root/incubator-doris-DORIS-x.x.x-release/：源码挂载后的目录名
apache/incubator-doris:build-env-for-0.15.0：刚才拉取的环境

方式二：在docker中拉取源码

① docker run -it apache/incubator-doris:build-env-for-0.15.0

②wget wget https://dist.apache.org/repos/dist/dev/incubator/doris/0.15/0.15.0-rc04/apache-doris-0.15.0-incubating-src.tar.gz    

这个地址只是0.15版本的doris

或者还可以视同git拉取指定版本的源码

git clone --branch branch-0.15 https://github.com/apache/incubator-doris.git

如果是最新主干版本代码,使用 apache/incubator-doris:build-env-latest进行编译
2grt5S

更改jdk版本

从 build-env-1.3.1 的docker镜像起，同时包含了 OpenJDK 8 和 OpenJDK 11，并且默认使用 OpenJDK 11 编译。请确保编译使用的 JDK 版本和运行时使用的 JDK 版本一致，否则会导致非预期的运行错误。你可以使用在进入编译镜像的容器后，使用以下命令切换默认 JDK 版本：
切换到 JDK 8：

1
2
3

$ alternatives --set java java-1.8.0-openjdk.x86_64
$ alternatives --set javac java-1.8.0-openjdk.x86_64
$ export JAVA_HOME=/usr/lib/jvm/java-1.8.0

切换到 JDK 11：

1
2
3

$ alternatives --set java java-11-openjdk.x86_64
$ alternatives --set javac java-11-openjdk.x86_64
$ export JAVA_HOME=/usr/lib/jvm/java-11

编译

1	sh build.sh

注意:
如果你是第一次使用 build-env-for-0.15.0 或之后的版本，第一次编译的时候要使用如下命令：
sh build.sh --clean --be --fe --ui
这是因为 build-env-for-0.15.0 版本镜像升级了 thrift(0.9 -> 0.13)，需要通过 –clean 命令强制使用>新版本的 thrift 生成代码文件，否则会出现不兼容的代码。

注：编译整个过程大概2小时以上，是极为痛苦的。T T，本人编译超过10次以上，2台电脑开docker编译，编译过程，遇到多次fail退出，大部分问题是docker内存不足导致，所以务必将docker的内存调到至少10GB，否则一旦编译内存不足就会失败。

2017款macbook pro 编译成功
2022款macbookpro M1 pro 编译失败

痛哭流涕，终于编译完成，见到这个编译完成命令。

eBvN36

进入到output目录，可以看到be，fe，udf三个文件夹，接下来就是安装部署了

我们看到整个doris社区很多人想体验Doris进行尝鲜，但是苦于环境以及服务器的限制，那么我们来制作一下Doris的镜像及尝试用docker搭建集群

OLAP之Doris的docker镜像和集群搭建

OLTP VS OLAP

发表于 2022-03-05 更新于 2024-01-13 阅读次数：

Sf0NUr

背景

在OLAP的选型上，陆陆续续有1年多了。做个总结。

OLTP

OLTP：On-Line Transaction Processing，联机（线上）事务处理。指处理事务型应用的场景，事务这个词的英文是 Transaction，其实就是交易（一般指金融交易）。这种场景有个最常见的业务，就是转账，从一个账户转到另一个账户。一般要求实时处理，对响应的速度要求很高，并且要保证事务的 ACID 特性。面向 OLTP 场景的数据库管理系统就叫做 OLTP DBMS。一般涉及大量的增删改操作。

OLTP 与 NSM(N-ary storage model)行存储： OLTP 的场景一般需要一次操作一个对象的多个属性，比如查询一个人的姓名、银行账号、余额等。而 NSM 这种将一个对象的多个属性连续存储的行式存储模型就很适合 OLTP 的场景了。同时 NSM 也适用于写密集场景，一个对象的写入只需要一次写磁盘就能完成。

传统的关系数据库都是面向 OLTP 场景的，如 Oracle 通常用在银行系统、医疗系统等对操作的响应速度要求很高的场景。

OLAP

OLAP：On-Line Analytical Processing，联机（线上）分析处理。指处理分析型应用的场景。进入大数据时代，数据多了，计算机计算能力增强，并出现了分布式存储、分布式计算等技术，人们开始对大量的数据有分析的需求了。这种分析型的场景一般需要查询大量的数据进行分析，对速度的要求没有 OLTP 高，每天晚上或每周做一次，慢慢分析就好了。一般涉及大量的查询操作，对数据的修改需求不高。

列存数据库等就是面向 OLAP 的，因此，列式存储在大数据时代这种分析型场景中火了一把，如数据仓库 HBase。

OLAP的12准则

准则1 OLAP模型必须提供多维概念视图
准则2 透明性准则
准则3 存取能力准则
准则4 稳定的报表能力
准则5 客户/服务器体系结构
准则6 维的等同性准则
准则7 动态的稀疏矩阵处理准则
准则8 多用户支持能力准则
准则9 非受限的跨维操作
准则10 直观的数据操纵
准则11 灵活的报表生成
准则12 不受限的维与聚集层次

OLAP场景的关键特征

大多数是读请求
数据总是以相当大的批(> 1000 rows)进行写入
不修改已添加的数据
每次查询都从数据库中读取大量的行，但是同时又仅需要少量的列
宽表，即每个表包含着大量的列
较少的查询(通常每台服务器每秒数百个查询或更少)
对于简单查询，允许延迟大约50毫秒
列中的数据相对较小：数字和短字符串(例如，每个URL 60个字节)
处理单个查询时需要高吞吐量（每个服务器每秒高达数十亿行）
事务不是必须的
对数据一致性要求低
每一个查询除了一个大表外都很小
查询结果明显小于源数据，换句话说，数据被过滤或聚合后能够被盛放在单台服务器的内存中

场景示例:

市场营销：当 OLAP 用于营销时，它使营销分析师能够更多地了解他们的客户、哪些产品是有价值的、区域和季节性趋势等等。
医疗保健：医疗保健数据仓库使用 OLAP 可用于预测健康风险和结果、与保险公司共享信息并生成报告。
金融服务：公司首席财务官可以利用 OLAP 多维数据集为他们提供将数据转换为所需信息的方法，同时允许他们轻松生成定制财务报告。

OLAP分析的分类：ROLAP与MOLAP

ROLAP（RelationalOLAP）

这是一种通过在RDMS后端服务和客户前端之间建立中间层的OLAP实现方式。通过RDMS来存储和管理数据仓库数据，而通过OLAP中间件来实现多维数据上的操作映射为标准关系操作。其优点在于可以利用RMDS中本身固有的一些功能,例如: 本质上来讲 “slicing and dicing”的操作等同于在SQL语句中添加“WHERE”子句。

MOLAP（MultidimensionalOLAP）

这些服务器通过基于数据的多维存储引擎，支持数据的多维视图。能够将多维视图直接映射到数据立方体数组结构。其数据都存在多维数据立方体（multidimensional cube）中，以专有的格式存储。使用数据立方体的优点是能够对预计算的汇总数据进行快速索引，尤其是对”slicing and dicing”有着非常优秀的支持。

HOLAP（HybridOLAP）混合型OLAP

HOLAP结合了ROLAP和MOALP技术，从而继承了ROLAP的伸缩性强和MOLAP快速计算的优点。例如HOLAP利用多维数据集技术来提高性能，而当需要详细数据时，HOALP可以从多维数据“钻取”到底层的RDMS中去获取数据。

名称	描述	细节数据存储位置	聚合后的数据存储位置
ROLAP(Relational OLAP)	基于关系数据库的OLAP实现	关系型数据库	关系型数据库
MOLAP(Multidimensional OLAP)	基于多维数据组织的OLAP实现	数据立方体	数据立方体
HOLAP(Hybrid OLAP)	基于混合数据组织的OLAP实现	关系型数据库	数据立方体

对比

o0tsmp

联机分析处理（OLAP,On-line Analytical Processing），数据量大，DML少。使用数据仓库模板
联机事务处理（OLTP,On-line Transaction Processing），数据量少，DML频繁。使用一般用途或事务处理模板

OLTP与OLAP 不同的是，OLTP系统强调数据库内存效率，强调内存各种指标的命令率，强调绑定变量，强调并发操作，强调事务性。
OLAP系统则强调数据分析，强调SQL执行时长，强调磁盘I/O，强调分区。

总的来说，可以认为OLAP的产生是因为一些特性OLTP无法满足，所以一些OLTP异变了一些特性，变成了OLAP，OLAP可以看做是OLTP的一种延展，一个让OLTP产生的数据发现价值的过程。

OLAP数据库选型

n2LrFd
常见的OLTP如，mysql、PostgreSQL、Oracle等，不需要多讲，但是OLAP随着这些年层出不穷，我们汇总选型一下，并看看他们的特点。

目前市面上主流的开源OLAP引擎包含不限于：Hive、Spark SQL、Presto、Kylin、Impala、Druid、Clickhouse、Greeplum等，可以说目前没有一个引擎能在数据量，灵活程度和性能上做到完美，用户需要根据自己的需求进行选型。

Hive
Spark SQ
Presto
Elasticsearch
Impala
Druid
Clickhouse
Greeplum
Kylin
Drios
StarRocks

按数据量划分

CM5qTF

按建模类型划分

1、ROLAP

Elasticsearch
solr
ClickHouse
Druid
GreenPlum
Drios
StarRocks

2、MOLAP

3、HOLAP

Flink CDC关于source和sink全调研及实践

发表于 2022-03-04 更新于 2024-01-13 阅读次数：

I3OVQU

背景

我们之前在Flink CDC同步数据实践快速的体验了从mysql和pg获取数据，最后在es打成宽表数据。但是对于其他的数据库如sql server等source表的实际能力还未可知，本次就一次的调研实践一次。

安装：从代码编译

正常情况下直接下载编译好的即可

因为flink cdc新特性在master分支，并且没有release，比如新版sql server在master,未发布release-2.2,我们来从源码编译

1
2
3

git clone https://github.com/ververica/flink-cdc-connectors.git
cd flink-cdc-connectors
mvn clean install -DskipTests

常见FlinkSql命令

首先你得启动吧

// 启动集群
bin/start-cluster.sh
// 停止集群
bin/stop-cluster.sh

// 启动集群后，进入flink sql 客户端命令行界面
bin/sql-client.sh embedded

// 表格模式
SET 'sql-client.execution.result-mode' = 'table';
// 变更日志模式
SET 'sql-client.execution.result-mode' = 'changelog';
// Tableau模式
SET 'sql-client.execution.result-mode' = 'tableau';

// 查看当前运行的jobs
bin/flink list
// 查看所有的任务，包括失败、成功、取消的
bin/flink list -a
// 取消命令
bin/flink cancel jobID

SHOW CATALOGS;
SHOW DATABASES;
SHOW TABLES;
SHOW VIEWS;
SHOW FUNCTIONS;
SELECT CURRENT_TIMESTAMP;
RESET table.planner;
RESET
quit

Source表

DataGen ☑️ 测试通过

在flink 1.11中，内置提供了一个DataGen 连接器，主要是用于生成一些随机数，用于在没有数据源的时候，进行流任务的测试以及性能测试等。

CREATE TABLE datagen (
 f_sequence INT,
 f_random INT,
 f_random_str STRING,
 ts AS localtimestamp,
 WATERMARK FOR ts AS ts
) WITH (
 'connector' = 'datagen',
 -- optional options --
 'rows-per-second'='5',
 'fields.f_sequence.kind'='sequence',
 'fields.f_sequence.start'='1',
 'fields.f_sequence.end'='1000',
 'fields.f_random.min'='1',
 'fields.f_random.max'='1000',
 'fields.f_random_str.length'='10'
);

select * from datagen;

filesystem ☑️ 测试通过

CREATE TABLE employee_information (
    emp_id INT,
    name VARCHAR,
    dept_id INT
) WITH (
    'connector' = 'filesystem',
    'path' = '/path/to/something.csv',
    'format' = 'csv'
);

SELECT * from employee_information WHERE dept_id = 1;

mongodb ☑️ 测试通过

先决条件：副本集要求，你懂的

CREATE TABLE offices (
   _id STRING,
   name STRING,
   addr STRING,
   status BOOLEAN,
   PRIMARY KEY (_id) NOT ENFORCED
 ) WITH (
   'connector' = 'mongodb-cdc',
   'hosts' = '10.8.99.44:27011',
   'username' = 'root',
   'password' = '@junyao2022',
   'database' = 'biocitydb',
   'collection' = 'offices'
 );

select * from offices;

mysql ☑️ 测试通过

先决条件：binlog开启，你懂的

CREATE TABLE products (
  id INT,
  name STRING,
  description STRING
) WITH (
  'connector' = 'mysql-cdc',
  'hostname' = 'localhost',
  'port' = '3306',
  'username' = 'root',
  'password' = '123456',
  'database-name' = 'mydb',
  'table-name' = 'products'
);

postgres ☑️ 测试通过

CREATE TABLE shipments (
  shipment_id INT,
  order_id INT,
  origin STRING,
  destination STRING,
  is_arrived BOOLEAN
) WITH (
  'connector' = 'postgres-cdc',
  'hostname' = 'localhost',
  'port' = '5432',
  'username' = 'postgres',
  'password' = 'postgres',
  'database-name' = 'postgres',
  'schema-name' = 'public',
  'table-name' = 'shipments'
);

sql Server ☑️ 测试通过

先决条件：需要先开启sql server的cdc能力:EXEC sys.sp_cdc_enable_db;

CREATE TABLE material (
    FMATERIALID INT,
    FNUMBER STRING,
    PRIMARY KEY (FMATERIALID) NOT ENFORCED
  ) WITH (
    'connector' = 'sqlserver-cdc',
    'hostname' = '10.8.99.31',
    'port' = '1433',
    'username' = 'sa',
    'password' = 'XXXsa1999$',
    'database-name' = 'dkw',
    'schema-name' = 'dbo',
    'table-name' = 'T_BD_MATERIAL'
  );

select * from material;

Sink表

elasticsearch

http验证通过 ✅
https、ssl,带证书未知如何配置 ❎

CREATE TABLE enriched_orders (
  order_id INT,
  order_date TIMESTAMP_LTZ(3),
  customer_id INT,
  price DECIMAL(10, 5),
  product ROW<name STRING, description STRING>,
  order_status BOOLEAN,
  customer_name STRING,
  customer_address STRING,
  PRIMARY KEY (order_id) NOT ENFORCED
) WITH (
 'connector' = 'elasticsearch-7',
 'hosts' = 'http://localhost:9200',
 'index' = 'enriched_orders',
 'username' = 'root',
 'password' = 'password'
);

Doris

CREATE TABLE doris_test_sink (
   id INT,
   name STRING
) 
WITH (
  'connector' = 'doris',
  'fenodes' = 'localhost:8030',
  'table.identifier' = 'db_audit.doris_test',
  'sink.batch.size' = '2',
  'sink.batch.interval'='1',
  'username' = 'root',
  'password' = ''
)

执行插入Sink表

INSERT INTO department_counts
SELECT 
   dept_id,
   COUNT(*) as emp_count 
FROM employee_information;

从线上事故看mongodb事务ACID强弱

发表于 2022-02-21 更新于 2024-01-13 阅读次数：

在未使用mongodb副本集引入事务能力前，我们来通过一些例子看看mongodb在没有事务的情况下的影响，并再一次从案例去验证强事务的系统是否适合使用mongodb，以及判断在引入副本集后实际的事务能力。

事务的原子性(Atomic)

背景

某一天，突然发现，我们的一个上传excel需求，上传后提示报错，但是数据正常上传成功了。

数据结构如下：文件表 + 订单表，订单表关联文件表ID

文件表


{
    "_id": ObjectId("61ea6ee776d12fd2c261c105"),
    "fileName": "2.xlsx",
    "creator": ObjectId("5eba176654c70a2bc8df0719"),
    "uploadDate": ISODate("2022-01-21T08:29:27.823Z"),
    "creatorName": "张云",
}

订单表

{
    "_id": ObjectId("61ea6d78703190d0efca84df"),
    "org": "DKWSH",
    "contact": "翁文斌",
    "salesId": ObjectId("5ef3214dc15bc674d6976365"),
    "remark": null,
    "items": [
        {
            "detailId": "MX21305683",
            "materialName": "PerCP anti-human CD11c",
            "spec": "100 tests",
            "itemNum": "337234",
            "batchNumber": "B332675",
            "amount": NumberInt("6"),
            "manufacturer": "Biolegend"
        }
    ],
    "file": ObjectId("61ea6ee776d12fd2c261c105"),
}

// 创建文件
const file = await ctx.model.Delivery.File.create(files)

// 创建订单
const orders = await ctx.model.Delivery.VirtualOrder.create(orders)

// 发送通知
const sendRes = await ctx.app.noticeQueue.addBulk(datas)

排查

经过日志排查，发现 创建文件 创建订单都成功了，但是发送通知失败了，错误原因为redis版本过低导致异常无法正常发送。

理论

什么是事务的原子性

一个事务包含多个操作，这些操作要么全都执行，要么全都不执行。
实现事务的原子性，要支持回滚操作，在某个操作失败后，回滚到事务执行前的状态。

结论

我们可以理解为 创建文件 创建订单 发送通知这三个步骤是一个事务，要么全部成功，要们全部不执行，
当发送通知失败的时候，我们应当将创建文件 创建订单进行回滚，从而达到 创建文件 创建订单 发送通知这三个步骤都不执行。

事务的隔离性(Isolation)

背景

某一天，销售反馈，我的确认操作无法提交了。

数据表如下：订单表 + 发票表 + 发票池表

订单确认操作过程
1、校验订单是否开过发票和发票池。
2、创建发票池表数据，而后创建发票表。

发票表中invoiceNum具有唯一索引

// 1.校验是否开过发票和发票池

// 2.创建开票池
const invoiceItemOpts = {
    org: 'XXX',
    order: 'XXX',
    detailId: 'XXX',
    materialName: 'XXX',
  }
const invoiceItems = await ctx.model.Delivery.InvoiceItem.create(
  invoiceItemOpts
)

// 3.创建发票
let invoiceOpts = {
  invoiceNum: ctx.helper.createInvoiceNum('P', parseInt(next_invoice_num)),
}
const invoice = await ctx.model.Delivery.Invoice.create(invoiceOpts)

排查

经过排查，我们先发现数据库发票编号invoiceNum唯一索引报错了。说明多个请求拿到了同一个invoiceNum发票编号

2022-02-21 10:58:17,497 ERROR 30265 [-/116.233.76.38/-/25ms POST /orders/6212ff47fa481876394ee21c/status] error_handler: MongoError: E11000 duplicate key error collection: biocitydb.sys_invoices index: invoiceNum_1 dup key: { invoiceNum: "P2202211321" }

我们继续排查发现一共有2次请求，拿到了同一个invoiceNum发票编号，说明出现了并发问题。

第一次请求，销售员王璐成功使用P2202211296发票编号创建了发票，未遇到唯一索引

第二次请求，销售员沈梦婷，因为在几乎同一时刻与销售员王璐发出请求，发票编号未有事务加锁，导致发生了脏读

注意看请求的时间与invoiceNum，发现请求时间几乎同一时刻，相同的发票编号。

2022-02-21 10:57:38,020 INFO 30265 发票invoiceOpts {
  invoiceNum: 'P2202211296'
  saleName: '王璐',
}

2022-02-21 10:57:38,022 INFO 30265 发票invoiceOpts {
  invoiceNum: 'P2202211296',
  saleName: '沈梦婷',
}

并发脏读图解：

T1 王璐	T2 沈梦婷
（1）读发票编号P2202211296
（2）创建发票池	（1）读发票编号P2202211296 -> T1未完成就读取现在的发票编号，导致脏读
（3）创建发票	（2）创建发票池
（4）更新当前发票自增编号	（3）创建发票
	（4）更新当前发票自增编号

理论

脏读
事务A修改了一个数据，但未提交，事务B读到了事务A未提交的更新结果，如果事务A提交失败，事务B读到的就是脏数据。
不可重复读
同一事务中，对于同一份数据读取到的结果不一致。如事务B在事务A提交前后读取的数据不一致。
原因：事务并发修改记录。
解决：加锁。但这会导致锁竞争加剧，影响性能。另一种方法是通过MVCC可以在无锁的情况下，避免不可重复读。
幻读
同一事务中，同一个查询多次返回的结果不一致。如事务B在事务A提交前后查询到的数据记录变多了。
原因：并发事务增加记录。
解决：串行。

事务的隔离级别从低到高有：

Read Uncommitted

最低的隔离级别，什么都不需要做，一个事务可以读到另一个事务未提交的结果。所有的并发事务问题都会发生。

Read Committed

只有在事务提交后，其更新结果才会被其他事务看见。可以解决脏读问题。

Repeated Read

在一个事务中，对于同一份数据的读取结果总是相同的，无论是否有其他事务对这份数据进行操作，以及这个事务是否提交。可以解决脏读、不可重复读。

Serialization

事务串行化执行，隔离级别最高，牺牲了系统的并发性。可以解决并发事务的所有问题。

结论

2个并发请求，导致出现事务的脏读问题，2个并发同时拿到了同一个自增编号（发票编号）,mongodb支持的锁机制弱，无法使用悲观锁,虽然乐观锁无法解决脏读，但是可以使用乐观锁+事务回滚。可查看了没有mongodb事务的支持下，我这种思路的解决：分布式锁设计实践

出现脏读问题后，因为数据库有唯一索引，创建失败后，出现多表操作的原子性问题。

事务的一致性（Consistency）

todo

事务的持久性（Durability）

todo

monstache实践mongodb同步es

发表于 2022-02-08 更新于 2024-01-13 阅读次数：

monstache实践

背景

我们已经通过 Enterprise Search 企业搜索实践快速搭建起了搜索引擎，
并且通过评估 mongodb同步elasticSearch方案评估,了解到社区和行业主流monstache同步方案。

我们按照Enterprise Search 企业搜索实践，先创建Engine Schema,提前设置好mapping字段。

设置字段
IRy42Q
查看字段数据
BivxFf

我们来实践一下monstache

monstache配置

假设我们已经有了mongodb和elasticsearch，我们来配置同步设置

# 启用调试日志
verbose = true

mongo-url = "mongodb://root:<password>@10.8.99.44:27011/?authSource=admin" 
elasticsearch-urls = ["https://<host>:9200"]

# index GridFS files inserted into the following collections
file-namespaces = ["biocitydb.materials"]
# 此选项允许你直接将集合从 MongoDB 复制到 Elasticsearch。 Monstache 允许过滤实际索引到 Elasticsearch 的数据，因此你不一定需要复制整个集合。 在上面，我们同步数据库 test 中的 mycol 集合。
direct-read-namespaces = ["biocitydb.materials"]
# 实时通知以告知 Elasticsearch 所有写入文档，包括指定集合中的删除和更新。
change-stream-namespaces = ["biocitydb.materials"] 

namespace-regex = '^biocitydb\.materials$'

# 压缩请求到es
gzip = true

# generate indexing statistics
stats = true

# index statistics into Elasticsearch
index-stats = true

elasticsearch-user = "elastic"
elasticsearch-password = "<password>"

#monstache最多开几个线程同步到es,默认为4
elasticsearch-max-conns = 2 

# 证书文件
elasticsearch-pem-file = "/monstache/client.crt.pem"
elasticsearch-validate-pem-file = false

# mongodb删除集合或库时是否同步删除es中的索引
dropped-collections = true
dropped-databases = false

# 更新es而不是覆盖
index-as-update = true

replay = false

# 记录同步位点，便于下次从该位置同步
resume = true

# do not validate that progress timestamps have been saved
resume-write-unsafe = false

# 需要es ingest-attachment 
index-files = false

# turn on search result highlighting of GridFS content
file-highlighting = true

# 高可用模式下需要配置集群名称，集群名称一样的进程会自动加入一个集群内,这个是monstance的集群，不是es
cluster-name = '<name>'

# do not exit after full-sync, rather continue tailing the oplog
exit-after-direct-reads = false

# 生产环境以日志文件输出，默认以命令行输出
# [logs]
# info = "./logs/info.log"
# warn = "./logs/wran.log"
# error = "./logs/error.log"
# trace = "./logs/trace.log"

# mapping定义mongodb数据到es的索引名称和type，namespace是库名.集合名
# 这里需要注意一件事：最好是在es中创建好你要的索引结构，关闭es的自动创建索引功能
[[mapping]]
namespace = "biocitydb.materials" 
index = "materials"
 
[[script]]
namespace = "biocitydb.materials"
path = "./scripts/materials.js"
routing = true

[logs]: 记录错误信息
[[mapping]]: 改写默认的索引名称。在上面我们的索引名称为 mongodb
**[[script]]**：是一种中间件，能够转换，删除文档或定义索引元数据。可以使用 Javascript 或 Golang 作为插件编写该中间件。

用于转换文档的脚本示例

module.exports = function (doc) {
    delete doc._id;
    //TODO
    return doc;
}

同步完后，我们来看看同步的数据情况

正确同步了所有数据
8wwon6
正常搜索
nV8qgF

我们同时也评估了使用flinkCDC同步，可查看
Flink CDC实践mongodb到es

SSL/TLS 加密传输与数字证书

发表于 2022-01-29 更新于 2024-01-13 阅读次数：

背景

配置elastic系列产品时,卡了2天在了Enterprise Search 企业搜索实践的证书ssl配置，说明对证书还是有不理解。数字证书、HTTPS、SSL/TLS、加密… 无数的词汇在脑海中席卷而来，这都是些啥啊？为了解答这些困惑，今天这篇文章，我将借此带大家走进 SSL/TLS 加密传输与数字证书，希望从此刻开始，令人眼花缭乱的证书格式不会再成为你的困扰。

本篇着重点在于自签证书

证书与加密

对于数字证书的第一印象，通常来自于 HTTPS 协议。大家都知道HTTP 协议是不需要数字证书的。对于HTTPS协议的理解，可以简单粗暴的认为它约等于 HTTP + SSL，所以，从这个协议诞生的那一刻起，加密算法与数字证书就密不可分，因为从本质上来讲，HTTPS协议就是为了解决如何在不安全的网络上、安全地传输数据的问题。事实上，HTTPS 协议的实现，背后依托 SSL/TLS、数字签名、对称/非对称加密等一系列的知识。也许，在读到这篇文章以前，对于 HTTPS 的理解，永远止步于 HTTP + SSL。那么，我希望下面的解释可以帮助到你，通常，HTTPS 认证可以分为单向认证和双向认证两种，这里我们以为以单向认证为例，来说明数字证书与加密算法两者间的联系：

S3HoH1

如图所示，HTTPS 单向认证流程主要经历了下面 7 个步骤，它们分别是：
客户端发起 HTTPS 请求
服务器返回证书信息，本质上是公钥
客户端/浏览器通过 CA 根证书验证公钥，如果验证失败，将会收到警告信息
客户端随机生成一个对称密钥 Key，并利用公钥对 Key 进行加密
服务器使用私钥解密获得对称密钥 Key
通过对称密钥 Key 对确认报文进行加密
双方开始通信

由此，我们可以看出，整个 HTTPS 单向认证流程，实际上是结合了 对称加密 和 非对称加密 两种加密方式。
其中，
非对称加密主要用于客户端、服务器双方的“试探”环节，即证书验证部分；
对称加密主要用于客户端、服务器双方的“正式会话”阶段，即数据传输部分。
关于对称加密和非对称加密两者的区别，我们可以从下面的图中找到答案：
yyhKCA

因为客户端持有服务器端返回的公钥，所以，两者可以使用 非对称加密 对随机密钥 Key 进行加/解密。
同理，因为客户/服务器端使用相同的随机密钥，所以，两者可以使用 对称加密 对数据进行加/解密。

我们来看看天猫这个网站，来看看客户端是怎么对服务端的证书进行校验的。

48bvJ1

事实上，浏览器在对服务器端返回的证书进行校验时，主要关心下面这些信息：

判断域名、有效期等信息是否正确：这些信息在证书中是公开的，可以非常容易地获得。
判断证书是否被篡改：需要由 CA 服务器进行校验。
判断证书来源是否合法：每一份签发的证书都可以按照证书链找到对应的根证书，所以，可以通过操作系统中安装的根证书对证书的来源进行验证。
判断证书是否被吊销：需要由 CRL（Certificate Revocation List，即证书注销列表）和 OCSP（Online Certificate Status Protocol, 即在线证书状态协议）来实现。

这里引入了一个新的概念，即 CA（Certification Authority）。那么，什么是 CA 呢？通俗来讲，CA 就是一个负责签发、认证和管理证书的机构。可能有朋友会想，客户端和服务器端通过非对称加密相互校验证书就好了啊，为什么还需要这样一个第三方的机构呢？事实上，这相当于一种担保/信用体系，因为服务器端的公钥对任何人来说都是可见的，我们来考虑这样一种情形。假设客户端从服务器端获得了某个公钥，并且它认为这个公钥是可信的，此时，有一个不怀好意的中间人截获了这个公钥，它如法炮制伪造了一个相同的公钥并返回，那么，此时客户端会如何看待这个公钥呢？虽然这个中间人不可能伪造出与服务端相同的私钥，可这无疑会让客户端感到困惑，因为它没有办法判断这个证书的真假。

证书创建

目前，全球主流的 CA 机构有Comodo、Symantec、GeoTrust、DigiCert、Thawte、GlobalSign、RapidSSL 等，其中 Symantec、GeoTrust 都是 DigiCert 机构的子公司，占据数字证书体系中的垄断地位.实际操作中，通常有自签名证书和CA证书两种，两者唯一的差别就在于权威性不同.

CA证书

就是前往Comodo、Symantec、GeoTrust、DigiCert、Thawte、GlobalSign、RapidSSL进行签署，像阿里云腾讯云都有提供相关的证书申请。

自签名证书

所谓自签名证书，其实就是自建一个CA，然后利用这个CA对证书进行签名。
openssl

-new    :说明生成证书请求文件
-x509   :说明生成自签名证书
-key    :指定已有的秘钥文件生成秘钥请求，只与生成证书请求选项-new配合。
-newkey :-newkey是与-key互斥的，-newkey是指在生成证书请求或者自签名证书的时候自动生成密钥，
         然后生成的密钥名称由-keyout参数指定。当指定newkey选项时，后面指定rsa:bits说明产生
         rsa密钥，位数由bits指定。 如果没有指定选项-key和-newkey，默认自动生成秘钥。
-out    :-out 指定生成的证书请求或者自签名证书名称
-days   :证书的有效期限；
-config :默认参数在ubuntu上为 /etc/ssl/openssl.cnf, 可以使用-config指定特殊路径的配置文件
-nodes  :如果指定-newkey自动生成秘钥，那么-nodes选项说明生成的秘钥不需要加密，即不需要输入passphase.  
-batch  :指定非交互模式，直接读取config文件配置参数，或者使用默认参数值

创建根证书

用openssl x509来自签署。自签署时，使用“-req”选项明确表示输入文件为证书请求文件，否则将默认以为是证书文件，再使用“-signkey”提供自签署时使用的私钥。

// 生成私钥(key文件)
openssl genrsa -out ca.key 2048
// 使用私钥ca.key生成签名请求(csr文件) CSR 即证书签名申请（Certificate Signing Request）
openssl req -new -key ca.key -out ca.csr
// 使用签名请求生成根证书(crt文件)
openssl x509 -req -days 365 -in ca.csr -signkey ca.key -out ca.crt

或openssl req命令生成自签名证书。

// 生成私钥ca.key
openssl genrsa -out ca.key 2048
// 使用私钥ca.key请求并生成根证书pem格式
openssl req -x509 -new -nodes -key ca.key -sha256 -days 365 -out ca.pem

在这个过程中，OpenSSL 会要求我们提供下列信息：国家、省份、城市、组织以及全域名(FQDN)。在此之前，关于天猫的那个例子，实际上证书上的那些信息就是从这里来的。当我们有了这样一个自建的 CA 以后，我们就可以用这个自建的 CA 去签发证书，这就是自签名 CA 证书，如何生成这个证书呢？

签发证书
使用 CA 根证书签名服务器证书

// 生成私钥
openssl genrsa -out server.key 2048
// 生成证书请求文件
openssl req -new -key server.key -out server.csr
// 使用 CA 的根证书为服务器证书签名
openssl x509 -req -in server.csr -CA ca.pem -CAkey ca.key -CAcreateserial -out server.crt -days 365 -sha256

证书的编码格式

X.509 标准的证书文件具有不同的编码格式，一般包括 PEM 和 DER 两种。

PEM: Privacy Enhanced Mail 的缩写，以文本的方式进行存储。它的文件结构以 —–BEGIN XXX—–，并以 —–END XXX—– 结尾，中间 Body 内容为 Base64 编码过的数据。
例如，以 PEM 格式存储的证书结构大概如下：

-----BEGIN CERTIFICATE-----

Base64编码过的证书数据

-----END CERTIFICATE-----

一般 Apache 和 Nginx 服务器应用偏向于使用 PEM 这种编码格式。

DER: Distinguished Encoding Rules 的缩写，以二进制方式进行存储，文件结构无法直接预览，同样可以通过如下 OpenSSL 命令查看其证书内容：

一般 Java 和 Windows 服务器应用偏向于使用 DER 这种编码格式。

证书的几种文件扩展名

如上所述，对于 X.509 标准的证书两种不同编码格式，一般采用 PEM 编码就以 .pem 作为文件扩展名，若采用 DER 编码，就应以 .der 作为扩展名。但常见的证书扩展名还包括 .crt、.cer、.p12 等，他们采用的编码格式可能不同，内容也有所差别，但大多数都能互相转换，现总结如下：

.csr: Certificate Signing Request 的缩写，即证书签名请求，它并不是证书的格式，而是用于向权威证书颁发机构（Certificate Authority, CA）获得签名证书的申请，其核心内容包含一个 RSA 公钥和其他附带信息，在生成这个 .csr 申请的时候，同时也会生成一个配对 RSA 私钥，私钥通常需要严格保存于服务端，不能外泄。
.key: 通常用来存放一个 RSA 公钥或者私钥，它并非 X.509 证书格式，编码同样可能是 PEM，也可能是 DER，查看方式如下
.pem: 采用 PEM 编码格式的 X.509 证书的文件扩展名；
.der: 采用 DER 编码格式的 X.509 证书的文件扩展名；
.crt: 即 certificate 的缩写，常见于类 UNIX 系统，有可能是 PEM 编码，也有可能是 DER 编码，但绝大多数情况下此格式证书都是采用 PEM 编码；
.cer: 也是 certificate 的缩写，常见于 Windows 系统，同样地，可能是 PEM 编码，也可能是 DER 编码，但绝大多数情况下此格式证书都是采用 DER 编码；
.p12: 也写作 .pfx，全称：PKCS #12，是公钥加密标准（Public Key Cryptography Standards，PKCS）系列的一种，它定义了描述个人信息交换语法（Personal Information Exchange Syntax）的标准，可以用来将包含了公钥的 X.509 证书和证书对应的私钥以及其他相关信息打包，进行交换。简单理解：一份 .p12 文件 = X.509 证书+私钥；

// .pem -> .pfx
openssl pkcs12 -export -in cert.pem -out cert.pfx -inkey key.pem 
// .pfx -> .cer
openssl pkcs12 -in server.pfx -out server.cer -nodes
// .cer -> .pem
openssl x509 -inform der -in server.cer -out server.pem
// PEM -> DER
openssl x509 -in server.pem -outform der -out server.der
// DER -> PEM
openssl x509 -in server.der -inform der -outform pem -out server.pem

mongodb同步elasticSearch方案评估

发表于 2022-01-28 更新于 2024-01-13 阅读次数：

Ax70lp

什么是Elasticsearch	什么是 MongoDB？
自 2010 年发布以来，Elasticsearch 已成为全球人气排名前十的数据库之一。最初基于 Apache 的 Lucene 搜索引擎，它仍然是一个开源产品，使用 Java 构建，并以非结构化 NoSQL 格式存储数据。 Elasticsearch 专为搜索而构建，并提供高级数据索引功能。对于数据分析，它与 Kibana 和 Logstash 一起运行以形成 ELK 堆栈。	MongoDB 是一个开源的 NoSQL 数据库管理程序，可用于管理分布式架构中的大量数据。它是世界上最受欢迎的文档存储，并且在一般最受欢迎的数据库中排名前 5 位。 MongoDB 允许您管理、存储和检索面向文档的信息。它提供了快速即席查询、索引、负载平衡、数据聚合和服务器端 JavaScript 执行等功能。

如何选择数据同步工具

同步方式

搜索功能是App必不可少的一部分，我们使用目前比较流行的Elasticsearch进行全文检索。我们的数据主要存储在MongoDB中，如何将这些数据导入到Elasticsearch中，并能一直保持同步呢？做法大致分为两种：

1.应用层（以nodejs举例）
简单来讲就是我在mongodb添加一条，我同时也对es添加一条，更新删除同理。
有：mongoosastic、mongoose-elasticsearch-xp
2.数据层
有通过oplog同步数据，也有通过定期轮询新数据
有：monstache、mongo-connector、LogStash、Flink CDC

要求

需要支持旧数据全量同步、增量同步(增删改)，且近乎实时

选择建议

	monstache	Flink CDC	LogStash	mongoosastic	mongoose-elasticsearch-xp
近实时	☑️	☑️	☑️根据配置采集速度	☑️	☑️
支持(旧数据)全量同步	☑️	☑️	☑️	✖️	☑️ esSynchronise
支持增量同步(增删改)	☑️	☑️	✖️不支持删	✖️不支持删改	✖️不支持批量删改，仅支持通过findOneAndUpdate的`{new: true}`支持改
是否现在社区主流	☑️是	☑️未来主流，可多数据源打成宽表	✖️否，更适用于无需删改的日志数据	✖️否	✖️否
同步方式	数据层oplog	数据层oplog流处理	数据层定期轮询是否有数据	应用层mongoose插件	应用层mongoose插件

排除原则

1、mongo-connector太久了，支持es版本有限，且问题非常多，排除
2、mongoosastic不支持全量同步，不支持删改，排除
3、mongoose-elasticsearch-xp是在mongoosastic基础上改进的，不支持删，排除
4、LogStash不支持删同步，排除
5、一般程序构架为了解耦且并非原子操作，均不会采用在在应用层上做数据同步，排除mongoosastic、mongoose-elasticsearch-xp

实践

monstache实践mongodb同步es
Flink CDC实践mongodb到es

阿里云推荐使用：monstache
通过Monstache实时同步MongoDB数据到阿里云ES

Enterprise Search 企业搜索实践

发表于 2022-01-28 更新于 2024-01-13 阅读次数：

Elastic 企业搜索中包含Workplace Search、App Search、Site Search
我们来实践一下App Search

DwyI50

docker-compose.yml

version: '3.0'
services:
  ent-search:
    image: docker.elastic.co/enterprise-search/enterprise-search:7.13.0
    container_name: ent-search
    environment:
      - "JAVA_OPTS=-Xms2048m -Xmx2048m"
      - "ENT_SEARCH_DEFAULT_PASSWORD=XXX"
    volumes:
        - ./enterprise-search/config/enterprise-search.yml:/usr/share/enterprise-search/config/enterprise-search.yml
        - ./enterprise-search/config/certs:/usr/share/enterprise-search/config/certs
    ports:
    - 3002:3002
networks:
   default:
    external:
      name: dakewe

配置文件

secret_management.encryption_keys: [f70aa30d98a4ebf1570f3d0587b10d4712ae17ec6e9d114d9615c6d38588007f]

ent_search.listen_host: 0.0.0.0
ent_search.auth.default.source: standard

ent_search.external_url: http://103.39.231.XXX:3002

# ent_search 连接 Elasticsearch
elasticsearch.host: https://es01:9200
elasticsearch.username: elastic
elasticsearch.password: "123456"
elasticsearch.ssl.enabled: true
elasticsearch.ssl.certificate_authority: "/usr/share/enterprise-search/config/certs/client-ca.crt"
elasticsearch.ssl.certificate: "/usr/share/enterprise-search/config/certs/client.crt"
elasticsearch.ssl.key: "/usr/share/enterprise-search/config/certs/client.key"
elasticsearch.ssl.verify: false

elasticsearch.startup_retry.enabled: true
elasticsearch.startup_retry.interval: 15

# 允许操作es settings 
allow_es_settings_modification: true

kibana.external_url: http://kibana:5601

生成PKI客户端证书，供组件到ES的校验使用

# Private Key 私钥
openssl pkcs12 -in elastic-certificates.p12 -out client.crt -nokeys
# Public Certificate 公共证书
openssl pkcs12 -in elastic-certificates.p12 -out client.key -nodes -nocerts
# CA Certificate 签署公共证书的CA
openssl pkcs12 -in elastic-certificates.p12 -cacerts -nokeys -out client-ca.crt

或

# Private Key 私钥
openssl pkcs12 -in elastic-certificates.p12 -nocerts -nodes > client.key
# Public Certificate 公共证书
openssl pkcs12 -in elastic-certificates.p12 -clcerts -nokeys  > client.cer
# CA Certificate 签署公共证书的CA
openssl pkcs12 -in elastic-certificates.p12 -cacerts -nokeys -chain > client-ca.cer

注意生成后的文件删除 Bag attributes ，本人在这里卡了2天，原来是个bug

bug缘由
为此特别整理了SSL/TLS 加密传输与数字证书

实践

KitmEZ
agQyLc

IRy42Q
BivxFf

通过 monstache实践mongodb同步es，将数据从mongodb同步到es
当然你也可以使用不同的方式去得到搜索引擎的数据

在app search尝试进行搜索和数据分析

8wwon6

nV8qgF

mongodb之MapReduce

发表于 2022-01-19 更新于 2024-01-13 阅读次数：

一个MongDB的MapReduce执行的过程如下所示。

20171107203625923

执行顺序

1、执行query筛选出特定数据
2、执行map返回键值对，这里的值可以是一个list
3、执行reduce对value求sum
4、得到名为order_totals的结果

runCommand

db.runCommand(
               {
                 mapReduce: <collection>,
                 map: <function>,
                 reduce: <function>,
                 finalize: <function>,
                 out: <output>,
                 query: <document>,
                 sort: <document>,
                 limit: <number>,
                 scope: <document>,
                 jsMode: <boolean>,
                 verbose: <boolean>,
                 bypassDocumentValidation: <boolean>,
               }
             )

db.getCollection("customers").mapReduce(function () {
 emit(this.province, this.coName);
}, function (key, values) {
 return values.length;
}, {
    out: {
        inline: 1
    },
    query: {
        status: true
    },
    verbose: true
});

// 1
{
    "results": [
        {
            "_id": "贵州省",
            "value": 131
        },
        {
            "_id": "山东省",
            "value": 1796
        },
        {
            "_id": "河北省",
            "value": 196
        },
        {
            "_id": "江苏省",
            "value": 4052
        },
        {
            "_id": "福建省",
            "value": 232
        },
        {
            "_id": "安徽省",
            "value": 585
        },
        {
            "_id": "黑龙江省",
            "value": 401
        },
        {
            "_id": "香港特别行政区",
            "value": 1491
        },
        {
            "_id": "浙江省",
            "value": 2749
        },
        {
            "_id": "青海省",
            "value": 8
        },
        {
            "_id": "台湾省",
            "value": 3
        },
        {
            "_id": "天津市",
            "value": 1096
        },
        {
            "_id": "西藏自治区",
            "value": 1
        },
        {
            "_id": "江西省",
            "value": 116
        },
        {
            "_id": "甘肃省",
            "value": 176
        },
        {
            "_id": "广东省",
            "value": 7965
        },
        {
            "_id": "吉林省",
            "value": 664
        },
        {
            "_id": "宁夏回族自治区",
            "value": 68
        },
        {
            "_id": "重庆市",
            "value": 1632
        },
        {
            "_id": "上海市",
            "value": 8758
        },
        {
            "_id": "海外",
            "value": 1
        },
        {
            "_id": "新疆维吾尔自治区",
            "value": 68
        },
        {
            "_id": "辽宁省",
            "value": 894
        },
        {
            "_id": "陕西省",
            "value": 741
        },
        {
            "_id": "河南省",
            "value": 702
        },
        {
            "_id": "山西省",
            "value": 96
        },
        {
            "_id": "北京市",
            "value": 10177
        },
        {
            "_id": "澳门特别行政区",
            "value": 80
        },
        {
            "_id": "云南省",
            "value": 389
        },
        {
            "_id": "广西壮族自治区",
            "value": 183
        },
        {
            "_id": "内蒙古自治区",
            "value": 57
        },
        {
            "_id": "湖南省",
            "value": 721
        },
        {
            "_id": "四川省",
            "value": 1990
        },
        {
            "_id": "湖北省",
            "value": 3515
        },
        {
            "_id": "海南省",
            "value": 49
        }
    ],
    "ok": 1
}

关于SSR框架调研

发表于 2022-01-18 更新于 2024-01-13 阅读次数：

背景

调研一下remix这个SSR框架，顺便把市面上的vue和react的SSR框架都评估一下。

SSR解决什么问题

更好的SEO
因为SPA页面的内容是通过Ajax获取，而搜索引擎爬取工具并不会等待Ajax异步完成后再抓取页面内容，所以在SPA中是抓取不到页面通过Ajax获取到的内容的；而SSR是直接由服务端返回已经渲染好的页面（数据已经包含在页面中），所以搜索引擎爬取工具可以抓取渲染好的页面；
更利于首屏渲染
首屏的渲染是node发送过来的html字符串，并不依赖于js文件了，这就会使用户更快的看到页面的内容。尤其是针对大型单页应用，打包后文件体积比较大，普通客户端渲染加载所有所需文件时间较长，首页就会有一个很长的白屏等待时间。

概念

FCP： FCP (First Contentful Paint) 首次内容绘制标记浏览器渲染来自 DOM 第一位内容的时间点，该内容可能是文本、图像、SVG 甚至元素.
TTI： TTI (Time to Interactive) 可交互时间: 指标用于标记应用已进行视觉渲染并能可靠响应用户输入的时间点.

CSR客户端渲染

VP7Vx0

SSR服务端渲染

xFBvDs

服务端渲染效果

客户端渲染效果

从上面几张图片，我们可以看到:

首屏渲染CSR比SSR要慢很多

SEO提供给搜索引擎的内容SSR比CSR要丰富得多

数据的获取CSR在前端通过接口可查看，而SSR在服务端不可查看

SSR框架

Vue:

Nuxt.js

React:

Next.js
Remix.js

Nuxt.js 对标 Next.js
2016 年 10 月 25 日，zeit.co背后的团队对外发布了Next.js，一个 React 的服务端渲染应用框架。几小时后，与 Next.js 异曲同工，一个基于Vue.js的服务端渲染应用框架应运而生，我们称之为：Nuxt.js。

我的关注点对比

	Next.js(react)	Nuxt.js(vue)	Remix.js(react)
静态站点生成	☑️内置 next export	☑️内置 nuxt generate	🚫不支持
请求接口	☑️fetch	☑️axios	☑️Fetch API Request 和 Response 接口
数据库访问	☑️支持,更倾向api接口获取	☑️支持,更倾向api接口获取	☑️支持
访问路由 Routing	基于文件系统的路由	基于文件系统的路由，可根据文件目录自动生成路由配置	基于文件系统的路由
api路由 API Routes	pages/api目录下	自定义路由	自定义路由
数据加载 Data Fetching	☑️内置通过 getServerSideProps	☑️内置通过 asyncData	☑️内置通过 loader

路由

Remix.js

路由地址	组件
/	App.js > routes/index.js
/invoices	App.js > routes/invoices.js > routes/invoices/index.js
/invoices/late	App.js > routes/invoices.js > routes/invoices/late.js
/invoices/123	App.js > routes/invoices.js > routes/invoices/$id.js
/invoices/123/edit	App.js > routes/invoices.js > routes/invoices/$id.edit.js
/invoices/no/match	App.js > routes/404.js
/invoices/new	App.js > routes/invoices.new.js
/contact	App.js > routes/contact.js

nuxt.js

Nuxt.js 依据 pages 目录结构自动生成 vue-router 模块的路由配置

pages/
--| user/
-----| index.vue
-----| one.vue
--| index.vue

自动生成

router: {
  routes: [
    {
      name: 'index',
      path: '/',
      component: 'pages/index.vue'
    },
    {
      name: 'user',
      path: '/user',
      component: 'pages/user/index.vue'
    },
    {
      name: 'user-one',
      path: '/user/one',
      component: 'pages/user/one.vue'
    }
  ]
}

next.js

1 2	pages/index.js → / pages/blog/index.js → /blog

数据加载对比

Remix.js

每个路由模块都可以导出一个组件和一个loader. useLoaderData将加载器的数据提供给您的组件

useLoaderData这个钩子从你的路由的loader函数返回JSON解析数据

import { useLoaderData } from "remix";
import type { LoaderFunction } from "remix";

export let loader: LoaderFunction = () => {
  return fetch('https://.../products')   // -> 从接口获取
  // return Db.Product.findAll()  -> 从数据库获取
  // return [{ name: "Pants" }, { name: "Jacket" }]; -> 从静态数据获取
};

export default function Products() {
  let products = useLoaderData();
  return (
    <div>
      <h1>Products</h1>
      {products.map(product => (
        <div>{product.name}</div>
      ))}
    </div>
  );
}

nuxt.js

<template>
  <div>
    <h1>{{ title }}</h1>
    <NLink to="/product">
      About Product
    </NLink>
  </div>
</template>

<script>
export default {
  data() {
    return { project: 'default' }
  },
  async asyncData({ params }) {
    const { data } = await axios.get(`https://my-api/products/${params.id}`)
    // return Db.Product.findAll()
    // return [{ name: "Pants" }, { name: "Jacket" }];
    return { title: data.title }

  }
}
</script>

next.js

function Product({ products }) {
  return (
    <ul>
      {products.map((product) => (
        <li>{product.title}</li>
      ))}
    </ul>
  )
}

export async function getServerSideProps() {
  const res = await fetch('https://.../products')
  // return Db.Product.findAll()
  // return [{ name: "Pants" }, { name: "Jacket" }];
  const products = await res.json()

  return {
    props: {
      products,
    },
  }
}

export default Product

背景

编译

运行镜像

更改jdk版本

编译

背景

OLTP

OLAP

对比

OLAP数据库选型

按数据量划分

按建模类型划分

背景

安装：从代码编译

常见FlinkSql命令

Source表

DataGen ☑️ 测试通过

filesystem ☑️ 测试通过

mongodb ☑️ 测试通过

mysql ☑️ 测试通过

postgres ☑️ 测试通过

sql Server ☑️ 测试通过

Sink表

elasticsearch

Doris

执行插入Sink表

相关链接

事务的原子性(Atomic)

背景

排查

理论

结论

事务的隔离性(Isolation)

背景

排查

理论

结论

事务的一致性（Consistency）

事务的持久性（Durability）

monstache实践

背景

monstache配置

相关链接

背景

证书与加密

证书创建

CA证书

自签名证书

证书的编码格式

证书的几种文件扩展名

如何选择数据同步工具

同步方式

要求

选择建议

实践

实践

runCommand

背景

SSR解决什么问题

概念

CSR客户端渲染

SSR服务端渲染

SSR框架

我的关注点对比

路由

Remix.js

nuxt.js

next.js

数据加载对比

Remix.js

nuxt.js

next.js

相关链接