编辑
2024-07-22
服务端
0

Go语言中的map是一种内置的数据结构,用于存储键值对。map提供了快速查找、插入和删除操作,是实现字典和哈希表的基础。大多数情况下,它都能在O(1)的时间复杂度下实现增删改查功能,若在极端情况下出现所有key都发生哈希碰撞时则退回成链表形式,此时时间复杂度为O(N)。由于哈希表在使用过程中可能会发生内存分配,因此哈希表一般是不允许并发读写的。

编辑
2024-07-02
AI
0

背景

对于ChatGPT等大语言模型的技术原理,简单说来就是它们通过预测最有可能出现的下一个词来生成文本。这种效果类似于搜索引擎的自动补全功能,每当我们输入一个单词或者短句,输入框就开始预测后续的文本,概率越高的词排在越前面。那么,模型具体是如何计算各个词出现的概率的呢?

简述

首先,这些模型基于大量的文本数据进行训练,通过神经网络(比如下文提到的基于Transformer架构的神经网络)来学习语言的模式和结构。在训练过程中,模型会不断调整其内部参数,以最大化对训练数据中下一个词的预测准确性。

其次,模型使用的是一种称为“自回归”的方法,即它会根据前面的词语来预测下一个词。每次预测时,模型会计算出所有可能词的概率分布,然后选择概率最高的词作为输出,这些概率是通过复杂的数学计算得出的,涉及大量的矩阵运算和激活函数。模型的每一层都会对输入进行处理,逐层提取出更高层次的特征,最终在输出层生成一个概率分布。

总之,ChatGPT等生成式大语言模型通过大量数据的训练和复杂的神经网络计算,来预测最有可能的下一个词,从而实现文本生成。

而让ChatGPT成功出圈的底层技术框架就是Transformer。2017年,一篇谷歌的论文《Attention Is All You Need》 提出Transformer架构,这标志着在自然语言处理领域中从传统的循环神经网络(RNN)向Transformer架构的转变。这篇论文的重要贡献在于引入了自注意力机制(Self-Attention),通过这一机制,Transformer能够并行地处理输入序列中的各个位置信息,从而更好地捕捉长距离依赖关系。

随着Transformer的提出,它迅速在各种自然语言处理任务中取得了突出的成绩,如机器翻译、文本生成、语言理解等。这种架构的优势在于能够有效地处理长距离依赖和上下文理解,而不像传统的RNN架构那样容易受到梯度消失或梯度爆炸问题的困扰。同时,Transformer的提出也促进了预训练模型的发展,例如BERT(Bidirectional Encoder Representations from Transformers)和GPT(Generative Pre-trained Transformer)系列模型。这些模型在大规模文本语料库上进行预训练,并在特定任务上进行微调,取得了许多自然语言处理领域的最新突破。

编辑
2024-06-22
AI
0

Coze 是在 GPT 大模型之上AI Agent方向中的产品。它可以用来开发新一代 AI Chat Bot 的应用编辑平台,无论你是否有编程基础,都可以通过这个平台来快速创建各种类型的 Chat Bot,并将其发布到各类社交平台和通讯软件上。在此之前,开发者通常需要使用OpenAI提供的GPT OpenAPI来实现多轮对话、prompt预加载、私有知识库和调用自研接口等功能,成本较高。如今有了Coze这类Agent Framework,用户无需编程技能,仅需5分钟即可构建并发布一个自己的Bot。

什么是AI Agent

LLM作为推理引擎的能力不断增强,AI Agent框架为其提供了结构化思考的方法。软件生产正逐渐进入“3D打印”时代,可以根据用户需求进行个性化定制。Agent框架的目标是打造每位知识工作者信赖的AI工作伙伴,所以我们认为Agent产品需要具备一定的干预空间。目前实践中最具代表性的是两类Agent:中间层的Agent Framework和垂直领域的Vertical Agent。前者允许行业专家为自己创建Agent工作伙伴和工作流分身,使组织更加精简;后者专注于深耕某一领域的最佳实践,收集高质量的专有工作流数据。Coding Agent则是这两个方向的结合,具有潜力成为未来所有Agent与人类之间的翻译官。

一段网上对于AI Agent方向的描述,来源虎嗅《千亿美元AI Agent赛道,如何重构知识工作?》

编辑
2024-05-08
服务端
0

ElasticSearch 是什么?

ElasticSearch(下文简称ES)是一个分布式的开源搜索和分析引擎,底层基于Lucene,适用多种数据类型,对外提供简单易用的 Restful 风格的 API 。 lucene是一个开源搜索工具包,基于java编写,其主要功能就是索引和搜索

使用场景

第一想到的场景就是各大搜索引擎,底层可能或多或少有ES的身影。

除此之外,在互联网领域,ES的主要应用场景还包括:

  • 站内搜索、应用程序搜索
  • 日志管理、监控、数据分析(通常使用ELK套件)

ELK 是一个由 Elasticsearch、Logstash 和 Kibana 组成的开源数据分析和搜索解决方案。

  • Elasticsearch(数据存储和搜索引擎):一个分布式搜索和分析引擎,基于 Apache Lucene 构建。它主要用于存储、搜索和分析大规模数据。
  • Logstash(日志采集和处理):一个数据收集和处理引擎,能够从各种来源(如日志文件、数据库、消息队列等)收集数据,并将其传输到指定的存储目标。
  • Kibana(数据可视化和分析):一个数据可视化和分析工具,专为与 Elasticsearch 集成而设计。它提供了丰富的可视化组件和交互功能,帮助用户探索和分析数据。
  • 基础设施指标和容器监测
编辑
2024-04-15
服务端
0

什么是Thrift?

Thrift 是一套轻量级、跨语言、全栈式的RPC(远程过程调用)解决方案,最初由Facebook开发,后面进入Apache开源项目,包含了代码生成、序列化框架和RPC框架三大部分。大致相当于protoc + protobuffer + grpc。三部分的具体作用如下:

  • 代码生成:Thrift提供了一个IDL(接口描述语言),用于定义数据类型和服务接口。通过Thrift编译器,可以根据IDL文件生成不同编程语言的代码。这些代码包括数据结构、客户端和服务器端的接口,使得不同语言的系统可以无缝地进行通信。
  • 序列化框架:Thrift提供了高效的序列化和反序列化机制,用于将数据对象转换为字节流进行传输。Thrift支持多种传输协议(如二进制、压缩、JSON等)和传输层(如TCP、HTTP等),以满足不同的性能和兼容性需求。
  • RPC框架:Thrift包含了一个强大的RPC框架,用于实现远程过程调用。通过Thrift生成的代码,客户端可以像调用本地函数一样调用远程服务,而服务器端则可以方便地实现这些服务接口。Thrift的RPC框架支持多种传输协议和传输层,确保了跨语言和跨平台的通信一致性。